卡方检验：修订间差异

卡方检验
节点状态	/ Win10及以上可用在V1.0部署
卡方检验
节点开发者	决策链算法研发部 (Dev.Team-DPS)
节点英文名	Chi_Square Test
功能主类别	数据分析
英文缩写	ChiSTest
功能亚类别	频数表检验
节点类型	数据挖掘
开发语言	R
节点简介
	卡方检验针对分类变量, 统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小。如果卡方值越大，二者偏差程度越大；卡方值越小, 二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。用途：主要用于研究分类变量，检验两个分类变量是否独立，还可用于比较两个或更多群体在分类变量上的分布是否一致。参数：选择分类变量进行检验
端口数量与逻辑控制(PC)
Input-入口	4个
Output-出口	3个
Loop-支持循环	是
If/Switch-支持逻辑判断	否
输入输出
	可生成图片类型（推荐）不支持连接制图节点; 可生成数据表类型（推荐）卡方值; 自由度; 样本量; P值 (P-Value); 可配置参数例型变量列表; 下拉菜单; 入口类型控制流程 ➤; 传输变量 ◆; 传输源数据表 ■; 出口类型控制流程 ➤; 传输变量 ◆; 传输源数据表 ■;
相关节点
上一节点	Fisher精确检验
下一节点	Mantel-Haenszel检验
相关网站 ;

2024年1月25日 (四) 09:54的最新版本

卡方检验（也称为卡方或[math]χ^2[/math]检验）是一种在样本量较大时用于分析统计假设测试的列联表的方法。简单来说，这种测试主要用于检验两个分类变量（列联表的两个维度）是否在影响检验统计量（表中的数值）时相互独立。^[1] 当测试统计量在空假设下服从卡方分布时，此测试是有效的，特别是皮尔逊卡方检验及其变体。皮尔逊卡方检验用于确定预期的频率与列联表中一个或多个类别的观察频率之间是否存在统计上显著的差异。对于样本量较小的列联表，改用费舍尔精确检验。

在这种测试的标准应用中，观察结果被归类为相互排斥的类别。如果关于人群中类别之间没有差异的空假设是真实的，那么从观察中计算出的测试统计量将遵循一个[math]χ^2[/math] 频率分布。测试的目的是评估在假设空假设为真的情况下，观察到的频率出现的可能性。

当观察结果是独立的时，遵循[math]χ^2[/math]分布的测试统计量就会出现。也有基于成对观察结果的[math]χ^2[/math]测试，用于检验一对随机变量的独立性空假设。

卡方检验通常指的是那些测试统计量的分布在渐近上接近[math]χ^2[/math]分布的测试，这意味着如果空假设成立，测试统计量的抽样分布会随着样本大小的增加而越来越接近卡方分布。

历史

在19世纪，统计分析方法主要应用于生物数据分析，研究人员通常假设观察结果遵循正态分布，如乔治·艾里爵士和曼斯菲尔德·梅里曼的作品，这些作品被卡尔·皮尔逊在其1900年的论文中批评。 ^[2]

在19世纪末，皮尔逊注意到某些生物观察结果中存在显著的偏斜。为了对正态或偏斜的观察结果进行建模，皮尔逊在1893年至1916年间发表了一系列文章，^[3]^[4]^[5]^[6] 提出了皮尔逊分布，这是一个包括正态分布和许多偏斜分布的连续概率分布家族，并提出了一种统计分析方法，即使用皮尔逊分布对观察结果进行建模，并进行适合性检验，以确定模型与观察结果的匹配程度。

皮尔逊卡方检验

模板:另见

1900年，皮尔逊发表了一篇论文^[2]关于[math]χ^2[/math]检验，这被认为是现代统计学的基础之一。^[7] 在这篇论文中，皮尔逊研究了适合性检验。

假设来自人群的随机样本中的 $n$ 次观测被分类到 $k$ 个互斥类别中，各个类别中观测到的观测次数分别为 $x i$ （对于 $i = 1,2,\dots, k$ ），并且一个零假设给出了一个观测落入第 $i$ 类的概率 $p i$ 。所以我们对所有 $i$ 有预期数字 $m i = np i$ ，其中

[math]\begin{align} & \sum^k_{i=1}{p_i} = 1 \\[8pt] & \sum^k_{i=1}{m_i} = n\sum^k_{i=1}{p_i} = n \end{align}[/math]

皮尔逊提出，在零假设正确的情况下，随着 $n \to \infty$ ，下面给出的量的极限分布是 $χ 2$ 分布。

[math]X^2=\sum^k_{i=1}{\frac{(x_i-m_i)^2}{m_i}}=\sum^k_{i=1}{\frac{x_i^2}{m_i}-n}[/math]

皮尔逊首先处理了预期数字 $m i$ 在所有单元中都足够大的已知数字的情况，假设每个观测 $x i$ 可以被视为正态分布，并得出结论，当 $n$ 变大时， $X 2$ 遵循 $χ 2$ 分布，自由度为 $k - 1$ 。

然而，皮尔逊接下来考虑了预期数字依赖于必须从样本中估计的参数的情况，并建议，以 $m i$ 为真实预期数字， $m' i$ 为估计预期数字的表示方式，差异

[math]X^2-{X'}^2=\sum^k_{i=1}{\frac{x_i^2}{m_i}}-\sum^k_{i=1}{\frac{x_i^2}{m'_i}}[/math]

通常是正的且足够小以忽略。皮尔逊最后论述，如果我们认为 $X' 2$ 也遵循自由度为 $k - 1$ 的 $χ 2$ 分布，这种近似中的误差不会影响实际决策。这个结论在实际应用中引起了一些争议，直到费舍尔在1922年和1924年的论文中才得到解决。^[8]^[9]

卡方检验的其他例子

一个精确遵循卡方分布的检验统计量是基于样本方差来检验一个正态分布人群的方差是否具有给定值的检验。这样的检验在实践中不常见，因为人群的真实方差通常是未知的。然而，有几个统计检验，卡方分布大致有效：

费舍尔精确检验

作为2 × 2卡方独立性检验的替代，使用精确检验，请参阅费舍尔精确检验。

二项式检验

作为2 × 1卡方拟合优度检验的替代，使用精确检验，请参阅二项式检验。

其他卡方检验

科克伦-曼特尔-韩泽尔卡方检验。
麦克尼马尔检验，用于某些2 × 2表格中的配对。
图基加性检验。
在时间序列分析中的概括检验，用于检测自相关的存在。
一般统计模型中的似然比检验，用于检验是否有从简单模型转向更复杂模型的必要（其中简单模型嵌套于复杂模型中）。

耶茨连续性修正

使用卡方分布来解释皮尔逊卡方统计量需要假设表格中观测到的二项分布频率的离散概率可以通过连续的卡方分布来近似。这个假设不完全正确，引入了一些误差。

为了减少近似误差，弗兰克·耶茨提出了一个连续性修正，调整皮尔逊卡方检验的公式，通过在2 × 2列联表中从每个观测值与其预期值之间的绝对差中减去0.5。^[10] 这减少了获得的卡方值，从而增加了其p-值。

正态人群中方差的卡方检验

如果从具有正态分布的总体中抽取大小为 $n$ 的样本，则有一个结果（见样本方差的分布），允许对总体方差是否具有预先确定的值进行检验。例如，一个制造过程可能长期处于稳定状态，允许基本无误地确定方差值。假设正在测试该过程的一个变体，产生大小为 $n$ 的小样本产品项，其变异需要被测试。这种情况下的检验统计量 $T$ 可以设定为样本均值的平方和除以方差的名义值（即要作为有效值进行检验的值）。然后 $T$ 具有自由度为 $n - 1$ 的卡方分布。例如，如果样本大小为21，那么在5%的显著性水平下 $T$ 的接受区间在9.59到34.17之间。

分类数据的卡方检验示例

假设有一个拥有1,000,000居民的城市，有四个邻居： $A$ , $B$ , $C$ , 和 $D$ 。随机抽取该城市650名居民，记录他们的职业为"白领", "蓝领" 或 "无领". 零假设是每个人的居住邻居与其职业分类无关。数据如下所示：

	$A$	$B$	$C$	$D$	总计
白领	90	60	104	95	349
蓝领	30	50	51	20	151
无领	30	40	45	35	150
总计	150	150	200	150	650

让我们以居住在 $A$ 的样本，150人，来估计整个1,000,000中有多少比例的人居住在 $A$ 。同样，我们取349/650来估计1,000,000人中有多少比例是白领。根据假设下的独立性，我们应该“期望” $A$ 的白领工人数量为

[math] 150\times\frac{349}{650} \approx 80.54 [/math]

然后在该表格的“单元格”中，我们有

[math]\frac{\left(\text{observed}-\text{expected}\right)^2}{\text{expected}} = \frac{\left(90-80.54\right)^2}{80.54} \approx 1.11[/math]

这些数量的总和是检验统计量；在这种情况下，[math] \approx 24.57 [/math]。在零假设下，这个总和大致具有卡方分布，其自由度数为

[math] (\text{number of rows}-1)(\text{number of columns}-1) = (3-1)(4-1) = 6 [/math]

如果检验统计量根据该卡方分布不可信地大，则拒绝独立性的零假设。

相关问题是同质性检验。假设我们不是给每个邻居的每个居民同等机会纳入样本，而是提前决定包括每个邻居多少居民。那么每个居民被选中的机会与同一邻居的所有居民相同，但如果四个样本大小不与四个邻居的人口成比例，那么不同邻居的居民被选中的概率将不同。在这种情况下，我们正在测试“同质性”而非“独立性”。问题是四个邻居中蓝领、白领和无领工人的比例是否相同。然而，检验的方法是相同的。

应用领域

在密码分析中，卡方检验被用于比较明文和（可能的）解密密文的分布。测试的最低值意味着解密成功的可能性很高。^[11]^[12] 这种方法可以泛化用于解决现代密码学问题。^[13]

在生物信息学中，卡方检验用于比较属于不同类别（例如，疾病基因、必要基因、特定染色体上的基因等）的基因的某些特性（例如，基因组内容、突变率、相互作用网络聚类等）的分布。^[14]^[15]

节点使用的R语言示例代码

卡方检验

chisq.test(x, y = NULL, correct = TRUE,
           p = rep(1/length(x), length(x)), rescale.p = FALSE,
           simulate.p.value = FALSE, B = 2000)

节点使用指南

用来检验观测值和期望值之间是否有显著差异的非参数检验方法
用于两个或多个类别数据之间的关系分析
用于检验两个变量之间是否独立

方法选择

无方法选择

参数配置

统计变量1：选择一个离散型分类变量
统计变量2：选择一个或多个离散型分类变量，每一个变量与变量1做一次卡方检验
是否连续校正：是否应用Yates的连续性修正。Yates的连续性修正通过在每个单元格的差值中减去0.5来解决这个问题。这就使得差值和期望频数的差距变小，从而减小了卡方统计量的值，使得P值变大，降低了过度拒真的可能性。
筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
统计变量1和统计变量2要规避复用
此算法兼容空值

注意事项

所有期望频数应大于5；如果不是，考虑合并类别或使用精确概率方法
卡方检验对样本量敏感，较大的样本可能导致小的差异也显著

引用

↑ "Chi-Square - Sociology 3112 - Department of Sociology - The University of utah". soc.utah.edu. {{cite web}}: |access-date= requires |url= (help); Missing or empty |url= (help)
↑ ^2.0 ^2.1 Pearson, Karl (1900). "On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling". Philosophical Magazine. Series 5. 50 (302): 157–175. doi:10.1080/14786440009463897.
↑ Pearson, Karl (1893). "Contributions to the mathematical theory of evolution [abstract]". Proceedings of the Royal Society. 54: 329–333. doi:10.1098/rspl.1893.0079. JSTOR 115538.
↑ Pearson, Karl (1895). "Contributions to the mathematical theory of evolution, II: Skew variation in homogeneous material". Philosophical Transactions of the Royal Society. 186: 343–414. Bibcode:1895RSPTA.186..343P. doi:10.1098/rsta.1895.0010. JSTOR 90649.
↑ Pearson, Karl (1901). "Mathematical contributions to the theory of evolution, X: Supplement to a memoir on skew variation". Philosophical Transactions of the Royal Society A. 197 (287–299): 443–459. Bibcode:1901RSPTA.197..443P. doi:10.1098/rsta.1901.0023. JSTOR 90841.
↑ Pearson, Karl (1916). "Mathematical contributions to the theory of evolution, XIX: Second supplement to a memoir on skew variation". Philosophical Transactions of the Royal Society A. 216 (538–548): 429–457. Bibcode:1916RSPTA.216..429P. doi:10.1098/rsta.1916.0009. JSTOR 91092.
↑ Cochran, William G. (1952). "The Chi-square Test of Goodness of Fit". The Annals of Mathematical Statistics. 23 (3): 315–345. doi:10.1214/aoms/1177729380. JSTOR 2236678.
↑ Fisher, Ronald A. (1922). "On the Interpretation of $χ 2$ from Contingency Tables, and the Calculation of P". Journal of the Royal Statistical Society. 85 (1): 87–94. doi:10.2307/2340521. JSTOR 2340521.
↑ Fisher, Ronald A. (1924). "The Conditions Under Which $χ 2$ Measures the Discrepancey Between Observation and Hypothesis". Journal of the Royal Statistical Society. 87 (3): 442–450. JSTOR 2341149.
↑ Yates, Frank (1934). "Contingency table involving small numbers and the $χ 2$ test". Supplement to the Journal of the Royal Statistical Society. 1 (2): 217–235. doi:10.2307/2983604. JSTOR 2983604.
↑ "Chi-squared Statistic". Practical Cryptography. Archived from the original on 18 February 2015. Retrieved 18 February 2015.
↑ "Using Chi Squared to Crack Codes". IB Maths Resources. British International School Phuket. 15 June 2014.
↑ Ryabko, B. Ya.; Stognienko, V. S.; Shokin, Yu. I. (2004). "A new test for randomness and its application to some cryptographic problems" (PDF). Journal of Statistical Planning and Inference. 123 (2): 365–376. doi:10.1016/s0378-3758(03)00149-6. Retrieved 18 February 2015.
↑ Feldman, I.; Rzhetsky, A.; Vitkup, D. (2008). "Network properties of genes harboring inherited disease mutations". PNAS. 105 (11): 4323–432. Bibcode:2008PNAS..105.4323F. doi:10.1073/pnas.0701722105. PMC 2393821. PMID 18326631.
↑ "chi-square-tests" (PDF). Archived from the original (PDF) on 29 June 2018. Retrieved 29 June 2018.

查找其他类别的节点，请参考以下列表

数据输入

多CSV表合并读取多Excel表合并读取导入CSV数据导入Excel数据导入SAV数据导入TSV数据

变量处理

中文变量名替换更新变量名标准化变量名转换变量类型

行列处理

行处理

去重样本样本量计数筛选样本筛选行空值过滤表格

矩阵处理

矩阵变换聚合表格

表格处理

分层变量循环转列表多表数据连接抽样数据合并数据连接

描述性统计

描述统计

数据分析描述统计

统计检验

正态性检验

单因素正态性检验多因素正态性检验

参数检验

Friedman检验两样本配对T检验两独立样本T检验单样本T检验

非参数检验

Ridit分析游程检验秩和检验符号检验

频数表检验

Fisher精确检验G检验Mantel-Haenszel检验McNemar检验卡方检验

方差分析

F检验One Way ANCOVAOne Way ANOVATwo Way ANCOVATwo Way ANOVAWelch检验多元方差分析多重比较方差分析方差齐性检验球形检验

@@ 第128行： / 第128行： @@
 假设来自人群的随机样本中的{{mvar|n}}次观测被分类到{{mvar|k}}个互斥类别中，各个类别中观测到的观测次数分别为{{mvar|x<sub>i</sub>}}（对于{{math|''i'' {{=}} 1,2,…,''k''}}），并且一个零假设给出了一个观测落入第{{mvar|i}}类的概率{{mvar|p<sub>i</sub>}}。所以我们对所有{{mvar|i}}有预期数字{{math|''m<sub>i</sub>'' {{=}} ''np<sub>i</sub>''}}，其中
-:[math]\begin{align}
+[math]\begin{align}
 & \sum^k_{i=1}{p_i} = 1 \\[8pt]
 & \sum^k_{i=1}{m_i} = n\sum^k_{i=1}{p_i} = n
@@ 第196行： / 第196行： @@
 == '''正态人群中方差的卡方检验''' ==
 如果从具有[[normal distribution|正态分布]]的总体中抽取大小为{{math|''n''}}的样本，则有一个结果（见[[Variance#Distribution of the sample variance|样本方差的分布]]），允许对总体方差是否具有预先确定的值进行检验。例如，一个制造过程可能长期处于稳定状态，允许基本无误地确定方差值。假设正在测试该过程的一个变体，产生大小为{{math|''n''}}的小样本产品项，其变异需要被测试。这种情况下的检验统计量{{math|''T''}}可以设定为样本均值的平方和除以方差的名义值（即要作为有效值进行检验的值）。然后{{math|''T''}}具有自由度为{{math|''n'' − 1}}的[[Degrees of freedom (statistics)|卡方分布]]。例如，如果样本大小为21，那么在5%的显著性水平下{{math|''T''}}的接受区间在9.59到34.17之间。
-<!--
-=='''列联表示例的卡方检验'''==
-[[Dispute: This example is actually for a goodness-of-fit test, and NOT a test of independence in a contingency table]] [[Dispute claim is valid]]
-可以对[[contingency table|列联表]]应用卡方检验，以测试行列独立性的零假设。
-作为使用卡方检验的一个示例，公平的硬币是指抛掷后正反面出现的概率相等。假设有人给了一枚硬币并要求测试它是否公平。经过200次试验后，正面出现153次，反面出现147次。以下是卡方分析，其中零假设是硬币是公平的：
-{|class="wikitable" align="center"
-|+ 投掷硬币的卡方计算
-| |
-| | 正面
-| 反面
-| 总计
-|-
-| | 观察值
-| | 53
-| | 47
-| | 100
-|-
-| | 预期值
-| | 50
-| | 50
-| | 100
-|-
-| | {{math|(''O'' − ''E'')<sup>2</sup>}}
-| | 9
-| | 9
-| |
-|-
-| | {{math|1=χ<sup>2</sup> = (''O'' − ''E'')<sup>2</sup>/''E''}}
-| | 0.18
-| | 0.18
-| | 0.36
-|}
-在这种情况下，检验具有一个[[Degrees of freedom (statistics)|自由度]]，卡方值为0.36。为了确定这一结果是否[[statistically significant|统计显著]]，必须计算或在图表中查找[[p-value|P值]]（即在零假设为真时观察到至少这么极端结果的概率）。P值，{{math|Prob(χ<sup>2</sup> ≥ 0.36)}}, 被发现为0.5485。因此，如果硬币确实公平，看到至少这么偏离预期结果的数据的概率约为55%。这一概率不被认为是硬币不公平的统计显著证据。-->
 =='''分类数据的卡方检验示例'''==

卡方检验

节点状态	/ Win10及以上可用在V1.0部署
节点开发者	决策链算法研发部 (Dev.Team-DPS)
节点英文名	Chi_Square Test
功能主类别	数据分析
英文缩写	ChiSTest
功能亚类别	频数表检验
节点类型	数据挖掘
开发语言	R
节点简介
卡方检验针对分类变量, 统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小。如果卡方值越大，二者偏差程度越大；卡方值越小, 二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。用途：主要用于研究分类变量，检验两个分类变量是否独立，还可用于比较两个或更多群体在分类变量上的分布是否一致。参数：选择分类变量进行检验
端口数量与逻辑控制(PC)
Input-入口	4个
Output-出口	3个
Loop-支持循环	是
If/Switch-支持逻辑判断	否
输入输出
可生成图片类型（推荐）不支持连接制图节点可生成数据表类型（推荐）卡方值自由度样本量 P值 (P-Value) 可配置参数例型变量列表下拉菜单入口类型控制流程 ➤ 传输变量 ◆ 传输源数据表 ■ 出口类型控制流程 ➤ 传输变量 ◆ 传输源数据表 ■
相关节点
上一节点	Fisher精确检验
下一节点	Mantel-Haenszel检验
相关网站