卡方检验

来自决策链云智库
(重定向自卡方检验
Chi Square Test.png
节点状态
Windows / Windows 10 Win10及以上可用
V1.0部署
卡方检验Chi Square Test.svg
节点开发者决策链算法研发部 (Dev.Team-DPS)
节点英文名Chi_Square Test
功能主类别数据分析
英文缩写ChiSTest
功能亚类别频数表检验
节点类型数据挖掘
开发语言R
节点简介

卡方检验针对分类变量, 统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小。如果卡方值越大,二者偏差程度越大;卡方值越小, 二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

用途:主要用于研究分类变量,检验两个分类变量是否独立,还可用于比较两个或更多群体在分类变量上的分布是否一致。

参数:选择分类变量进行检验

端口数量与逻辑控制(PC)
Input-入口4个
Output-出口3个
Loop-支持循环
If/Switch-支持逻辑判断
输入输出
可生成图片类型(推荐)
可生成数据表类型(推荐)
相关节点
上一节点Fisher精确检验
下一节点Mantel-Haenszel检验



卡方检验(也称为卡方[math]χ^2[/math]检验)是一种在样本量较大时用于分析统计假设测试列联表的方法。简单来说,这种测试主要用于检验两个分类变量(列联表的两个维度)是否在影响检验统计量(表中的数值)时相互独立。[1] 当测试统计量在空假设下服从卡方分布时,此测试是有效的,特别是皮尔逊卡方检验及其变体。皮尔逊卡方检验用于确定预期的频率列联表中一个或多个类别的观察频率之间是否存在统计上显著的差异。对于样本量较小的列联表,改用费舍尔精确检验

在这种测试的标准应用中,观察结果被归类为相互排斥的类别。如果关于人群中类别之间没有差异的空假设是真实的,那么从观察中计算出的测试统计量将遵循一个[math]χ^2[/math] 频率分布。测试的目的是评估在假设空假设为真的情况下,观察到的频率出现的可能性。

当观察结果是独立的时,遵循[math]χ^2[/math]分布的测试统计量就会出现。也有基于成对观察结果的[math]χ^2[/math]测试,用于检验一对随机变量的独立性空假设。

卡方检验通常指的是那些测试统计量的分布在渐近上接近[math]χ^2[/math]分布的测试,这意味着如果空假设成立,测试统计量的抽样分布会随着样本大小的增加而越来越接近卡方分布。

历史

在19世纪,统计分析方法主要应用于生物数据分析,研究人员通常假设观察结果遵循正态分布,如乔治·艾里爵士曼斯菲尔德·梅里曼的作品,这些作品被卡尔·皮尔逊在其1900年的论文中批评。 [2]

在19世纪末,皮尔逊注意到某些生物观察结果中存在显著的偏斜。为了对正态或偏斜的观察结果进行建模,皮尔逊在1893年至1916年间发表了一系列文章,[3][4][5][6] 提出了皮尔逊分布,这是一个包括正态分布和许多偏斜分布的连续概率分布家族,并提出了一种统计分析方法,即使用皮尔逊分布对观察结果进行建模,并进行适合性检验,以确定模型与观察结果的匹配程度。

皮尔逊卡方检验

模板:另见

1900年,皮尔逊发表了一篇论文[2]关于[math]χ^2[/math]检验,这被认为是现代统计学的基础之一。[7] 在这篇论文中,皮尔逊研究了适合性检验。

假设来自人群的随机样本中的n次观测被分类到k个互斥类别中,各个类别中观测到的观测次数分别为xi(对于i = 1,2,…,k),并且一个零假设给出了一个观测落入第i类的概率pi。所以我们对所有i有预期数字mi = npi,其中

[math]\begin{align} & \sum^k_{i=1}{p_i} = 1 \\[8pt] & \sum^k_{i=1}{m_i} = n\sum^k_{i=1}{p_i} = n \end{align}[/math]

皮尔逊提出,在零假设正确的情况下,随着n → ∞,下面给出的量的极限分布是χ2分布。

[math]X^2=\sum^k_{i=1}{\frac{(x_i-m_i)^2}{m_i}}=\sum^k_{i=1}{\frac{x_i^2}{m_i}-n}[/math]

皮尔逊首先处理了预期数字mi在所有单元中都足够大的已知数字的情况,假设每个观测xi可以被视为正态分布,并得出结论,当n变大时,X2遵循χ2分布,自由度为k − 1

然而,皮尔逊接下来考虑了预期数字依赖于必须从样本中估计的参数的情况,并建议,以mi为真实预期数字,mi为估计预期数字的表示方式,差异

[math]X^2-{X'}^2=\sum^k_{i=1}{\frac{x_i^2}{m_i}}-\sum^k_{i=1}{\frac{x_i^2}{m'_i}}[/math]

通常是正的且足够小以忽略。皮尔逊最后论述,如果我们认为X2也遵循自由度为k − 1χ2分布,这种近似中的误差不会影响实际决策。这个结论在实际应用中引起了一些争议,直到费舍尔在1922年和1924年的论文中才得到解决。[8][9]

卡方检验的其他例子

一个精确遵循卡方分布检验统计量是基于样本方差来检验一个正态分布人群的方差是否具有给定值的检验。这样的检验在实践中不常见,因为人群的真实方差通常是未知的。然而,有几个统计检验,卡方分布大致有效:

费舍尔精确检验

作为2 × 2卡方独立性检验的替代,使用精确检验,请参阅费舍尔精确检验

二项式检验

作为2 × 1卡方拟合优度检验的替代,使用精确检验,请参阅二项式检验

其他卡方检验

耶茨连续性修正

使用卡方分布来解释皮尔逊卡方统计量需要假设表格中观测到的二项分布频率的离散概率可以通过连续的卡方分布来近似。这个假设不完全正确,引入了一些误差。

为了减少近似误差,弗兰克·耶茨提出了一个连续性修正,调整皮尔逊卡方检验的公式,通过在2 × 2列联表中从每个观测值与其预期值之间的绝对差中减去0.5。[10] 这减少了获得的卡方值,从而增加了其p-值

正态人群中方差的卡方检验

如果从具有正态分布的总体中抽取大小为n的样本,则有一个结果(见样本方差的分布),允许对总体方差是否具有预先确定的值进行检验。例如,一个制造过程可能长期处于稳定状态,允许基本无误地确定方差值。假设正在测试该过程的一个变体,产生大小为n的小样本产品项,其变异需要被测试。这种情况下的检验统计量T可以设定为样本均值的平方和除以方差的名义值(即要作为有效值进行检验的值)。然后T具有自由度为n − 1卡方分布。例如,如果样本大小为21,那么在5%的显著性水平下T的接受区间在9.59到34.17之间。

分类数据的卡方检验示例

假设有一个拥有1,000,000居民的城市,有四个邻居:A, B, C, 和D。随机抽取该城市650名居民,记录他们的职业为"白领", "蓝领" 或 "无领". 零假设是每个人的居住邻居与其职业分类无关。数据如下所示:

A B C D 总计
白领 90 60 104 95 349
蓝领 30 50 51 20 151
无领 30 40 45 35 150
总计 150 150 200 150 650

让我们以居住在A的样本,150人,来估计整个1,000,000中有多少比例的人居住在A。同样,我们取349/650来估计1,000,000人中有多少比例是白领。根据假设下的独立性,我们应该“期望”A的白领工人数量为

[math] 150\times\frac{349}{650} \approx 80.54 [/math]

然后在该表格的“单元格”中,我们有

[math]\frac{\left(\text{observed}-\text{expected}\right)^2}{\text{expected}} = \frac{\left(90-80.54\right)^2}{80.54} \approx 1.11[/math]

这些数量的总和是检验统计量;在这种情况下,[math] \approx 24.57 [/math]。在零假设下,这个总和大致具有卡方分布,其自由度数为

[math] (\text{number of rows}-1)(\text{number of columns}-1) = (3-1)(4-1) = 6 [/math]

如果检验统计量根据该卡方分布不可信地大,则拒绝独立性的零假设。

相关问题是同质性检验。假设我们不是给每个邻居的每个居民同等机会纳入样本,而是提前决定包括每个邻居多少居民。那么每个居民被选中的机会与同一邻居的所有居民相同,但如果四个样本大小不与四个邻居的人口成比例,那么不同邻居的居民被选中的概率将不同。在这种情况下,我们正在测试“同质性”而非“独立性”。问题是四个邻居中蓝领、白领和无领工人的比例是否相同。然而,检验的方法是相同的。

应用领域

密码分析中,卡方检验被用于比较明文和(可能的)解密密文的分布。测试的最低值意味着解密成功的可能性很高。[11][12] 这种方法可以泛化用于解决现代密码学问题。[13]

生物信息学中,卡方检验用于比较属于不同类别(例如,疾病基因、必要基因、特定染色体上的基因等)的基因的某些特性(例如,基因组内容、突变率、相互作用网络聚类等)的分布。[14][15]

节点使用的R语言示例代码

卡方检验

chisq.test(x, y = NULL, correct = TRUE,
           p = rep(1/length(x), length(x)), rescale.p = FALSE,
           simulate.p.value = FALSE, B = 2000)

节点使用指南

  • 用来检验观测值和期望值之间是否有显著差异的非参数检验方法
  • 用于两个或多个类别数据之间的关系分析
  • 用于检验两个变量之间是否独立

方法选择

  • 无方法选择

参数配置

  • 统计变量1:选择一个离散型分类变量
  • 统计变量2:选择一个或多个离散型分类变量,每一个变量与变量1做一次卡方检验
  • 是否连续校正:是否应用Yates的连续性修正。Yates的连续性修正通过在每个单元格的差值中减去0.5来解决这个问题。这就使得差值和期望频数的差距变小,从而减小了卡方统计量的值,使得P值变大,降低了过度拒真的可能性。
  • 筛选阈值:选择需要的P值阈值,节点会自动将满足阈值的变量筛选出,数据集也会同步筛选出满足的变量。
  • 统计变量1和统计变量2要规避复用
  • 此算法兼容空值

注意事项

  • 所有期望频数应大于5;如果不是,考虑合并类别或使用精确概率方法
  • 卡方检验对样本量敏感,较大的样本可能导致小的差异也显著

引用

  1. "Chi-Square - Sociology 3112 - Department of Sociology - The University of utah". soc.utah.edu. {{cite web}}: |access-date= requires |url= (help); Missing or empty |url= (help)
  2. 2.0 2.1 Pearson, Karl (1900). "On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling". Philosophical Magazine. Series 5. 50 (302): 157–175. doi:10.1080/14786440009463897.
  3. Pearson, Karl (1893). "Contributions to the mathematical theory of evolution [abstract]". Proceedings of the Royal Society. 54: 329–333. doi:10.1098/rspl.1893.0079. JSTOR 115538.
  4. Pearson, Karl (1895). "Contributions to the mathematical theory of evolution, II: Skew variation in homogeneous material". Philosophical Transactions of the Royal Society. 186: 343–414. Bibcode:1895RSPTA.186..343P. doi:10.1098/rsta.1895.0010. JSTOR 90649.
  5. Pearson, Karl (1901). "Mathematical contributions to the theory of evolution, X: Supplement to a memoir on skew variation". Philosophical Transactions of the Royal Society A. 197 (287–299): 443–459. Bibcode:1901RSPTA.197..443P. doi:10.1098/rsta.1901.0023. JSTOR 90841.
  6. Pearson, Karl (1916). "Mathematical contributions to the theory of evolution, XIX: Second supplement to a memoir on skew variation". Philosophical Transactions of the Royal Society A. 216 (538–548): 429–457. Bibcode:1916RSPTA.216..429P. doi:10.1098/rsta.1916.0009. JSTOR 91092.
  7. Cochran, William G. (1952). "The Chi-square Test of Goodness of Fit". The Annals of Mathematical Statistics. 23 (3): 315–345. doi:10.1214/aoms/1177729380. JSTOR 2236678.
  8. Fisher, Ronald A. (1922). "On the Interpretation of χ2 from Contingency Tables, and the Calculation of P". Journal of the Royal Statistical Society. 85 (1): 87–94. doi:10.2307/2340521. JSTOR 2340521.
  9. Fisher, Ronald A. (1924). "The Conditions Under Which χ2 Measures the Discrepancey Between Observation and Hypothesis". Journal of the Royal Statistical Society. 87 (3): 442–450. JSTOR 2341149.
  10. Yates, Frank (1934). "Contingency table involving small numbers and the χ2 test". Supplement to the Journal of the Royal Statistical Society. 1 (2): 217–235. doi:10.2307/2983604. JSTOR 2983604.
  11. "Chi-squared Statistic". Practical Cryptography. Archived from the original on 18 February 2015. Retrieved 18 February 2015.
  12. "Using Chi Squared to Crack Codes". IB Maths Resources. British International School Phuket. 15 June 2014.
  13. Ryabko, B. Ya.; Stognienko, V. S.; Shokin, Yu. I. (2004). "A new test for randomness and its application to some cryptographic problems" (PDF). Journal of Statistical Planning and Inference. 123 (2): 365–376. doi:10.1016/s0378-3758(03)00149-6. Retrieved 18 February 2015.
  14. Feldman, I.; Rzhetsky, A.; Vitkup, D. (2008). "Network properties of genes harboring inherited disease mutations". PNAS. 105 (11): 4323–432. Bibcode:2008PNAS..105.4323F. doi:10.1073/pnas.0701722105. PMC 2393821. PMID 18326631.
  15. "chi-square-tests" (PDF). Archived from the original (PDF) on 29 June 2018. Retrieved 29 June 2018.

查找其他类别的节点,请参考以下列表