Zeroclanzhang(讨论 | 贡献) 无编辑摘要 |
无编辑摘要 |
||
第28行: | 第28行: | ||
}} | }} | ||
卡方检验'''(也称为'''卡方'''或'''[math]χ^2[/math]检验''')是一种在样本量较大时用于分析[[统计假设检验|统计假设测试]]的[[列联表|列联表]]的方法。简单来说,这种测试主要用于检验两个分类变量(''列联表的两个维度'')是否在影响检验统计量(''表中的数值'')时相互独立。<ref>{{Cite web |title=Chi-Square - Sociology 3112 - Department of Sociology - The University of utah |url= |access-date=2022-11-12 |website=soc.utah.edu}}</ref> 当测试统计量在[[空假设]]下服从[[卡方分布|卡方分布]]时,此测试是[[统计有效性|有效的]],特别是[[皮尔逊卡方检验]]及其变体。皮尔逊卡方检验用于确定预期的[[频率(统计学)|频率]]与[[列联表]]中一个或多个类别的观察频率之间是否存在[[统计显著性|统计上显著的]]差异。对于样本量较小的列联表,改用[[费舍尔精确检验]]。 | |||
在这种测试的标准应用中,观察结果被归类为相互排斥的类别。如果关于人群中类别之间没有差异的[[空假设]]是真实的,那么从观察中计算出的测试统计量将遵循一个[math]χ^2[/math] [[频率分布]]。测试的目的是评估在假设空假设为真的情况下,观察到的频率出现的可能性。 | |||
当观察结果是独立的时,遵循[math]χ^2[/math]分布的测试统计量就会出现。也有基于成对观察结果的[math]χ^2[/math]测试,用于检验一对[[随机变量]]的独立性空假设。 | |||
''卡方检验''通常指的是那些测试统计量的分布在[[渐近线|渐近]]上接近[math]χ^2[/math]分布的测试,这意味着如果空假设成立,测试统计量的[[抽样分布]]会随着[[样本(统计学)|样本]]大小的增加而越来越接近卡方分布。 | |||
== '''历史''' == | |||
在19世纪,统计分析方法主要应用于生物数据分析,研究人员通常假设观察结果遵循[[正态分布]],如[[乔治·艾里爵士]]和[[曼斯菲尔德·梅里曼]]的作品,这些作品被[[卡尔·皮尔逊]]在其1900年的论文中批评。 | |||
<ref name = Pearson1900> | |||
{{cite journal | |||
| last = Pearson | first = Karl | |||
| author-link = Karl Pearson | |||
| title = On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling | |||
| journal = Philosophical Magazine |series=Series 5 | |||
| volume = 50 | |||
| issue = 302 | |||
| year = 1900 | |||
| pages = 157–175 | |||
| url = https://www.tandfonline.com/doi/abs/10.1080/14786440009463897 | |||
| doi = 10.1080/14786440009463897 | |||
}}</ref> | |||
在19世纪末,皮尔逊注意到某些生物观察结果中存在显著的[[偏斜]]。为了对正态或偏斜的观察结果进行建模,皮尔逊在1893年至1916年间发表了一系列文章,<ref name = Pearson1893> | |||
{{cite journal | |||
| last = Pearson | first = Karl | |||
| author-link = Karl Pearson | |||
| title = Contributions to the mathematical theory of evolution [abstract] | |||
| journal = Proceedings of the Royal Society | |||
| volume = 54 | |||
| year = 1893 | |||
| pages = 329–333 | |||
| jstor = 115538 | |||
| doi = 10.1098/rspl.1893.0079 | |||
| doi-access = free | |||
}}</ref><ref name = Pearson1895> | |||
{{cite journal | |||
| last = Pearson | first = Karl | |||
| author-link = Karl Pearson | |||
| title = Contributions to the mathematical theory of evolution, II: Skew variation in homogeneous material | |||
| journal = Philosophical Transactions of the Royal Society | |||
| volume = 186 | |||
| year = 1895 | |||
| pages = 343–414 | |||
| bibcode = 1895RSPTA.186..343P | |||
| jstor = 90649 | |||
| doi = 10.1098/rsta.1895.0010 | |||
| url = https://zenodo.org/record/1432104 | |||
| doi-access = free | |||
}}</ref><ref name = Pearson1901> | |||
{{cite journal | |||
| last = Pearson | first = Karl | |||
| author-link = Karl Pearson | |||
| title = Mathematical contributions to the theory of evolution, X: Supplement to a memoir on skew variation | |||
| journal = Philosophical Transactions of the Royal Society A | |||
| volume = 197 | |||
| issue = 287–299 | |||
| year = 1901 | |||
| pages = 443–459 | |||
| bibcode = 1901RSPTA.197..443P | |||
| jstor = 90841 | |||
| doi = 10.1098/rsta.1901.0023 | |||
| doi-access = | |||
}}</ref><ref name = Pearson1916> | |||
{{cite journal | |||
| last = Pearson | first = Karl | |||
| author-link = Karl Pearson | |||
| title = Mathematical contributions to the theory of evolution, XIX: Second supplement to a memoir on skew variation | |||
| journal = Philosophical Transactions of the Royal Society A | |||
| volume = 216 | |||
| issue = 538–548 | |||
| year = 1916 | |||
| pages = 429–457 | |||
| bibcode = 1916RSPTA.216..429P | |||
| jstor = 91092 | |||
| doi = 10.1098/rsta.1916.0009 | |||
| doi-access = free | |||
}}</ref> 提出了[[皮尔逊分布]],这是一个包括正态分布和许多偏斜分布的连续[[概率分布]]家族,并提出了一种统计分析方法,即使用皮尔逊分布对观察结果进行建模,并进行适合性检验,以确定模型与观察结果的匹配程度。 | |||
=== 皮尔逊卡方检验 === | |||
{{另见|皮尔逊卡方检验}} | |||
1900年,皮尔逊发表了一篇论文<ref name = Pearson1900 />关于[math]χ^2[/math]检验,这被认为是现代统计学的基础之一。<ref name = Cochran1952> | |||
{{cite journal | |||
| last = Cochran | first = William G. | |||
| author-link = William G. Cochran | |||
| title = The Chi-square Test of Goodness of Fit | |||
| journal = The Annals of Mathematical Statistics | |||
| volume = 23 | |||
| issue = 3 | |||
| year = 1952 | |||
| pages = 315–345 | |||
| jstor = 2236678 | |||
| doi=10.1214/aoms/1177729380 | |||
| doi-access = free | |||
}}</ref> 在这篇论文中,皮尔逊研究了适合性检验。 | |||
假设来自人群的随机样本中的{{mvar|n}}次观测被分类到{{mvar|k}}个互斥类别中,各个类别中观测到的观测次数分别为{{mvar|x<sub>i</sub>}}(对于{{math|''i'' {{=}} 1,2,…,''k''}}),并且一个零假设给出了一个观测落入第{{mvar|i}}类的概率{{mvar|p<sub>i</sub>}}。所以我们对所有{{mvar|i}}有预期数字{{math|''m<sub>i</sub>'' {{=}} ''np<sub>i</sub>''}},其中 | |||
:[math]\begin{align} | |||
& \sum^k_{i=1}{p_i} = 1 \\[8pt] | |||
& \sum^k_{i=1}{m_i} = n\sum^k_{i=1}{p_i} = n | |||
\end{align}[/math] | |||
皮尔逊提出,在零假设正确的情况下,随着{{math|''n'' → ∞}},下面给出的量的极限分布是{{math|χ<sup>2</sup>}}分布。 | |||
:[math]X^2=\sum^k_{i=1}{\frac{(x_i-m_i)^2}{m_i}}=\sum^k_{i=1}{\frac{x_i^2}{m_i}-n}[/math] | |||
皮尔逊首先处理了预期数字{{mvar|m<sub>i</sub>}}在所有单元中都足够大的已知数字的情况,假设每个观测{{mvar|x<sub>i</sub>}}可以被视为[[normal distribution|正态分布]],并得出结论,当{{mvar|n}}变大时,{{math|''X''{{isup|2}}}}遵循{{math|χ<sup>2</sup>}}分布,自由度为{{math|''k'' − 1}}。 | |||
然而,皮尔逊接下来考虑了预期数字依赖于必须从样本中估计的参数的情况,并建议,以{{mvar|m<sub>i</sub>}}为真实预期数字,{{math|''m''′<sub>''i''</sub>}}为估计预期数字的表示方式,差异 | |||
:[math]X^2-{X'}^2=\sum^k_{i=1}{\frac{x_i^2}{m_i}}-\sum^k_{i=1}{\frac{x_i^2}{m'_i}}[/math] | |||
通常是正的且足够小以忽略。皮尔逊最后论述,如果我们认为{{math|''X''′{{isup|2}}}}也遵循自由度为{{math|''k'' − 1}}的{{math|χ<sup>2</sup>}}分布,这种近似中的误差不会影响实际决策。这个结论在实际应用中引起了一些争议,直到费舍尔在1922年和1924年的论文中才得到解决。<ref name = Fisher1922> | |||
{{cite journal | |||
| last = Fisher | first = Ronald A. | |||
| author-link = Ronald A. Fisher | |||
| title = On the Interpretation of {{math|χ<sup>2</sup>}} from Contingency Tables, and the Calculation of P | |||
| journal = Journal of the Royal Statistical Society | |||
| volume = 85 | |||
| issue = 1 | |||
| year = 1922 | |||
| pages = 87–94 | |||
| jstor = 2340521 | |||
| doi=10.2307/2340521 | |||
}} | |||
</ref><ref name = Fisher1924> | |||
{{cite journal | |||
| last = Fisher | first = Ronald A. | |||
| author-link = Ronald A. Fisher | |||
| title = The Conditions Under Which {{math|χ<sup>2</sup>}} Measures the Discrepancey Between Observation and Hypothesis | |||
| journal = Journal of the Royal Statistical Society | |||
| volume = 87 | |||
| issue = 3 | |||
| year = 1924 | |||
| pages = 442–450 | |||
| jstor = 2341149 | |||
}}</ref> | |||
== '''卡方检验的其他例子''' == | |||
一个精确遵循[[chi-squared distribution|卡方分布]]的[[test statistic|检验统计量]]是基于[[sample variance|样本方差]]来检验一个正态分布人群的方差是否具有给定值的检验。这样的检验在实践中不常见,因为人群的真实方差通常是未知的。然而,有几个统计检验,卡方分布大致有效: | |||
=== 费舍尔精确检验 === | |||
作为2 × 2卡方独立性检验的替代,使用精确检验,请参阅[[Fisher's exact test|费舍尔精确检验]]。 | |||
=== 二项式检验 === | |||
作为2 × 1卡方拟合优度检验的替代,使用精确检验,请参阅[[binomial test|二项式检验]]。 | |||
=== 其他卡方检验 === | |||
* [[Cochran–Mantel–Haenszel statistics|科克伦-曼特尔-韩泽尔卡方检验]]。 | |||
* [[McNemar's test|麦克尼马尔检验]],用于某些{{nowrap|2 × 2}}表格中的配对。 | |||
* [[Tukey's test of additivity|图基加性检验]]。 | |||
* 在[[time-series analysis|时间序列分析]]中的[[portmanteau test|概括检验]],用于检测[[autocorrelation|自相关]]的存在。 | |||
* 一般[[statistical model|统计模型]]中的[[Likelihood-ratio test|似然比检验]],用于检验是否有从简单模型转向更复杂模型的必要(其中简单模型嵌套于复杂模型中)。 | |||
== '''耶茨连续性修正''' == | |||
{{Main|Yates's correction for continuity}} | |||
使用[[chi-squared distribution|卡方分布]]来解释[[Pearson's chi-squared test|皮尔逊卡方统计量]]需要假设表格中观测到的[[binomial distribution|二项分布]]频率的[[Discrete probability distribution|离散]]概率可以通过连续的[[chi-squared distribution|卡方分布]]来近似。这个假设不完全正确,引入了一些误差。 | |||
为了减少近似误差,[[Frank Yates|弗兰克·耶茨]]提出了一个连续性修正,调整[[Pearson's chi-squared test|皮尔逊卡方检验]]的公式,通过在{{nowrap|2 × 2}}列联表中从每个观测值与其预期值之间的绝对差中减去0.5。<ref name=Yates>{{cite journal|author-link=Frank Yates|last=Yates|first=Frank|date=1934|title=Contingency table involving small numbers and the {{math|χ<sup>2</sup>}} test|journal=Supplement to the Journal of the Royal Statistical Society|volume=1|issue=2|pages=217–235|jstor=2983604|doi=10.2307/2983604}}</ref> 这减少了获得的卡方值,从而增加了其[[p-value|''p''-值]]。 | |||
== '''正态人群中方差的卡方检验''' == | |||
如果从具有[[normal distribution|正态分布]]的总体中抽取大小为{{math|''n''}}的样本,则有一个结果(见[[Variance#Distribution of the sample variance|样本方差的分布]]),允许对总体方差是否具有预先确定的值进行检验。例如,一个制造过程可能长期处于稳定状态,允许基本无误地确定方差值。假设正在测试该过程的一个变体,产生大小为{{math|''n''}}的小样本产品项,其变异需要被测试。这种情况下的检验统计量{{math|''T''}}可以设定为样本均值的平方和除以方差的名义值(即要作为有效值进行检验的值)。然后{{math|''T''}}具有自由度为{{math|''n'' − 1}}的[[Degrees of freedom (statistics)|卡方分布]]。例如,如果样本大小为21,那么在5%的显著性水平下{{math|''T''}}的接受区间在9.59到34.17之间。 | |||
<!-- | |||
=='''列联表示例的卡方检验'''== | |||
[[Dispute: This example is actually for a goodness-of-fit test, and NOT a test of independence in a contingency table]] [[Dispute claim is valid]] | |||
可以对[[contingency table|列联表]]应用卡方检验,以测试行列独立性的零假设。 | |||
作为使用卡方检验的一个示例,公平的硬币是指抛掷后正反面出现的概率相等。假设有人给了一枚硬币并要求测试它是否公平。经过200次试验后,正面出现153次,反面出现147次。以下是卡方分析,其中零假设是硬币是公平的: | |||
{|class="wikitable" align="center" | |||
|+ 投掷硬币的卡方计算 | |||
| | | |||
| | 正面 | |||
| 反面 | |||
| 总计 | |||
|- | |||
| | 观察值 | |||
| | 53 | |||
| | 47 | |||
| | 100 | |||
|- | |||
| | 预期值 | |||
| | 50 | |||
| | 50 | |||
| | 100 | |||
|- | |||
| | {{math|(''O'' − ''E'')<sup>2</sup>}} | |||
| | 9 | |||
| | 9 | |||
| | | |||
|- | |||
| | {{math|1=χ<sup>2</sup> = (''O'' − ''E'')<sup>2</sup>/''E''}} | |||
| | 0.18 | |||
| | 0.18 | |||
| | 0.36 | |||
|} | |||
在这种情况下,检验具有一个[[Degrees of freedom (statistics)|自由度]],卡方值为0.36。为了确定这一结果是否[[statistically significant|统计显著]],必须计算或在图表中查找[[p-value|P值]](即在零假设为真时观察到至少这么极端结果的概率)。P值,{{math|Prob(χ<sup>2</sup> ≥ 0.36)}}, 被发现为0.5485。因此,如果硬币确实公平,看到至少这么偏离预期结果的数据的概率约为55%。这一概率不被认为是硬币不公平的统计显著证据。--> | |||
=='''分类数据的卡方检验示例'''== | |||
假设有一个拥有1,000,000居民的城市,有四个邻居:{{math|''A''}}, {{math|''B''}}, {{math|''C''}}, 和{{math|''D''}}。随机抽取该城市650名居民,记录他们的职业为[[Collar workers|"白领", "蓝领" 或 "无领"]]. 零假设是每个人的居住邻居与其职业分类无关。数据如下所示: | |||
:{| class="wikitable" style="text-align: right;" | |||
|- | |||
! !! {{math|''A''}} !! {{math|''B''}} !! {{math|''C''}} !! {{math|''D''}} !! 总计 | |||
|- | |||
|style="text-align: left;"| 白领 || 90 || 60 || 104 || 95 || 349 | |||
|- | |||
|style="text-align: left;"| 蓝领 || 30 || 50 || 51 || 20 || 151 | |||
|- | |||
|style="text-align: left;"| 无领 || 30 || 40 || 45 || 35 || 150 | |||
|- | |||
!style="text-align: left;"| 总计 || 150 || 150 || 200 || 150 || 650 | |||
|} | |||
让我们以居住在{{math|''A''}}的样本,150人,来估计整个1,000,000中有多少比例的人居住在{{math|''A''}}。同样,我们取{{sfrac|349|650}}来估计1,000,000人中有多少比例是白领。根据假设下的独立性,我们应该“期望”{{math|''A''}}的白领工人数量为 | |||
: [math] 150\times\frac{349}{650} \approx 80.54 [/math] | |||
然后在该表格的“单元格”中,我们有 | |||
: [math]\frac{\left(\text{observed}-\text{expected}\right)^2}{\text{expected}} = \frac{\left(90-80.54\right)^2}{80.54} \approx 1.11[/math] | |||
这些数量的总和是检验统计量;在这种情况下,[math] \approx 24.57 [/math]。在零假设下,这个总和大致具有卡方分布,其自由度数为 | |||
: [math] (\text{number of rows}-1)(\text{number of columns}-1) = (3-1)(4-1) = 6 [/math] | |||
如果检验统计量根据该卡方分布不可信地大,则拒绝独立性的零假设。 | |||
相关问题是同质性检验。假设我们不是给每个邻居的每个居民同等机会纳入样本,而是提前决定包括每个邻居多少居民。那么每个居民被选中的机会与同一邻居的所有居民相同,但如果四个样本大小不与四个邻居的人口成比例,那么不同邻居的居民被选中的概率将不同。在这种情况下,我们正在测试“同质性”而非“独立性”。问题是四个邻居中蓝领、白领和无领工人的比例是否相同。然而,检验的方法是相同的。 | |||
=='''应用领域'''== | |||
在[[密码分析]]中,卡方检验被用于比较[[明文]]和(可能的)解密[[密文]]的分布。测试的最低值意味着解密成功的可能性很高。<ref name=practicalcrypto>{{cite web|title=Chi-squared Statistic|url=http://practicalcryptography.com/cryptanalysis/text-characterisation/chi-squared-statistic/|website=Practical Cryptography|access-date=18 February 2015|archive-url=https://web.archive.org/web/20150218203349/http://practicalcryptography.com/cryptanalysis/text-characterisation/chi-squared-statistic/|archive-date=18 February 2015|url-status=dead}}</ref><ref name=ibmath>{{cite web|title=Using Chi Squared to Crack Codes|url=http://ibmathsresources.com/2014/06/15/using-chi-squared-to-crack-codes/|website=IB Maths Resources|date=15 June 2014 |publisher=British International School Phuket}}</ref> 这种方法可以泛化用于解决现代密码学问题。<ref name=elsevier>{{cite journal|last1=Ryabko|first1=B. Ya.|last2=Stognienko|first2=V. S.|last3=Shokin|first3=Yu. I.|title=A new test for randomness and its application to some cryptographic problems|journal=Journal of Statistical Planning and Inference|date=2004|volume=123|issue=2|pages=365–376|url=http://boris.ryabko.net/jspi.pdf|access-date=18 February 2015|doi=10.1016/s0378-3758(03)00149-6}}</ref> | |||
在[[生物信息学]]中,卡方检验用于比较属于不同类别(例如,疾病基因、必要基因、特定染色体上的基因等)的基因的某些特性(例如,基因组内容、突变率、相互作用网络聚类等)的分布。<ref name=pnas-bics>{{cite journal|last1=Feldman|first1=I.|last2=Rzhetsky|first2=A.|last3=Vitkup|first3=D.|title=Network properties of genes harboring inherited disease mutations|journal=PNAS|date=2008|volume=105|issue=11|pages=4323–432|doi=10.1073/pnas.0701722105|bibcode=2008PNAS..105.4323F|pmc=2393821|pmid=18326631|doi-access=free}}</ref><ref name=chi-bics>{{cite web|title=chi-square-tests|url=https://visa.pharmacy.wsu.edu/bioinformatics/documents/chi-square-tests.pdf|access-date=29 June 2018|archive-url=https://web.archive.org/web/20180629131548/https://visa.pharmacy.wsu.edu/bioinformatics/documents/chi-square-tests.pdf|archive-date=29 June 2018|url-status=dead}}</ref> | |||
== '''节点使用的R语言示例代码''' == | |||
=== 卡方检验 === | |||
<syntaxhighlight lang="R"> | |||
chisq.test(x, y = NULL, correct = TRUE, | |||
p = rep(1/length(x), length(x)), rescale.p = FALSE, | |||
simulate.p.value = FALSE, B = 2000) | |||
</syntaxhighlight> | |||
== '''节点使用指南''' == | |||
* 用来检验观测值和期望值之间是否有显著差异的非参数检验方法 | |||
* 用于两个或多个类别数据之间的关系分析 | |||
* 用于检验两个变量之间是否独立 | |||
=== 方法选择 === | |||
* 无方法选择 | |||
=== 参数配置 === | |||
* 统计变量1:选择一个离散型分类变量 | |||
* 统计变量2:选择一个或多个离散型分类变量,每一个变量与变量1做一次卡方检验 | |||
* 是否连续校正:是否应用Yates的连续性修正。Yates的连续性修正通过在每个单元格的差值中减去0.5来解决这个问题。这就使得差值和期望频数的差距变小,从而减小了卡方统计量的值,使得P值变大,降低了过度拒真的可能性。 | |||
* 筛选阈值:选择需要的P值阈值,节点会自动将满足阈值的变量筛选出,数据集也会同步筛选出满足的变量。 | |||
* 统计变量1和统计变量2要规避复用 | |||
* 此算法兼容空值 | |||
=== 注意事项 === | |||
* 所有期望频数应大于5;如果不是,考虑合并类别或使用精确概率方法 | |||
* 卡方检验对样本量敏感,较大的样本可能导致小的差异也显著 | |||
== '''引用''' == | |||
{{Reflist}} | |||
{{Navplate AlgorithmNodeList}} | {{Navplate AlgorithmNodeList}} | ||
[[Category:频数表检验]] | [[Category:频数表检验]] |
2024年1月25日 (四) 09:44的版本
节点状态 | / Win10及以上可用
在V1.0部署
|
---|---|
卡方检验 | |
节点开发者 | 决策链算法研发部 (Dev.Team-DPS) |
节点英文名 | Chi_Square Test |
功能主类别 | 数据分析 |
英文缩写 | ChiSTest |
功能亚类别 | 频数表检验 |
节点类型 | 数据挖掘 |
开发语言 | R |
节点简介 | |
卡方检验针对分类变量, 统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小。如果卡方值越大,二者偏差程度越大;卡方值越小, 二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。 用途:主要用于研究分类变量,检验两个分类变量是否独立,还可用于比较两个或更多群体在分类变量上的分布是否一致。 参数:选择分类变量进行检验 | |
端口数量与逻辑控制(PC) | |
Input-入口 | 4个 |
Output-出口 | 3个 |
Loop-支持循环 | 是 |
If/Switch-支持逻辑判断 | 否 |
输入输出 | |
相关节点 | |
上一节点 | Fisher精确检验 |
下一节点 | Mantel-Haenszel检验 |
卡方检验(也称为卡方或[math]χ^2[/math]检验)是一种在样本量较大时用于分析统计假设测试的列联表的方法。简单来说,这种测试主要用于检验两个分类变量(列联表的两个维度)是否在影响检验统计量(表中的数值)时相互独立。[1] 当测试统计量在空假设下服从卡方分布时,此测试是有效的,特别是皮尔逊卡方检验及其变体。皮尔逊卡方检验用于确定预期的频率与列联表中一个或多个类别的观察频率之间是否存在统计上显著的差异。对于样本量较小的列联表,改用费舍尔精确检验。
在这种测试的标准应用中,观察结果被归类为相互排斥的类别。如果关于人群中类别之间没有差异的空假设是真实的,那么从观察中计算出的测试统计量将遵循一个[math]χ^2[/math] 频率分布。测试的目的是评估在假设空假设为真的情况下,观察到的频率出现的可能性。
当观察结果是独立的时,遵循[math]χ^2[/math]分布的测试统计量就会出现。也有基于成对观察结果的[math]χ^2[/math]测试,用于检验一对随机变量的独立性空假设。
卡方检验通常指的是那些测试统计量的分布在渐近上接近[math]χ^2[/math]分布的测试,这意味着如果空假设成立,测试统计量的抽样分布会随着样本大小的增加而越来越接近卡方分布。
历史
在19世纪,统计分析方法主要应用于生物数据分析,研究人员通常假设观察结果遵循正态分布,如乔治·艾里爵士和曼斯菲尔德·梅里曼的作品,这些作品被卡尔·皮尔逊在其1900年的论文中批评。 [2]
在19世纪末,皮尔逊注意到某些生物观察结果中存在显著的偏斜。为了对正态或偏斜的观察结果进行建模,皮尔逊在1893年至1916年间发表了一系列文章,[3][4][5][6] 提出了皮尔逊分布,这是一个包括正态分布和许多偏斜分布的连续概率分布家族,并提出了一种统计分析方法,即使用皮尔逊分布对观察结果进行建模,并进行适合性检验,以确定模型与观察结果的匹配程度。
皮尔逊卡方检验
1900年,皮尔逊发表了一篇论文[2]关于[math]χ^2[/math]检验,这被认为是现代统计学的基础之一。[7] 在这篇论文中,皮尔逊研究了适合性检验。
假设来自人群的随机样本中的n次观测被分类到k个互斥类别中,各个类别中观测到的观测次数分别为xi(对于i = 1,2,…,k),并且一个零假设给出了一个观测落入第i类的概率pi。所以我们对所有i有预期数字mi = npi,其中
- [math]\begin{align}
& \sum^k_{i=1}{p_i} = 1 \\[8pt] & \sum^k_{i=1}{m_i} = n\sum^k_{i=1}{p_i} = n \end{align}[/math]
皮尔逊提出,在零假设正确的情况下,随着n → ∞,下面给出的量的极限分布是χ2分布。
- [math]X^2=\sum^k_{i=1}{\frac{(x_i-m_i)^2}{m_i}}=\sum^k_{i=1}{\frac{x_i^2}{m_i}-n}[/math]
皮尔逊首先处理了预期数字mi在所有单元中都足够大的已知数字的情况,假设每个观测xi可以被视为正态分布,并得出结论,当n变大时,X2遵循χ2分布,自由度为k − 1。
然而,皮尔逊接下来考虑了预期数字依赖于必须从样本中估计的参数的情况,并建议,以mi为真实预期数字,m′i为估计预期数字的表示方式,差异
- [math]X^2-{X'}^2=\sum^k_{i=1}{\frac{x_i^2}{m_i}}-\sum^k_{i=1}{\frac{x_i^2}{m'_i}}[/math]
通常是正的且足够小以忽略。皮尔逊最后论述,如果我们认为X′2也遵循自由度为k − 1的χ2分布,这种近似中的误差不会影响实际决策。这个结论在实际应用中引起了一些争议,直到费舍尔在1922年和1924年的论文中才得到解决。[8][9]
卡方检验的其他例子
一个精确遵循卡方分布的检验统计量是基于样本方差来检验一个正态分布人群的方差是否具有给定值的检验。这样的检验在实践中不常见,因为人群的真实方差通常是未知的。然而,有几个统计检验,卡方分布大致有效:
费舍尔精确检验
作为2 × 2卡方独立性检验的替代,使用精确检验,请参阅费舍尔精确检验。
二项式检验
作为2 × 1卡方拟合优度检验的替代,使用精确检验,请参阅二项式检验。
其他卡方检验
耶茨连续性修正
使用卡方分布来解释皮尔逊卡方统计量需要假设表格中观测到的二项分布频率的离散概率可以通过连续的卡方分布来近似。这个假设不完全正确,引入了一些误差。
为了减少近似误差,弗兰克·耶茨提出了一个连续性修正,调整皮尔逊卡方检验的公式,通过在2 × 2列联表中从每个观测值与其预期值之间的绝对差中减去0.5。[10] 这减少了获得的卡方值,从而增加了其p-值。
正态人群中方差的卡方检验
如果从具有正态分布的总体中抽取大小为n的样本,则有一个结果(见样本方差的分布),允许对总体方差是否具有预先确定的值进行检验。例如,一个制造过程可能长期处于稳定状态,允许基本无误地确定方差值。假设正在测试该过程的一个变体,产生大小为n的小样本产品项,其变异需要被测试。这种情况下的检验统计量T可以设定为样本均值的平方和除以方差的名义值(即要作为有效值进行检验的值)。然后T具有自由度为n − 1的卡方分布。例如,如果样本大小为21,那么在5%的显著性水平下T的接受区间在9.59到34.17之间。
分类数据的卡方检验示例
假设有一个拥有1,000,000居民的城市,有四个邻居:A, B, C, 和D。随机抽取该城市650名居民,记录他们的职业为"白领", "蓝领" 或 "无领". 零假设是每个人的居住邻居与其职业分类无关。数据如下所示:
A B C D 总计 白领 90 60 104 95 349 蓝领 30 50 51 20 151 无领 30 40 45 35 150 总计 150 150 200 150 650
让我们以居住在A的样本,150人,来估计整个1,000,000中有多少比例的人居住在A。同样,我们取349/650来估计1,000,000人中有多少比例是白领。根据假设下的独立性,我们应该“期望”A的白领工人数量为
- [math] 150\times\frac{349}{650} \approx 80.54 [/math]
然后在该表格的“单元格”中,我们有
- [math]\frac{\left(\text{observed}-\text{expected}\right)^2}{\text{expected}} = \frac{\left(90-80.54\right)^2}{80.54} \approx 1.11[/math]
这些数量的总和是检验统计量;在这种情况下,[math] \approx 24.57 [/math]。在零假设下,这个总和大致具有卡方分布,其自由度数为
- [math] (\text{number of rows}-1)(\text{number of columns}-1) = (3-1)(4-1) = 6 [/math]
如果检验统计量根据该卡方分布不可信地大,则拒绝独立性的零假设。
相关问题是同质性检验。假设我们不是给每个邻居的每个居民同等机会纳入样本,而是提前决定包括每个邻居多少居民。那么每个居民被选中的机会与同一邻居的所有居民相同,但如果四个样本大小不与四个邻居的人口成比例,那么不同邻居的居民被选中的概率将不同。在这种情况下,我们正在测试“同质性”而非“独立性”。问题是四个邻居中蓝领、白领和无领工人的比例是否相同。然而,检验的方法是相同的。
应用领域
在密码分析中,卡方检验被用于比较明文和(可能的)解密密文的分布。测试的最低值意味着解密成功的可能性很高。[11][12] 这种方法可以泛化用于解决现代密码学问题。[13]
在生物信息学中,卡方检验用于比较属于不同类别(例如,疾病基因、必要基因、特定染色体上的基因等)的基因的某些特性(例如,基因组内容、突变率、相互作用网络聚类等)的分布。[14][15]
节点使用的R语言示例代码
卡方检验
chisq.test(x, y = NULL, correct = TRUE,
p = rep(1/length(x), length(x)), rescale.p = FALSE,
simulate.p.value = FALSE, B = 2000)
节点使用指南
- 用来检验观测值和期望值之间是否有显著差异的非参数检验方法
- 用于两个或多个类别数据之间的关系分析
- 用于检验两个变量之间是否独立
方法选择
- 无方法选择
参数配置
- 统计变量1:选择一个离散型分类变量
- 统计变量2:选择一个或多个离散型分类变量,每一个变量与变量1做一次卡方检验
- 是否连续校正:是否应用Yates的连续性修正。Yates的连续性修正通过在每个单元格的差值中减去0.5来解决这个问题。这就使得差值和期望频数的差距变小,从而减小了卡方统计量的值,使得P值变大,降低了过度拒真的可能性。
- 筛选阈值:选择需要的P值阈值,节点会自动将满足阈值的变量筛选出,数据集也会同步筛选出满足的变量。
- 统计变量1和统计变量2要规避复用
- 此算法兼容空值
注意事项
- 所有期望频数应大于5;如果不是,考虑合并类别或使用精确概率方法
- 卡方检验对样本量敏感,较大的样本可能导致小的差异也显著
引用
- ↑ "Chi-Square - Sociology 3112 - Department of Sociology - The University of utah". soc.utah.edu.
{{cite web}}
:|access-date=
requires|url=
(help); Missing or empty|url=
(help) - ↑ 2.0 2.1 Pearson, Karl (1900). "On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling". Philosophical Magazine. Series 5. 50 (302): 157–175. doi:10.1080/14786440009463897.
- ↑ Pearson, Karl (1893). "Contributions to the mathematical theory of evolution [abstract]". Proceedings of the Royal Society. 54: 329–333. doi:10.1098/rspl.1893.0079. JSTOR 115538.
- ↑ Pearson, Karl (1895). "Contributions to the mathematical theory of evolution, II: Skew variation in homogeneous material". Philosophical Transactions of the Royal Society. 186: 343–414. Bibcode:1895RSPTA.186..343P. doi:10.1098/rsta.1895.0010. JSTOR 90649.
- ↑ Pearson, Karl (1901). "Mathematical contributions to the theory of evolution, X: Supplement to a memoir on skew variation". Philosophical Transactions of the Royal Society A. 197 (287–299): 443–459. Bibcode:1901RSPTA.197..443P. doi:10.1098/rsta.1901.0023. JSTOR 90841.
- ↑ Pearson, Karl (1916). "Mathematical contributions to the theory of evolution, XIX: Second supplement to a memoir on skew variation". Philosophical Transactions of the Royal Society A. 216 (538–548): 429–457. Bibcode:1916RSPTA.216..429P. doi:10.1098/rsta.1916.0009. JSTOR 91092.
- ↑ Cochran, William G. (1952). "The Chi-square Test of Goodness of Fit". The Annals of Mathematical Statistics. 23 (3): 315–345. doi:10.1214/aoms/1177729380. JSTOR 2236678.
- ↑ Fisher, Ronald A. (1922). "On the Interpretation of χ2 from Contingency Tables, and the Calculation of P". Journal of the Royal Statistical Society. 85 (1): 87–94. doi:10.2307/2340521. JSTOR 2340521.
- ↑ Fisher, Ronald A. (1924). "The Conditions Under Which χ2 Measures the Discrepancey Between Observation and Hypothesis". Journal of the Royal Statistical Society. 87 (3): 442–450. JSTOR 2341149.
- ↑ Yates, Frank (1934). "Contingency table involving small numbers and the χ2 test". Supplement to the Journal of the Royal Statistical Society. 1 (2): 217–235. doi:10.2307/2983604. JSTOR 2983604.
- ↑ "Chi-squared Statistic". Practical Cryptography. Archived from the original on 18 February 2015. Retrieved 18 February 2015.
- ↑ "Using Chi Squared to Crack Codes". IB Maths Resources. British International School Phuket. 15 June 2014.
- ↑ Ryabko, B. Ya.; Stognienko, V. S.; Shokin, Yu. I. (2004). "A new test for randomness and its application to some cryptographic problems" (PDF). Journal of Statistical Planning and Inference. 123 (2): 365–376. doi:10.1016/s0378-3758(03)00149-6. Retrieved 18 February 2015.
- ↑ Feldman, I.; Rzhetsky, A.; Vitkup, D. (2008). "Network properties of genes harboring inherited disease mutations". PNAS. 105 (11): 4323–432. Bibcode:2008PNAS..105.4323F. doi:10.1073/pnas.0701722105. PMC 2393821. PMID 18326631.
- ↑ "chi-square-tests" (PDF). Archived from the original (PDF) on 29 June 2018. Retrieved 29 June 2018.
查找其他类别的节点,请参考以下列表