决策链云智库 - 用户贡献 [zh-cn]

多重比较方差分析

2024-03-01T01:09:53Z

RainW：

{{Infobox nodebasic
|nodename=多重比较方差分析
|nodeimage=Analysis of Variance_Multiple Comparisons.png
|icon=Analysis of Variance_Multiple Comparisons.svg
|simpleicon=Analysis of Variance_Multiple Comparisons_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Analysis of Variance_Multiple Comparisons
|abbreviation=AnaVarMC
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=方差分析多重比较是在运行完单因素方差分析ANOVA后, 如果该因素影响比较显著，那么需要进一步利用多重比较方法比较该因素不同水平的影响，确定不同水平下该因素的影响是否显著。用途：用于对ANOVA或其它类型的方差分析后的数据进行深入的分析，检查各组之间的差异。参数：可以输入多个数值因变量和一个分组变量。可以选择不同检验方法和校正方法。
|nodeinputnumber=4
|nodeoutputnumber=2
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=AnalysisVarianceMultiCompBonferplot;ErrorSmoothPlot;AdjustViolinPlot;DiagonalHeatPlot
|nodeavailabletablelist=Mean;CI;P-Value
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/多重比较方差分析
|previousnode=[[Two_Way_ANOVA]]
|nextnode=[[方差齐性检验]]
}}

在[[统计学]]中，'''多重比较'''、'''多重性'''或'''多次检验问题'''出现于当人们同时考虑一组[[统计推断]]<ref>{{cite book | last=Miller | first=R.G. | year=1981 | title=Simultaneous Statistical Inference 2nd Ed | publisher=Springer Verlag New York | isbn=978-0-387-90548-8}}</ref>或者基于观察值[[估计理论|估计]]参数的一个子集<ref>{{cite journal | journal=Biometrical Journal | title=Simultaneous and selective inference: Current successes and future challenges | year=2010 | volume=52 | last=Benjamini | first=Y. | pages=708–721 | doi=10.1002/bimj.200900299 | issue=6 | pmid=21154895| s2cid=8806192 }}</ref>时。

随着推断的数量增加，错误推断变得更有可能发生。为了解决这个问题，已经开发了几种统计技术，例如，要求个体比较的[[Bonferroni correction|严格显著性门槛]]，以补偿正在进行的推断数量。用于[[家族误差率]]控制的方法提供了由于多重比较问题而产生的假阳性率的保证。

=='''历史'''==
多重比较问题在1950年代随着像[[Tukey]]和[[Scheffé]]这样的统计学家的工作而受到增加的关注。在随后的几十年里，许多程序被开发出来以解决这个问题。1996年，第一次关于多重比较程序的国际会议在[[特拉维夫]]举行。<ref>{{cite web |url=http://www.mcp-conference.org/ |title=Home |website=mcp-conference.org}}</ref> 这是一个活跃的研究领域，例如由[[Emmanuel Candès]]和[[Vladimir Vovk|Vladimir Vovk.]]等人进行的工作。

=='''定义'''==
当一个统计分析涉及多个同时进行的统计测试时，就会出现多重比较，每个测试都有可能产生一个“发现”。一个声明的置信水平通常只适用于单独考虑的每个测试，但通常希望对整个同时测试的家族有一个置信水平。<ref>{{cite book |last1=Kutner |first1=Michael |last2=Nachtsheim |first2=Christopher |last3=Neter |first3=John |author-link3=John Neter |last4=Li |first4=William |date=2005 |title=Applied Linear Statistical Models |url=https://archive.org/details/appliedlinearsta00kutn_164 |url-access=limited |pages=[https://archive.org/details/appliedlinearsta00kutn_164/page/n782 744]–745|publisher=McGraw-Hill Irwin |isbn=9780072386882 }}</ref> 未能补偿多重比较可能会导致重要的现实世界后果，如以下例子所示：

* 假设治疗是一种教学生写作的新方法，而对照是教学写作的标准方法。可以根据语法、拼写、组织、内容等方面比较两组学生。随着比较的属性越来越多，治疗组和对照组至少在一个属性上看起来不同的可能性就会越来越大，仅仅由于随机[[抽样误差]]。
* 假设我们考虑一种[[药理学|药物]]在减少任何一个疾病症状方面的有效性。随着考虑的症状越来越多，药物至少在一个症状上看起来比现有药物改善的可能性就会越来越大。

在这两个例子中，随着比较的数量增加，被比较的组在至少一个属性上看起来不同的可能性就会越来越大。如果一个结果是作为涉及多重比较的分析的一部分观察到的，而不是仅涉及单一比较的分析，我们对一个结果将推广到独立数据的信心通常应该更弱。

例如，如果在5%的水平上进行一个测试，并且相应的零假设是真的，错误拒绝零假设的风险只有5%。然而，如果进行100次测试，每次都在5%的水平上，并且所有相应的零假设都是真的，[[预期数量]]的错误拒绝（也称为[[假阳性]]或[[类型I错误]]）是5。如果这些测试在统计上彼此独立（即，是在独立样本上进行的），那么至少有一个错误拒绝的概率大约为99.4%。

多重比较问题也适用于[[置信区间]]。一个具有95%[[覆盖概率]]水平的单个置信区间将在95%的样本中包含参数的真实值。然而，如果同时考虑100个置信区间，每个都具有95%的覆盖概率，预期的非覆盖区间数量是5。如果区间在统计上彼此独立，那么至少有一个区间不包含总体参数的概率为99.4%。

已经开发了技术来防止由于多个统计测试而发生的假阳性率和非覆盖率的膨胀。

===多假设测试的分类{{anchor|Classification of ''m'' hypothesis tests}}===

{{Classification of multiple hypothesis tests}}

=='''控制程序'''==
{{further|Family-wise error rate#Controlling procedures}}
{{see also|False coverage rate#Controlling procedures|False discovery rate#Controlling procedures}}

{{Image frame
|content ={{Graph:Chart|width=300|height=100|type=line|x=1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49|y=0.050000000000000044, 0.09750000000000003, 0.1426250000000001, 0.18549375000000012, 0.22621906250000023, 0.2649081093750002, 0.3016627039062503, 0.33657956871093775, 0.3697505902753909, 0.4012630607616213, 0.43119990772354033, 0.45963991233736334, 0.4866579167204952, 0.5123250208844705, 0.536708769840247, 0.5598733313482347, 0.5818796647808229, 0.6027856815417818, 0.6226463974646927, 0.6415140775914581, 0.6594383737118852, 0.676466455026291, 0.6926431322749764, 0.7080109756612276, 0.7226104268781662, 0.7364799055342579, 0.7496559102575451, 0.7621731147446679, 0.7740644590074345, 0.7853612360570628, 0.7960931742542097, 0.8062885155414992, 0.8159740897644242, 0.8251753852762029, 0.8339166160123929, 0.8422207852117732, 0.8501097459511846, 0.8576042586536253, 0.8647240457209441, 0.8714878434348969, 0.877913451263152, 0.8840177786999944, 0.8898168897649947, 0.895326045276745, 0.9005597430129078, 0.9055317558622624, 0.9102551680691493, 0.9147424096656918, 0.9190052891824072|yAxisMin=0
xAxisTitle="k"|yAxisTitle=P(至少有一个 H_0 被错误拒绝)}}
|caption = 当[math]\alpha_\text{per comparison}=0.05[/math]时，至少有一个零假设被错误拒绝的概率，作为独立测试数量[math]m[/math]的函数。
|width=300
}}

===多重检验校正===
{{anchor|Correction}}
{{cleanup merge|21=section|Multiple testing correction|date=April 2016}}
'''多重检验校正'''指的是使统计检验更加严格，以对抗多重检验问题。最著名的此类调整是[[Bonferroni correction|波恩费罗尼校正]]，但也开发了其他方法。这些方法通常旨在控制[[family-wise error rate|家族错误率]]或[[false discovery rate|假发现率]]。

如果进行了''m''次独立比较，则''[[family-wise error rate|家族错误率]]''（FWER）由下式给出：

:[math] \bar{\alpha} = 1-\left( 1-\alpha_{\{\text{per comparison}\}} \right)^m.[/math]

因此，除非测试是完全正相关的（即，相同），否则[math]\bar{\alpha}[/math]会随着比较次数的增加而增加。
如果我们不假设比较是独立的，那么我们仍然可以说：

:[math] \bar{\alpha} \le m \cdot \alpha_{\{\text{per comparison}\}},[/math]

这是根据[[Boole's inequality|布尔不等式]]得出的。例如：[math] 0.2649=1-(1-.05)^6 \le .05 \times 6 = 0.3[/math]

有不同的方法可以确保家族错误率最多为[math]\alpha[/math]。最保守的方法，不受依赖和分布假设的限制，是[[Bonferroni correction|波恩费罗尼校正]] [math] \alpha_\mathrm{\{per\ comparison\}}={\alpha}/m[/math]。通过解决[math]m[/math]次独立比较的家族错误率方程得到的略微不那么保守的校正是[math]\alpha_{\{\text{per comparison}\}} = 1-{(1-{\alpha})}^{1/m}[/math]，这被称为[[Šidák correction|Šidák校正]]。另一种程序是[[Holm–Bonferroni method|Holm–Bonferroni方法]]，它通过仅对最低的p值（[math]i=1[/math]）进行最严格的标准测试，以及对更高的p值（[math]i>1[/math]）应用逐渐宽松的标准，从而一致地提供比简单的波恩费罗尼校正更多的功率。<ref>{{cite journal | last1 = Aickin | first1 = M | last2 = Gensler | first2 = H | title = Adjusting for multiple testing when reporting research results: the Bonferroni vs Holm methods | journal = Am J Public Health | volume = 86| pages = 726–728 | doi=10.2105/ajph.86.5.726 | pmid=8629727 | date=May 1996 | pmc=1380484 | issue=5}}</ref>
[math] \alpha_\mathrm{\{per\ comparison\}}={\alpha}/(m-i+1)[/math]。

对于连续问题，可以采用[[Baysian statistics|贝叶斯]]逻辑根据先验到后验体积比计算[math]m[/math]。[[Bonferroni correction|波恩费罗尼]]和[[Šidák correction|Šidák校正]]的连续泛化在以下文献中提出。<ref name="Bayer2020">{{cite journal |first1=Adrian E. |last1=Bayer | first2=Uroš| last2=Seljak | title=The look-elsewhere effect from a unified Bayesian and frequentist perspective |journal=[[Journal of Cosmology and Astroparticle Physics]] |volume=2020 |issue=10 |pages=009|year=2020 |arxiv = 2007.13821 | url=https://doi.org/10.1088%2F1475-7516%2F2020%2F10%2F009 |doi=10.1088/1475-7516/2020/10/009 |bibcode=2020JCAP...10..009B |s2cid=220830693 }}</ref>

=='''大规模多重检验'''==
传统的多比较校正方法聚焦于为适度数量的比较进行校正，通常用于[[analysis of variance|方差分析]]。为“大规模多重检验”开发了一套不同的技术，在这种情况下，将进行成千上万次的测试。例如，在[[genomics|基因组学]]中，使用[[DNA microarray|微阵列]]等技术时，可以测量数以万计的基因表达水平，以及数百万个遗传标记的基因型。特别是在[[genetic association|遗传关联]]研究领域，非复制性成为了一个严重问题——一个研究中的结果在统计上非常显著，但在后续研究中未能复制。这种非复制性可以有多种原因，但普遍认为未能充分考虑进行多重比较的后果是其中的一个原因。<ref>{{Cite journal|last1=Qu|first1=Hui-Qi|last2=Tien|first2=Matthew|last3=Polychronakos|first3=Constantin|date=2010-10-01|title=Statistical significance in genetic association studies|journal=Clinical and Investigative Medicine|volume=33|issue=5|pages=E266–E270|issn=0147-958X|pmc=3270946|pmid=20926032}}</ref> 有人认为，[[measurement|测量]]和[[information technology|信息技术]]的进步使得生成大型数据集进行[[exploratory data analysis|探索性分析]]变得更加容易，通常导致测试大量假设，而没有先验理由期待许多假设为真。在这种情况下，除非进行多重比较调整，否则预期的[[false positive rate|假阳性率]]会非常高。

对于目标是提供明确结果的大规模检测问题，[[family-wise error rate|家族错误率]]仍是赋予统计测试显著性水平的最被接受的参数。另一方面，如果一个研究被视为探索性的，或者显著结果可以在独立的研究中轻松重新测试，控制[[false discovery rate|假发现率]]（FDR）<ref>{{cite journal | last=Benjamini | first=Yoav |author2=Hochberg, Yosef | year=1995 | title=Controlling the false discovery rate: a practical and powerful approach to multiple testing | journal=[[Journal of the Royal Statistical Society, Series B]] | volume=57 | pages=125–133 | issue=1 | jstor=2346101}}</ref><ref>{{cite journal | last=Storey | first=JD |author2=Tibshirani, Robert | year=2003 | title=Statistical significance for genome-wide studies | journal=PNAS | volume=100 | pages=9440–9445 | doi=10.1073/pnas.1530509100 | pmid=12883005 | issue=16 | pmc=170937 | jstor=3144228| bibcode=2003PNAS..100.9440S | doi-access=free }}</ref><ref>{{cite journal | last=Efron | first=Bradley |author2=Tibshirani, Robert |author3=Storey, John D. |author4= Tusher, Virginia | journal=[[Journal of the American Statistical Association]] | volume=96 | issue=456 | year=2001 | pages=1151–1160 | title=Empirical Bayes analysis of a microarray experiment | doi=10.1198/016214501753382129 | jstor=3085878| s2cid=9076863 }}</ref>经常被偏好。FDR，宽泛定义为所有显著测试中假阳性的预期比例，允许研究人员识别一组“候选阳性”，这些可以在后续研究中进行更严格的评估。<ref>{{Cite journal|last=Noble|first=William S.|date=2009-12-01|title=How does multiple testing correction work?|journal=Nature Biotechnology|language=en|volume=27|issue=12|pages=1135–1137|doi=10.1038/nbt1209-1135|issn=1087-0156|pmc=2907892|pmid=20010596}}</ref>

尝试许多未经调整的比较，希望找到一个显著的做法是一个已知问题，无论是无意中还是故意地应用，有时被称为“p-hacking”。<ref name="Deming">{{Cite journal
|author = Young, S. S., Karr, A.
|title = Deming, data and observational studies
|journal = Significance
|volume = 8
|issue = 3
|pages = 116–120
|year = 2011
|url = http://www.niss.org/sites/default/files/Young%20Karr%20Obs%20Study%20Problem.pdf|doi = 10.1111/j.1740-9713.2011.00506.x
|doi-access = free
}}
</ref><ref name="bmj02">
{{Cite journal
|author = Smith, G. D., Shah, E.
|title = Data dredging, bias, or confounding
|journal = BMJ
|volume = 325
|year = 2002
|pmc = 1124898
|doi = 10.1136/bmj.325.7378.1437
|pmid=12493654
|issue=7378
|pages=1437–1438}}
</ref>

===评估是否有任何替代假设为真===
[[Image:quantile meta test.svg|thumb|325px|一幅模拟的[[Q–Q plot|正态分位数图]]，用于展示已被标准化为[[standard score|Z分数]]的一组测试统计量，这些统计量是在零假设下得到的。分布的上尾部偏离沿对角线的预期趋势，是由于存在大量比预期更大的测试统计量值。红色点对应第四大的观测测试统计量，其值为3.13，相比之下预期值为2.06。蓝色点对应第五小的测试统计量，其值为-1.75，相比之下预期值为-1.96。该图表明所有零假设都为真的可能性不大，且大部分或全部真实的替代假设的出现都是由于正向偏差。]]

在分析一大组测试结果的初始阶段面临的基本问题是，是否有证据表明任何替代假设为真。当假设测试彼此独立时，可以应用的一个简单的元测试是使用[[Poisson distribution]]作为模型，来模拟在所有零假设为真时，在给定水平α下会发现的显著结果的数量。{{citation needed|date=June 2016}}如果观察到的正数结果数量明显大于预期，这表明在显著结果中可能存在一些真正的正面结果。

例如，如果进行了1000个独立测试，每个的显著性水平α = 0.05，我们预期当所有零假设为真时会有0.05 × 1000 = 50个显著性测试发生。基于均值为50的泊松分布，观察到超过61个显著性测试的概率小于0.05，因此，如果观察到超过61个显著性结果，很有可能其中一些对应于替代假设成立的情况。这种方法的一个缺点是，当[[test statistic]]s呈正相关时，它会夸大一些替代假设为真的证据，这在实践中是常见的。{{citation needed|date=August 2012}}另一方面，即使在测试统计量之间存在相关性的情况下，只要泊松分布能够很好地近似显著结果的数量，这种方法仍然有效。这种情况通常出现在从交易数据集中挖掘显著的频繁项集时。此外，一个仔细的两阶段分析可以在预先指定的水平上限定FDR。<ref>{{cite journal | last1 = Kirsch | first1 = A | last2 = Mitzenmacher | first2 = M | author2-link = Michael Mitzenmacher | last3 = Pietracaprina | first3 = A | last4 = Pucci | first4 = G | last5 = Upfal | first5 = E | author5-link = Eli Upfal | last6 = Vandin | first6 = F | title = An Efficient Rigorous Approach for Identifying Statistically Significant Frequent Itemsets | journal = Journal of the ACM | volume = 59 | issue = 3 | pages = 12:1–12:22 | doi=10.1145/2220357.2220359 | date=June 2012| arxiv = 1002.1104 }}</ref>

另一个常用的方法，适用于可以将[[test statistic]]s标准化为[[standard score|Z分数]]的情况，是制作测试统计量的[[Q–Q plot|正态分位数图]]。如果观察到的分位数明显比正态分位数更加[[statistical dispersion|分散]]，这表明一些显著结果可能是真正的正面结果。{{citation needed|date=January 2012}}

== '''节点使用的R语言示例代码''' ==
=== 多重比较方差分析 ===
<syntaxhighlight lang="R">

LSD.test(y, trt, DFerror, MSerror, alpha = 0.05, p.adj=c("none","holm","hommel",
"hochberg", "bonferroni", "BH", "BY", "fdr"), group=TRUE, main = NULL,console=FALSE)

SNK.test(y, trt, DFerror, MSerror, alpha = 0.05, group=TRUE, main = NULL,console=FALSE)

TukeyHSD(x, which, ordered = FALSE, conf.level = 0.95, ...)

dunn_test(data, formula, p.adjust.method = "holm", detailed = FALSE)

</syntaxhighlight>
方法参见'''R package: agricolae，rstatix'''的官方文档

== '''节点使用指南''' ==
* 在ANOVA测试发现至少两组之间存在显著差异之后，进一步确定哪些具体组别之间存在显著差异的方法
* 在进行多重比较之前，需要首先执行一个普通的ANOVA来确定整体上是否至少有两个组在统计上显著不同
* 事后测试将提供每对组合比较的P值。根据这些P值，你可以确定哪些组别间存在显著差异

=== 方法选择 ===
* LSD：当ANOVA显示显著效果，而研究者对第一类错误（假阳性）的控制要求不是很严格时
* Tukey HSD：当想要对所有可能的组别对进行比较，同时控制整体的第一类错误率
* SNK：当希望对ANOVA的结果做更细致的分析，但不需要Tukey HSD那么严格的错误率控制
* Duncan：在初步研究中，希望探索性地发现组间差异，而对第一类错误的控制要求不是非常严格
* Scheffe：当预期进行大量比较，或者希望进行复杂的比较（如多项式对比）时更为适用
* Dunn：Dunn测试通常用在非参数统计中，特别是用于Kruskal-Wallis测试后的多重比较，当数据不符合ANOVA的正态分布或方差齐性假设时
* Nemenyi：在非参数ANOVA之后，当数据分布不满足正态性或方差同质性
* Conover：适用于数据不满足正态分布或者方差齐性假设的情况，特别是在Friedman检验后进行多重比较时

=== 参数配置 ===
* 因变量：选择一个或多个连续型数值变量，每个变量和分组变量做一次多重比较方差分析
* 分组自变量：选择一个分组的变量。如果选择方法是Tukey HSD，分组变量必须是字符串
* 选择方法：LSD，Tukey HSD，SNK，Duncan，Scheffe，Dunn，Nemenyi，Conover
* P值校正方法：
** none：不进行任何校正。每个测试的P值都按原样使用，不考虑多重比较的问题
** holm：依次将个别P值与根据剩余测试数量调整的显著性水平进行比较，这是Bonferroni方法的改进版
** hommel：是Holm方法的一种改进，它提供了更强的功效，特别是当一些假设检验的P值非常小的时候
** hochberg：对Bonferroni方法的又一种改进，它通过按P值的升序对其进行排序，然后依次比较更宽松的调整后的显著性水平，从而提高检验的功效
** bonferroni：通过将显著性水平除以测试的总数来降低每个测试的显著性标准。这种方法非常保守，可以控制家族错误率（FWER）
** BH：控制了假发现率（FDR），即被错误地判定为显著的假设检验中的比例。此方法适用于同时控制错误发现和保持检验功效
** BY：是对BH方法的一种调整，它在任何依赖性结构下都能够控制FDR，但是相比于BH方法更加保守
** fdr：False Discovery Rate，假发现率校正是一种用于控制多重假设检验中假阳性率的统计方法
* Nemenyi方法选择：选择Nemenyi方法时，长表输入：需要输入分组，每个变量会做一次检验，通常重复数据。宽表数据：每个变量都代表一个组，不需要分组变量
* Alpha值：当选择Conover方法时，输入Alpha值，一般输入0.05
* 因变量和分组自变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 确保样本是随机的、独立的，并且方差近似相等
* 样本量对事后测试的统计功效有着重要影响。样本量过小可能导致检测不到实际存在的差异
* 多重比较增加了第一类错误（假阳性）的风险。因此，事后测试通常会对P值进行校正

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:方差分析]]

多重比较方差分析

2024-02-28T07:54:08Z

RainW：

{{Infobox nodebasic
|nodename=多重比较方差分析
|nodeimage=Analysis of Variance_Multiple Comparisons.png
|icon=Analysis of Variance_Multiple Comparisons.svg
|simpleicon=Analysis of Variance_Multiple Comparisons_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Analysis of Variance_Multiple Comparisons
|abbreviation=AnaVarMC
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=方差分析多重比较是在运行完单因素方差分析ANOVA后, 如果该因素影响比较显著，那么需要进一步利用多重比较方法比较该因素不同水平的影响，确定不同水平下该因素的影响是否显著。用途：用于对ANOVA或其它类型的方差分析后的数据进行深入的分析，检查各组之间的差异。参数：可以输入多个数值因变量和一个分组变量。可以选择不同检验方法和校正方法。
|nodeinputnumber=4
|nodeoutputnumber=2
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=AnalysisVarianceMultiCompBonferplot;ErrorSmoothPlot;AdjustViolinPlot;DiagonalHeatPlot
|nodeavailabletablelist=Mean;CI;P-Value
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/多重比较方差分析
|previousnode=[[Two_Way_ANOVA]]
|nextnode=[[方差齐性检验]]
}}

在[[统计学]]中，'''多重比较'''、'''多重性'''或'''多次检验问题'''出现于当人们同时考虑一组[[统计推断]]<ref>{{cite book | last=Miller | first=R.G. | year=1981 | title=Simultaneous Statistical Inference 2nd Ed | publisher=Springer Verlag New York | isbn=978-0-387-90548-8}}</ref>或者基于观察值[[估计理论|估计]]参数的一个子集<ref>{{cite journal | journal=Biometrical Journal | title=Simultaneous and selective inference: Current successes and future challenges | year=2010 | volume=52 | last=Benjamini | first=Y. | pages=708–721 | doi=10.1002/bimj.200900299 | issue=6 | pmid=21154895| s2cid=8806192 }}</ref>时。

随着推断的数量增加，错误推断变得更有可能发生。为了解决这个问题，已经开发了几种统计技术，例如，要求个体比较的[[Bonferroni correction|严格显著性门槛]]，以补偿正在进行的推断数量。用于[[家族误差率]]控制的方法提供了由于多重比较问题而产生的假阳性率的保证。

=='''历史'''==
多重比较问题在1950年代随着像[[Tukey]]和[[Scheffé]]这样的统计学家的工作而受到增加的关注。在随后的几十年里，许多程序被开发出来以解决这个问题。1996年，第一次关于多重比较程序的国际会议在[[特拉维夫]]举行。<ref>{{cite web |url=http://www.mcp-conference.org/ |title=Home |website=mcp-conference.org}}</ref> 这是一个活跃的研究领域，例如由[[Emmanuel Candès]]和[[Vladimir Vovk|Vladimir Vovk.]]等人进行的工作。

=='''定义'''==
当一个统计分析涉及多个同时进行的统计测试时，就会出现多重比较，每个测试都有可能产生一个“发现”。一个声明的置信水平通常只适用于单独考虑的每个测试，但通常希望对整个同时测试的家族有一个置信水平。<ref>{{cite book |last1=Kutner |first1=Michael |last2=Nachtsheim |first2=Christopher |last3=Neter |first3=John |author-link3=John Neter |last4=Li |first4=William |date=2005 |title=Applied Linear Statistical Models |url=https://archive.org/details/appliedlinearsta00kutn_164 |url-access=limited |pages=[https://archive.org/details/appliedlinearsta00kutn_164/page/n782 744]–745|publisher=McGraw-Hill Irwin |isbn=9780072386882 }}</ref> 未能补偿多重比较可能会导致重要的现实世界后果，如以下例子所示：

* 假设治疗是一种教学生写作的新方法，而对照是教学写作的标准方法。可以根据语法、拼写、组织、内容等方面比较两组学生。随着比较的属性越来越多，治疗组和对照组至少在一个属性上看起来不同的可能性就会越来越大，仅仅由于随机[[抽样误差]]。
* 假设我们考虑一种[[药理学|药物]]在减少任何一个疾病症状方面的有效性。随着考虑的症状越来越多，药物至少在一个症状上看起来比现有药物改善的可能性就会越来越大。

在这两个例子中，随着比较的数量增加，被比较的组在至少一个属性上看起来不同的可能性就会越来越大。如果一个结果是作为涉及多重比较的分析的一部分观察到的，而不是仅涉及单一比较的分析，我们对一个结果将推广到独立数据的信心通常应该更弱。

例如，如果在5%的水平上进行一个测试，并且相应的零假设是真的，错误拒绝零假设的风险只有5%。然而，如果进行100次测试，每次都在5%的水平上，并且所有相应的零假设都是真的，[[预期数量]]的错误拒绝（也称为[[假阳性]]或[[类型I错误]]）是5。如果这些测试在统计上彼此独立（即，是在独立样本上进行的），那么至少有一个错误拒绝的概率大约为99.4%。

多重比较问题也适用于[[置信区间]]。一个具有95%[[覆盖概率]]水平的单个置信区间将在95%的样本中包含参数的真实值。然而，如果同时考虑100个置信区间，每个都具有95%的覆盖概率，预期的非覆盖区间数量是5。如果区间在统计上彼此独立，那么至少有一个区间不包含总体参数的概率为99.4%。

已经开发了技术来防止由于多个统计测试而发生的假阳性率和非覆盖率的膨胀。

===多假设测试的分类{{anchor|Classification of ''m'' hypothesis tests}}===

{{Classification of multiple hypothesis tests}}

=='''控制程序'''==
{{further|Family-wise error rate#Controlling procedures}}
{{see also|False coverage rate#Controlling procedures|False discovery rate#Controlling procedures}}

{{Image frame
|content ={{Graph:Chart|width=300|height=100|type=line|x=1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49|y=0.050000000000000044, 0.09750000000000003, 0.1426250000000001, 0.18549375000000012, 0.22621906250000023, 0.2649081093750002, 0.3016627039062503, 0.33657956871093775, 0.3697505902753909, 0.4012630607616213, 0.43119990772354033, 0.45963991233736334, 0.4866579167204952, 0.5123250208844705, 0.536708769840247, 0.5598733313482347, 0.5818796647808229, 0.6027856815417818, 0.6226463974646927, 0.6415140775914581, 0.6594383737118852, 0.676466455026291, 0.6926431322749764, 0.7080109756612276, 0.7226104268781662, 0.7364799055342579, 0.7496559102575451, 0.7621731147446679, 0.7740644590074345, 0.7853612360570628, 0.7960931742542097, 0.8062885155414992, 0.8159740897644242, 0.8251753852762029, 0.8339166160123929, 0.8422207852117732, 0.8501097459511846, 0.8576042586536253, 0.8647240457209441, 0.8714878434348969, 0.877913451263152, 0.8840177786999944, 0.8898168897649947, 0.895326045276745, 0.9005597430129078, 0.9055317558622624, 0.9102551680691493, 0.9147424096656918, 0.9190052891824072|yAxisMin=0
xAxisTitle="k"|yAxisTitle=P(至少有一个 H_0 被错误拒绝)}}
|caption = 当[math]\alpha_\text{per comparison}=0.05[/math]时，至少有一个零假设被错误拒绝的概率，作为独立测试数量[math]m[/math]的函数。
|width=300
}}

===多重检验校正===
{{anchor|Correction}}
{{cleanup merge|21=section|Multiple testing correction|date=April 2016}}
'''多重检验校正'''指的是使统计检验更加严格，以对抗多重检验问题。最著名的此类调整是[[Bonferroni correction|波恩费罗尼校正]]，但也开发了其他方法。这些方法通常旨在控制[[family-wise error rate|家族错误率]]或[[false discovery rate|假发现率]]。

如果进行了''m''次独立比较，则''[[family-wise error rate|家族错误率]]''（FWER）由下式给出：

:[math] \bar{\alpha} = 1-\left( 1-\alpha_{\{\text{per comparison}\}} \right)^m.[/math]

因此，除非测试是完全正相关的（即，相同），否则[math]\bar{\alpha}[/math]会随着比较次数的增加而增加。
如果我们不假设比较是独立的，那么我们仍然可以说：

:[math] \bar{\alpha} \le m \cdot \alpha_{\{\text{per comparison}\}},[/math]

这是根据[[Boole's inequality|布尔不等式]]得出的。例如：[math] 0.2649=1-(1-.05)^6 \le .05 \times 6 = 0.3[/math]

有不同的方法可以确保家族错误率最多为[math]\alpha[/math]。最保守的方法，不受依赖和分布假设的限制，是[[Bonferroni correction|波恩费罗尼校正]] [math] \alpha_\mathrm{\{per\ comparison\}}={\alpha}/m[/math]。通过解决[math]m[/math]次独立比较的家族错误率方程得到的略微不那么保守的校正是[math]\alpha_{\{\text{per comparison}\}} = 1-{(1-{\alpha})}^{1/m}[/math]，这被称为[[Šidák correction|Šidák校正]]。另一种程序是[[Holm–Bonferroni method|Holm–Bonferroni方法]]，它通过仅对最低的p值（[math]i=1[/math]）进行最严格的标准测试，以及对更高的p值（[math]i>1[/math]）应用逐渐宽松的标准，从而一致地提供比简单的波恩费罗尼校正更多的功率。<ref>{{cite journal | last1 = Aickin | first1 = M | last2 = Gensler | first2 = H | title = Adjusting for multiple testing when reporting research results: the Bonferroni vs Holm methods | journal = Am J Public Health | volume = 86| pages = 726–728 | doi=10.2105/ajph.86.5.726 | pmid=8629727 | date=May 1996 | pmc=1380484 | issue=5}}</ref>
[math] \alpha_\mathrm{\{per\ comparison\}}={\alpha}/(m-i+1)[/math]。

对于连续问题，可以采用[[Baysian statistics|贝叶斯]]逻辑根据先验到后验体积比计算[math]m[/math]。[[Bonferroni correction|波恩费罗尼]]和[[Šidák correction|Šidák校正]]的连续泛化在以下文献中提出。<ref name="Bayer2020">{{cite journal |first1=Adrian E. |last1=Bayer | first2=Uroš| last2=Seljak | title=The look-elsewhere effect from a unified Bayesian and frequentist perspective |journal=[[Journal of Cosmology and Astroparticle Physics]] |volume=2020 |issue=10 |pages=009|year=2020 |arxiv = 2007.13821 | url=https://doi.org/10.1088%2F1475-7516%2F2020%2F10%2F009 |doi=10.1088/1475-7516/2020/10/009 |bibcode=2020JCAP...10..009B |s2cid=220830693 }}</ref>

=='''大规模多重检验'''==
传统的多比较校正方法聚焦于为适度数量的比较进行校正，通常用于[[analysis of variance|方差分析]]。为“大规模多重检验”开发了一套不同的技术，在这种情况下，将进行成千上万次的测试。例如，在[[genomics|基因组学]]中，使用[[DNA microarray|微阵列]]等技术时，可以测量数以万计的基因表达水平，以及数百万个遗传标记的基因型。特别是在[[genetic association|遗传关联]]研究领域，非复制性成为了一个严重问题——一个研究中的结果在统计上非常显著，但在后续研究中未能复制。这种非复制性可以有多种原因，但普遍认为未能充分考虑进行多重比较的后果是其中的一个原因。<ref>{{Cite journal|last1=Qu|first1=Hui-Qi|last2=Tien|first2=Matthew|last3=Polychronakos|first3=Constantin|date=2010-10-01|title=Statistical significance in genetic association studies|journal=Clinical and Investigative Medicine|volume=33|issue=5|pages=E266–E270|issn=0147-958X|pmc=3270946|pmid=20926032}}</ref> 有人认为，[[measurement|测量]]和[[information technology|信息技术]]的进步使得生成大型数据集进行[[exploratory data analysis|探索性分析]]变得更加容易，通常导致测试大量假设，而没有先验理由期待许多假设为真。在这种情况下，除非进行多重比较调整，否则预期的[[false positive rate|假阳性率]]会非常高。

对于目标是提供明确结果的大规模检测问题，[[family-wise error rate|家族错误率]]仍是赋予统计测试显著性水平的最被接受的参数。另一方面，如果一个研究被视为探索性的，或者显著结果可以在独立的研究中轻松重新测试，控制[[false discovery rate|假发现率]]（FDR）<ref>{{cite journal | last=Benjamini | first=Yoav |author2=Hochberg, Yosef | year=1995 | title=Controlling the false discovery rate: a practical and powerful approach to multiple testing | journal=[[Journal of the Royal Statistical Society, Series B]] | volume=57 | pages=125–133 | issue=1 | jstor=2346101}}</ref><ref>{{cite journal | last=Storey | first=JD |author2=Tibshirani, Robert | year=2003 | title=Statistical significance for genome-wide studies | journal=PNAS | volume=100 | pages=9440–9445 | doi=10.1073/pnas.1530509100 | pmid=12883005 | issue=16 | pmc=170937 | jstor=3144228| bibcode=2003PNAS..100.9440S | doi-access=free }}</ref><ref>{{cite journal | last=Efron | first=Bradley |author2=Tibshirani, Robert |author3=Storey, John D. |author4= Tusher, Virginia | journal=[[Journal of the American Statistical Association]] | volume=96 | issue=456 | year=2001 | pages=1151–1160 | title=Empirical Bayes analysis of a microarray experiment | doi=10.1198/016214501753382129 | jstor=3085878| s2cid=9076863 }}</ref>经常被偏好。FDR，宽泛定义为所有显著测试中假阳性的预期比例，允许研究人员识别一组“候选阳性”，这些可以在后续研究中进行更严格的评估。<ref>{{Cite journal|last=Noble|first=William S.|date=2009-12-01|title=How does multiple testing correction work?|journal=Nature Biotechnology|language=en|volume=27|issue=12|pages=1135–1137|doi=10.1038/nbt1209-1135|issn=1087-0156|pmc=2907892|pmid=20010596}}</ref>

尝试许多未经调整的比较，希望找到一个显著的做法是一个已知问题，无论是无意中还是故意地应用，有时被称为“p-hacking”。<ref name="Deming">{{Cite journal
|author = Young, S. S., Karr, A.
|title = Deming, data and observational studies
|journal = Significance
|volume = 8
|issue = 3
|pages = 116–120
|year = 2011
|url = http://www.niss.org/sites/default/files/Young%20Karr%20Obs%20Study%20Problem.pdf|doi = 10.1111/j.1740-9713.2011.00506.x
|doi-access = free
}}
</ref><ref name="bmj02">
{{Cite journal
|author = Smith, G. D., Shah, E.
|title = Data dredging, bias, or confounding
|journal = BMJ
|volume = 325
|year = 2002
|pmc = 1124898
|doi = 10.1136/bmj.325.7378.1437
|pmid=12493654
|issue=7378
|pages=1437–1438}}
</ref>

===评估是否有任何替代假设为真===
[[Image:quantile meta test.svg|thumb|325px|一幅模拟的[[Q–Q plot|正态分位数图]]，用于展示已被标准化为[[standard score|Z分数]]的一组测试统计量，这些统计量是在零假设下得到的。分布的上尾部偏离沿对角线的预期趋势，是由于存在大量比预期更大的测试统计量值。红色点对应第四大的观测测试统计量，其值为3.13，相比之下预期值为2.06。蓝色点对应第五小的测试统计量，其值为-1.75，相比之下预期值为-1.96。该图表明所有零假设都为真的可能性不大，且大部分或全部真实的替代假设的出现都是由于正向偏差。]]

在分析一大组测试结果的初始阶段面临的基本问题是，是否有证据表明任何替代假设为真。当假设测试彼此独立时，可以应用的一个简单的元测试是使用[[Poisson distribution]]作为模型，来模拟在所有零假设为真时，在给定水平α下会发现的显著结果的数量。{{citation needed|date=June 2016}}如果观察到的正数结果数量明显大于预期，这表明在显著结果中可能存在一些真正的正面结果。

例如，如果进行了1000个独立测试，每个的显著性水平α = 0.05，我们预期当所有零假设为真时会有0.05 × 1000 = 50个显著性测试发生。基于均值为50的泊松分布，观察到超过61个显著性测试的概率小于0.05，因此，如果观察到超过61个显著性结果，很有可能其中一些对应于替代假设成立的情况。这种方法的一个缺点是，当[[test statistic]]s呈正相关时，它会夸大一些替代假设为真的证据，这在实践中是常见的。{{citation needed|date=August 2012}}另一方面，即使在测试统计量之间存在相关性的情况下，只要泊松分布能够很好地近似显著结果的数量，这种方法仍然有效。这种情况通常出现在从交易数据集中挖掘显著的频繁项集时。此外，一个仔细的两阶段分析可以在预先指定的水平上限定FDR。<ref>{{cite journal | last1 = Kirsch | first1 = A | last2 = Mitzenmacher | first2 = M | author2-link = Michael Mitzenmacher | last3 = Pietracaprina | first3 = A | last4 = Pucci | first4 = G | last5 = Upfal | first5 = E | author5-link = Eli Upfal | last6 = Vandin | first6 = F | title = An Efficient Rigorous Approach for Identifying Statistically Significant Frequent Itemsets | journal = Journal of the ACM | volume = 59 | issue = 3 | pages = 12:1–12:22 | doi=10.1145/2220357.2220359 | date=June 2012| arxiv = 1002.1104 }}</ref>

另一个常用的方法，适用于可以将[[test statistic]]s标准化为[[standard score|Z分数]]的情况，是制作测试统计量的[[Q–Q plot|正态分位数图]]。如果观察到的分位数明显比正态分位数更加[[statistical dispersion|分散]]，这表明一些显著结果可能是真正的正面结果。{{citation needed|date=January 2012}}

== '''节点使用的R语言示例代码''' ==
=== 多重比较方差分析 ===
<syntaxhighlight lang="R">

LSD.test(y, trt, DFerror, MSerror, alpha = 0.05, p.adj=c("none","holm","hommel",
"hochberg", "bonferroni", "BH", "BY", "fdr"), group=TRUE, main = NULL,console=FALSE)

SNK.test(y, trt, DFerror, MSerror, alpha = 0.05, group=TRUE, main = NULL,console=FALSE)

TukeyHSD(x, which, ordered = FALSE, conf.level = 0.95, ...)

dunn_test(data, formula, p.adjust.method = "holm", detailed = FALSE)

</syntaxhighlight>
方法参见'''R package: agricolae，rstatix'''的官方文档

== '''节点使用指南''' ==
* 在ANOVA测试发现至少两组之间存在显著差异之后，进一步确定哪些具体组别之间存在显著差异的方法
* 在进行多重比较之前，需要首先执行一个普通的ANOVA来确定整体上是否至少有两个组在统计上显著不同
* 事后测试将提供每对组合比较的P值。根据这些P值，你可以确定哪些组别间存在显著差异

=== 方法选择 ===
* LSD：当ANOVA显示显著效果，而研究者对第一类错误（假阳性）的控制要求不是很严格时
* Tukey HSD：当想要对所有可能的组别对进行比较，同时控制整体的第一类错误率
* SNK：当希望对ANOVA的结果做更细致的分析，但不需要Tukey HSD那么严格的错误率控制
* Duncan：在初步研究中，希望探索性地发现组间差异，而对第一类错误的控制要求不是非常严格
* Scheffe：当预期进行大量比较，或者希望进行复杂的比较（如多项式对比）时更为适用
* Dunn：Dunn测试通常用在非参数统计中，特别是用于Kruskal-Wallis测试后的多重比较，当数据不符合ANOVA的正态分布或方差齐性假设时
* Nemenyi：在非参数ANOVA之后，当数据分布不满足正态性或方差同质性
* Conover：适用于数据不满足正态分布或者方差齐性假设的情况，特别是在Friedman检验后进行多重比较时

=== 参数配置 ===
* 因变量：选择一个或多个连续型数值变量，每个变量和分组变量做一次多重比较方差分析
* 分组自变量：选择一个分组的变量。如果选择方法是Tukey HSD，分组变量必须是字符串
* 选择方法：LSD，Tukey HSD，SNK，Duncan，Scheffe，Dunn，Nemenyi，Conover
* P值校正方法：
* * none：不进行任何校正。每个测试的P值都按原样使用，不考虑多重比较的问题
* * holm：依次将个别P值与根据剩余测试数量调整的显著性水平进行比较，这是Bonferroni方法的改进版
* * hommel：是Holm方法的一种改进，它提供了更强的功效，特别是当一些假设检验的P值非常小的时候
* * hochberg：对Bonferroni方法的又一种改进，它通过按P值的升序对其进行排序，然后依次比较更宽松的调整后的显著性水平，从而提高检验的功效
* * bonferroni：通过将显著性水平除以测试的总数来降低每个测试的显著性标准。这种方法非常保守，可以控制家族错误率（FWER）
* * BH：控制了假发现率（FDR），即被错误地判定为显著的假设检验中的比例。此方法适用于同时控制错误发现和保持检验功效
* * BY：是对BH方法的一种调整，它在任何依赖性结构下都能够控制FDR，但是相比于BH方法更加保守
* * fdr：False Discovery Rate，假发现率校正是一种用于控制多重假设检验中假阳性率的统计方法
* Nemenyi方法选择：选择Nemenyi方法时，长表输入：需要输入分组，每个变量会做一次检验，通常重复数据。宽表数据：每个变量都代表一个组，不需要分组变量
* Alpha值：当选择Conover方法时，输入Alpha值，一般输入0.05
* 因变量和分组自变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 确保样本是随机的、独立的，并且方差近似相等
* 样本量对事后测试的统计功效有着重要影响。样本量过小可能导致检测不到实际存在的差异
* 多重比较增加了第一类错误（假阳性）的风险。因此，事后测试通常会对P值进行校正

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:方差分析]]

组内相关系数随机效应

2024-02-25T06:36:56Z

RainW：

{{Infobox nodebasic
|nodename=组内相关系数_随机效应
|nodeimage=Intraclass Correlation Coefficient_Random.png
|icon=Intraclass Correlation Coefficient_Random.svg
|simpleicon=Intraclass Correlation Coefficient_Random_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.2.0|V1.0.2]]部署
|nodeenglishname=Intraclass Correlation Coefficient_Random
|abbreviation=ICCR
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::相关分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=组内相关系数是衡量和评价观察者间信度和复测信度的信度系数指标之一。也就是说常用于衡量某个指标在多次测量中的一致性或者相似性。该算法有两种随机效应:第一种是个体随机,每个样本都是随机选择。第二种是个体和各组之间都是随机。即所有效应互相独立。用途：用于评估同一组内数据的相似性。参数：选择多个连续型或离散型数值变量。
|nodeinputnumber=3
|nodeoutputnumber=2
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=PointPlot
|nodeavailabletablelist=Stats-Value;F-Value;df;P-Value;CI
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/组内相关系数_随机效应
|previousnode=[[典型相关分析]]
|nextnode=[[组内相关系数_混合效应]]
}}

在[[statistics|统计学]]中，'''intraclass correlation|组内相关性'''，或'''intraclass correlation coefficient|组内相关系数'''（'''ICC'''）<ref>{{Cite encyclopedia | vauthors = Koch GG |title=Intraclass correlation coefficient |encyclopedia=[[Encyclopedia of Statistical Sciences]] |volume=4 |pages=213–217 |year=1982 |editor=Samuel Kotz and Norman L. Johnson |publisher=[[John Wiley & Sons]] |location=New York}}</ref>是一种[[descriptive statistic|描述统计]]，可用于对组织成组的单位进行定量测量时使用。它描述了同一组内的单位彼此相似的程度。虽然它被视为一种[[correlation|相关]]类型，但与大多数其他相关度量不同，它是对作为组而不是成对观测数据结构化的数据进行操作。

''intraclass correlation|组内相关性''通常用于量化具有固定关联度（例如，同胞兄弟姐妹）的个体在定量特征上彼此相似的程度（参见[[heritability|遗传性]]）。另一个重要的应用是评估不同观察者测量相同数量时的一致性或可重复性。

== '''早期ICC定义：无偏但复杂的公式''' ==

最早关于组内相关性的工作集中在成对测量的情况上，而首个被提出的组内相关性（ICC）统计量是[[Pearson product moment correlation coefficient|类间相关性]]（皮尔逊相关性）的修改版。

考虑一个由''N''对数据值组成的数据集（''x''''n'',1, ''x''''n'',2），对于''n'' = 1, ..., ''N''。最初由[[Ronald Fisher|罗纳德·费舍尔]]提出的组内相关性''r''<ref>{{cite journal | vauthors = Bartko JJ | title = The intraclass correlation coefficient as a measure of reliability | journal = Psychological Reports | volume = 19 | issue = 1 | pages = 3–11 | date = August 1966 | pmid = 5942109 | doi = 10.2466/pr0.1966.19.1.3 | s2cid = 145480729 }}</ref>是

: [math]r = \frac{1}{Ns^2} \sum_{n=1}^N (x_{n,1} - \bar{x}) ( x_{n,2} - \bar{x}), [/math]

其中

: [math]\bar{x} = \frac{1}{2N} \sum_{n=1}^N (x_{n,1} + x_{n,2}), [/math]
: [math]s^2 = \frac{1}{2N} \left\{ \sum_{n=1}^N ( x_{n,1} - \bar{x})^2 + \sum_{n=1}^N ( x_{n,2} - \bar{x})^2 \right\}. [/math]

此统计量的后续版本<ref name="FisherR1954Statistical">{{Cite book | vauthors = Fisher RA |title=Statistical Methods for Research Workers |publisher=[[Oliver and Boyd]] |location=[[Edinburgh]] |year=1954 |edition=Twelfth |url=https://archive.org/details/statisticalmethoe7fish |isbn=978-0-05-002170-5 |author-link=Ronald A. Fisher |url-access=registration }}</ref>在计算''s''2的分母中使用自由度2''N'' −1，而在计算''r''的分母中使用''N'' −1，使得''s''2变得无偏，如果''s''是已知的，那么''r''也变得无偏。

这个ICC与[[Pearson product-moment correlation coefficient|类间（皮尔逊）相关性]]的主要区别在于，数据被汇总以估计均值和方差。这样做的原因是，在需要组内相关性的设置中，对是被视为无序的。例如，如果我们正在研究双胞胎的相似性，通常没有有意义的方法来为双胞胎对中的两个个体排序。与类间相关性一样，成对数据的组内相关性将被限制在[[interval (mathematics)|区间]] [−1, +1]内。

也为具有多于2个值的组定义了组内相关性。对于由三个值组成的组，其定义为<ref name="FisherR1954Statistical"/>

: [math]r = \frac{1}{3Ns^2} \sum_{n=1}^N \left\{ ( x_{n,1} - \bar{x})( x_{n,2} - \bar{x}) + (x_{n,1} - \bar{x})( x_{n,3} - \bar{x})+( x_{n,2} - \bar{x})( x_{n,3} - \bar{x}) \right\}, [/math]

其中

: [math]\bar{x} = \frac{1}{3 N} \sum_{n=1}^N (x_{n,1} + x_{n,2} + x_{n,3}), [/math]
: [math]s^2 = \frac{1}{3N} \left\{ \sum_{n=1}^N ( x_{n,1} - \bar{x})^2 + \sum_{n=1}^N ( x_{n,2} - \bar{x})^2 + \sum_{n=1}^N ( x_{n,3} - \bar{x})^2\right\}. [/math]

随着每组项目数量的增加，此表达式中的交叉乘积项数量也随之增加。以下等价形式更简单：

:[math]r = \frac{K}{K-1}\cdot\frac{N^{-1}\sum_{n=1}^N(\bar{x}_n-\bar{x})^2}{s^2} - \frac{1}{K-1},[/math]

其中''K''是每组的数据值数量，[math]\bar{x}_n[/math]是第''n''组的样本均值。<ref name="FisherR1954Statistical"/> 这种形式通常归功于[[James Arthur Harris|哈里斯]]。<ref>{{Cite journal | vauthors = Harris JA | title = On the Calculation of Intra-Class and Inter-Class Coefficients of Correlation from Class Moments when the Number of Possible Combinations is Large | journal = [[Biometrika]] | volume = 9 | issue = 3/4 | pages = 446–472 | date = October 1913 | jstor = 2331901 | doi = 10.1093/biomet/9.3-4.446 | author-link = J. Arthur Harris }}</ref> 左边的项是非负的；因此，组内相关性必须满足

: [math]r \geq \frac {-1} {K-1}.[/math]

对于大的''K''，这个ICC几乎等于

:[math]\frac{N^{-1}\sum_{n=1}^N(\bar{x}_n-\bar{x})^2}{s^2},[/math]

这可以解释为总方差中由于组间变异所占的比例。[[Ronald Fisher|罗纳德·费舍尔]]在其经典书籍''[[Statistical Methods for Research Workers]]''中专门讨论了组内相关性。<ref name="FisherR1954Statistical"/>

对于来自完全噪声的人口数据，费舍尔的公式产生的ICC值分布在0附近，即有时为负。这是因为费舍尔设计了这个公式以使其无偏，因此其估计有时会过高估计，有时会低估。对于人口中的小或0底层值，从样本计算出的ICC可能为负。

== '''现代ICC定义：简化公式但正偏差''' ==

从罗纳德·费舍尔开始，组内相关性已经在[[analysis of variance|方差分析]]（ANOVA）的框架内被考虑，最近则在[[random effects model|随机效应模型]]的框架内被考虑。已经提出了多种ICC估计器。大多数估计器可以根据随机效应模型定义

:[math]Y_{ij} = \mu + \alpha_j + \varepsilon_{ij},[/math]

其中''Y''''ij''是第''j''组的第''i''次观察值，''μ''是未观察到的整体[[expected value|均值]]，''αj''是所有组''j''中的值共享的未观察到的随机效应，而''εij''是未观察到的噪声项。<ref>{{cite journal | vauthors = Donner A, Koval JJ | title = The estimation of intraclass correlation in the analysis of family data | journal = Biometrics | volume = 36 | issue = 1 | pages = 19–25 | date = March 1980 | pmid = 7370372 | doi = 10.2307/2530491 | jstor = 2530491 }}</ref> 为了识别模型，假设''αj''和''εij''的期望值为零并且彼此不相关。此外，假设''αj''是同分布的，而''εij''也是同分布的。''αj''的方差表示为''σ''{{supsub|2|''α''}}，而''ε''''ij''的方差表示为''σ''{{supsub|2|''ε''}}。

在这个框架下，群体ICC为<ref>证明ANOVA模型中的ICC是两项的相关性：ocram [https://stats.stackexchange.com/users/3019/ocram], 理解类内相关系数，网址（版本：2012-12-05）：[https://stats.stackexchange.com/q/45201]</ref>

：[math]
\frac{\sigma_\alpha^2}{\sigma_\alpha^2+\sigma_\varepsilon^2}.
[/math]

在此框架中，ICC是同一组内两次观察的[[Correlation and dependence#Definition|相关性]]。

{{hidden begin|style=width:60%|ta1=center|border=1px #aaa solid|title=[Proof]}}

对于单向随机效应模型：

[math]Y_{ij}=\mu+\alpha_i+\epsilon_{ij}[/math]

[math]\alpha_i \sim N(0,\sigma_\alpha^2)[/math]，[math]\epsilon_{ij} \sim N(0,\sigma_\varepsilon^2)[/math]，[math]\alpha_i[/math]s与[math]\epsilon_{ij}[/math]s相互独立，且[math]\alpha_i[/math]s与[math]\epsilon_{ij}[/math]s互相独立。

任何观察的方差是：[math]Var(Y_{ij})=\sigma_\varepsilon^2 + \sigma_\alpha^2[/math]
同一组[math]i[/math]内两次观察的协方差（对于[math]j \neq k[/math]）是：<ref>dsaxton (https://stats.stackexchange.com/users/78861/dsaxton), 随机效应模型：同一水平的观察具有$\sigma^2$的协方差？, 网址（版本：2016-03-22）[https://stats.stackexchange.com/a/203052/253 链接]</ref>

[math]\begin{aligned} \operatorname{Cov}\left(Y_{i j}, Y_{i k}\right) & =\operatorname{Cov}\left(\mu+\alpha_{i}+\epsilon_{i j}, \mu+\alpha_{i}+\epsilon_{i k}\right) \\ & =\operatorname{Cov}\left(\alpha_{i}+\epsilon_{i j}, \alpha_{i}+\epsilon_{i k}\right) \\ & =\operatorname{Cov}\left(\alpha_{i}, \alpha_{i}\right)+2 \operatorname{Cov}\left(\alpha_{i}, \epsilon_{i k}\right)+\operatorname{Cov}\left(\epsilon_{i j}, \epsilon_{i k}\right) \\ & =\operatorname{Cov}\left(\alpha_{i}, \alpha_{i}\right) \\ & =\operatorname{Var}\left(\alpha_{i}\right) \\ & =\sigma_{\alpha}^{2} .\end{aligned}[/math]

在此，我们使用了[[Covariance#Covariance of linear combinations|协方差的性质]]。

综合起来我们得到：
[math]
\text{Cor}(Y_{ij}, Y_{ik}) = \frac{\text{Cov}(Y_{ij}, Y_{ik})}{\sqrt{Var(Y_{ij})Var(Y_{ik})}} = \frac{\sigma^2_\alpha }{\sigma_\varepsilon^2 + \sigma_\alpha^2}
[/math]

{{hidden end}}

这个ANOVA框架的一个优点是，不同组可以有不同数量的数据值，这是使用早期ICC统计量难以处理的。这个ICC始终是非负的，允许将其解释为“组间”总方差的比例。这个ICC可以推广以允许协变量效应，在这种情况下，ICC被解释为捕捉协变量调整后数据值的类内相似性。<ref>{{cite journal | vauthors = Stanish W, Taylor N | journal=The American Statistician | title=用于协方差分析模型的类内相关系数估计 | year=1983 | volume=37 |pages=221–224 | doi=10.2307/2683375 | issue=3 | jstor=2683375 }}</ref>

这个表达式永远不会是负数（不同于费舍尔的原始公式），因此，在来自具有0 ICC的群体的样本中，样本中的ICC将高于群体的ICC。

已经提出了许多不同的ICC统计量，不是所有这些统计量都估计相同的群体参数。关于哪些ICC统计量适用于特定用途，已经有相当大的争论，因为它们可能会为相同的数据产生明显不同的结果。<ref>{{cite journal | vauthors = Müller R, Büttner P | title = 类内相关系数的批判性讨论 | journal = Statistics in Medicine | volume = 13 | issue = 23–24 | pages = 2465–76 | date = December 1994 | pmid = 7701147 | doi = 10.1002/sim.4780132310 }} 另见评论：
* {{Cite journal | vauthors = Vargha P | title = 致编辑的信 | journal = [[Statistics in Medicine (journal)|Statistics in Medicine]] | volume = 16 | issue = 7 | pages = 821–823 | year = 1997 | doi = 10.1002/(SICI)1097-0258(19970415)16:7<821::AID-SIM558>3.0.CO;2-B | pmid = 9131768 }}</ref><ref>{{Cite journal | vauthors = McGraw KO, Wong SP | title = 关于某些类内相关系数的推断 | journal = [[Psychological Methods]] | volume = 1 | pages = 30–46 | year = 1996 | doi = 10.1037/1082-989X.1.1.30 }} 文章中有几处错误：
* {{Cite journal | vauthors = McGraw KO, Wong SP | title = 对McGraw和Wong（1996）的更正 | journal = [[Psychological Methods]] | volume = 1 | issue = 4 | pages = 390 | year = 1996 | doi = 10.1037/1082-989x.1.4.390 }}</ref>

=='''与皮尔逊相关系数的关系'''==

就其代数形式而言，费舍尔的原始ICC是最类似于[[Pearson product-moment correlation coefficient|皮尔逊相关系数]]的ICC。两个统计量之间的一个关键差异是，在ICC中，数据使用汇总的均值和标准差进行中心化和缩放，而在皮尔逊相关系数中，每个变量都通过其自己的均值和标准差进行中心化和缩放。这种对ICC的汇总缩放是有意义的，因为所有测量都是相同的量（尽管是在不同组的单位上）。例如，在一组配对数据中，每个“对”是为两个单位（例如，称量一对同卵双胞胎中的每个孪生子）所做的单一测量，而不是为单一单位做两个不同的测量（例如，为每个个体测量身高和体重），ICC是比皮尔逊相关更自然的关联度量。

皮尔逊相关的一个重要属性是，它对于对两个被比较变量应用的单独[[linear transformation|线性变换]]是不变的。因此，如果我们正在关联‘[math]X[/math]’和‘[math]Y[/math]’，比如说，‘[math]Y[/math]’ = 2‘[math]X[/math]’ + 1，‘[math]X[/math]’和‘[math]Y[/math]’之间的皮尔逊相关系数是1 —— 一个完美的相关。对于ICC来说，这个属性没有意义，因为没有依据来决定哪种变换应用于组内的每个值。然而，如果所有组中的所有数据都受到相同的线性变换，那么ICC不会改变。

=='''观察者一致性评估中的应用'''==

ICC（类内相关系数）用于评估多个观察者测量相同数量时的一致性或符合性。<ref>{{cite journal | vauthors = Shrout PE, Fleiss JL | title = 类内相关性：评估评价者可靠性的应用 | journal = 心理学公报 | volume = 86 | issue = 2 | pages = 420–8 | date = 1979年3月 | pmid = 18839484 | doi = 10.1037/0033-2909.86.2.420 }}</ref> 例如，如果请求几位医师对CT扫描结果进行癌症进展的评分，我们可以询问这些评分彼此之间的一致性。如果真相已知（例如，如果CT扫描是对随后接受探索性手术的患者进行的），那么重点通常是医师的评分与真相的匹配程度。如果真相未知，我们只能考虑评分之间的相似性。这个问题的一个重要方面是存在观察者间和观察者内的可变性。观察者间的可变性指的是观察者之间的系统性差异——例如，一位医师可能一贯地将患者评为比其他医师更高的风险等级。观察者内的可变性指的是特定观察者对特定患者的评分偏离，这些偏离不是系统性差异的一部分。

ICC被构建为适用于可交换的测量值——即，组内没有有意义的方式对测量值进行排序的分组数据。在评估观察者间的一致性时，如果相同的观察者对每个被研究元素进行评价，则观察者之间可能存在系统性差异，这与可交换性的概念相冲突。如果在存在系统性差异的情况下使用ICC，结果是观察者内和观察者间可变性的综合度量。一个可以合理假设可交换性成立的情况是，要评分的样本，比如血液样本，被分成多个分液，并且这些分液在同一仪器上分别测量。在这种情况下，只要不存在由于运行样本的顺序而产生的效应，可交换性就成立。

由于‘[math]类内相关系数[/math]’提供了观察者内和观察者间可变性的综合，当观察者不可交换时，其结果有时被认为难以解释。作为替代，提出了如科恩的[[kappa统计量]]、[[Fleiss kappa]]和[[一致性相关系数]]<ref>{{Cite journal | vauthors = Nickerson CA | title = 关于'评估可重复性的一致性相关系数'的注释 | journal = [[生物统计学 (杂志)|生物统计学]] | volume = 53 | pages = 1503–1507 | date = 1997年12月 | doi = 10.2307/2533516 | issue = 4 | jstor = 2533516 }}</ref>等其他度量方法，作为非可交换观察者间协议的更适合的度量。

=='''软件包中的计算'''==
[[File:Intraclass correlation coefficient graph improved.svg|right|thumb|400px|应用于三种观察者一致性场景的不同类内相关系数定义。]]

ICC在开源软件包[[R (编程语言)|R]]中得到支持（使用"icc"函数与[ ‘psy’]或[ ‘irr’]包，或通过[ ‘psych’]包中的"ICC"函数）。[ rptR]包<ref>{{Cite journal| vauthors = Stoffel MA, Nakagawa S, Schielzeth J |title= rptR: 通过广义线性混合效应模型估计重复性和方差分解|journal=生态学和进化方法|volume=8|issue=11|pages=1639–1644|doi=10.1111/2041-210x.12797|issn=2041-210X|year=2017|doi-access=free}}</ref>提供了在混合模型框架下估计ICC和重复性的方法，适用于高斯分布、二项分布和泊松分布的数据。值得注意的是，该包允许估计调整后的ICC（即控制其他变量）并基于参数自举法计算置信区间，以及基于残差置换计算的显著性。商业软件也支持ICC，例如[[Stata]]或[[SPSS]]<ref>{{Cite journal | vauthors = MacLennan RN | title = 使用SPSS for Windows 5.0进行评价者间可靠性 | journal = [[美国统计员]] | volume = 47 | issue = 4 | date = 1993年11月 | pages = 292–296 | doi = 10.2307/2685289 | jstor = 2685289 }}</ref>

{| class="wikitable sortable"
|+不同类型的ICC [http://www.nyu.edu/its/statistics/Docs/intracls.html] {{Webarchive|url= |date=2009-03-03 }}
|-
! Shrout和Fleiss约定 !! McGraw和Wong约定 <ref>{{ite journal | vauthors = McGraw KO, Wong SP | title = 关于某些类内相关系数的推断形成 | journal = [[心理方法]] | volume = 1 | issue = 1 | date = 1996 | pages = 30–40 | doi = 10.1037/1082-989X.1.1.30 }}</ref> !! SPSS和Stata中的名称 <ref>{{Cite book | url = | date = 2017 | title = Stata用户指南第15版 | isbn = 978-1-59718-249-2 | pages = 1101–1123 | publisher = Stata Press | location = College Station, Texas }}</ref><ref>{{Cite web
| url =
| vauthors = Howell DC
| title = 类内相关系数
}}</ref>
|-
| ICC(1,1) || 单向随机，单次评分 ICC(1) || 单向随机，单次测量
|-
| ICC(2,1) || 双向随机，单次评分 ICC(A,1) || 双向随机，单次测量，绝对协议
|-
| ICC(3,1) || 双向混合，单次评分 ICC(C,1) || 双向混合，单次测量，一致性
|-
| 未定义 || 双向随机，单次评分 ICC(C,1) || 双向随机，单次测量，一致性
|-
| 未定义 || 双向混合，单次评分 ICC(A,1) || 双向混合，单次测量，绝对协议
|-
| ICC(1,k) || 单向随机，平均评分 ICC(k) || 单向随机，平均测量
|-
| ICC(2,k) || 双向随机，平均评分 ICC(A,k) || 双向随机，平均测量，绝对协议
|-
| ICC(3,k) || 双向混合，平均评分 ICC(C,k) || 双向混合，平均测量，一致性
|-
| 未定义 || 双向随机，平均评分 ICC(C,k) || 双向随机，平均测量，一致性
|-
| 未定义 || 双向混合，平均评分 ICC(A,k) || 双向混合，平均测量，绝对协议
|}

这三种模型是：
* 单向随机效应：每个受试者由一组不同的k个随机选定的评价者测量；
* 双向随机：随机选择k个评价者，然后，每个受试者由同一组k个评价者测量；
* 双向混合：定义k个固定评价者。每个受试者由k个评价者测量。

测量次数：
* 单一测量：尽管在实验中进行了不止一次的测量，可靠性适用于一个场景，即将执行单一评估者的单一测量；
* 平均测量：可靠性适用于一个场景，其中k个评估者的测量将对每个受试者进行平均。

一致性或绝对一致性：
* 绝对一致性：两个评估者之间的一致性是重点，包括两个评估者的系统性错误和随机残余错误；
* 一致性：在同一评估者重复测量的上下文中，评估者的系统性错误被取消，只保留随机残余错误。

在单向随机效应模型中，无法估计一致性ICC，因为无法分离评估者间和残余方差。

Liljequist等人（2019）<ref>{{cite journal | vauthors = Liljequist D, Elfving B, Skavberg Roaldsen K | title = 等级内相关性 - 基本特征的讨论和演示 | journal = PLOS ONE | volume = 14 | issue = 7 | pages = e0219854 | date = 2019 | pmid = 31329615 | doi = 10.1371/journal.pone.0219854 | pmc = 6645485 | doi-access = free }}</ref>也提供了对单一测量ICC的三个模型的概览和重新分析，以及它们使用的另一种方法。

== '''解释''' ==
Cicchetti（1994）<ref>{{Cite journal| vauthors = Cicchetti DV |title=评估心理学中规范化和标准化评估工具的指南、标准和经验法则。|journal=Psychological Assessment|volume=6|issue=4|date=1994|pages=284–290|doi=10.1037/1040-3590.6.4.284}}</ref>为[[Cohen's kappa|kappa]]或ICC评估者间一致性测量提供了以下经常引用的解释指南：
* 少于0.40—差。
* 在0.40和0.59之间—一般。
* 在0.60和0.74之间—好。
* 在0.75和1.00之间—优秀。

Koo和Li（2016）<ref>{{cite journal | vauthors = Koo TK, Li MY | title = 选择和报告等级内相关系数的可靠性研究指南 | journal = Journal of Chiropractic Medicine | volume = 15 | issue = 2 | pages = 155–63 | date = June 2016 | pmid = 27330520 | pmc = 4913118 | doi = 10.1016/j.jcm.2016.02.012 }}</ref>给出了不同的指南：

* 低于0.50：差
* 在0.50和0.75之间：中等
* 在0.75和0.90之间：好
* 高于0.90：优秀

== '''节点使用的R语言示例代码''' ==
=== 组内相关系数随机效应 ===
<syntaxhighlight lang="R">

icc(ratings, model = c("oneway", "twoway"),
type = c("consistency", "agreement"),
unit = c("single", "average"), r0 = 0, conf.level = 0.95)

</syntaxhighlight>
方法参见'''R package: irr'''的官方文档

== '''节点使用指南''' ==
* 用来评估在分类数据中，同一组内个体间相似程度的一种度量
* 随机效应指的是在模型中随机变动的组件，通常用于考虑非独立数据结构的影响
* 可以帮助我们了解组内个体的相关性大小

=== 方法选择 ===
* oneway是row effects random，假设只有一个固定的影响因素或只关心一个特定来源的变异
* twoway是column and row effects random，双向随机效应，评价者和对象都被视为是随机效应

=== 参数配置 ===
* 统计变量：选择多个连续型数值变量
* 随机方法选择：oneway,twoway
* 种类选择：不同评分者对同一样本的评分是否绝对一致或是否存在相关。Agreement考虑一致性，consistency考虑相关性
* ICC单位：选择单位，single是单个测量，每个对象的检测值由单个方法测量。average是平均测量，每个对象的检测值由多个方法测量，然后结果求平均
* 原假设检验值：默认是0，是因为原假设（null hypothesis）是观察值之间没有一致性或相关性
* 置信区间百分比:输入百分比，95%置信区间就是0.95
* 此算法兼容空值

=== 注意事项 ===
* 模型的复杂性会影响ICC的解释，选择合适的随机效应结构很重要
* ICC的值范围通常在0到1之间，一个较高的ICC值表明组内相似性较高，而较低的ICC值则表明组内差异较大

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:相关分析]]

组内相关系数混合效应

2024-02-25T06:23:13Z

RainW：

{{Infobox nodebasic
|nodename=组内相关系数_混合效应
|nodeimage=Intraclass Correlation Coefficient_Mixed.png
|icon=Intraclass Correlation Coefficient_Mixed.svg
|simpleicon=Intraclass Correlation Coefficient_Mixed_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.2.0|V1.0.2]]部署
|nodeenglishname=Intraclass Correlation Coefficient_Mixed
|abbreviation=ICCM
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::相关分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=组内相关系数是衡量和评价观察者间信度和复测信度的信度系数指标之一。也就是说常用于衡量某个指标在多次测量中的一致性或者相似性。该算法运用的是混合效应模型，当个体效应随机，各组之间效应固定时选用。用途：可以用来处理层次或嵌套数据结构。参数：选择多个连续型或离散型数值变量。
|nodeinputnumber=3
|nodeoutputnumber=2
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=PointPlot
|nodeavailabletablelist=Stats-Value;F-Value;df;P-Value;CI
|nodeconfiguration=VariableList;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/组内相关系数_混合效应
|previousnode=[[组内相关系数_随机效应]]
|nextnode=[[线性回归]]
}}

在[[statistics|统计学]]中，'''intraclass correlation|组内相关性'''，或'''intraclass correlation coefficient|组内相关系数'''（'''ICC'''）<ref>{{Cite encyclopedia | vauthors = Koch GG |title=Intraclass correlation coefficient |encyclopedia=[[Encyclopedia of Statistical Sciences]] |volume=4 |pages=213–217 |year=1982 |editor=Samuel Kotz and Norman L. Johnson |publisher=[[John Wiley & Sons]] |location=New York}}</ref>是一种[[descriptive statistic|描述统计]]，可用于对组织成组的单位进行定量测量时使用。它描述了同一组内的单位彼此相似的程度。虽然它被视为一种[[correlation|相关]]类型，但与大多数其他相关度量不同，它是对作为组而不是成对观测数据结构化的数据进行操作。

''intraclass correlation|组内相关性''通常用于量化具有固定关联度（例如，同胞兄弟姐妹）的个体在定量特征上彼此相似的程度（参见[[heritability|遗传性]]）。另一个重要的应用是评估不同观察者测量相同数量时的一致性或可重复性。

== '''早期ICC定义：无偏但复杂的公式''' ==

最早关于组内相关性的工作集中在成对测量的情况上，而首个被提出的组内相关性（ICC）统计量是[[Pearson product moment correlation coefficient|类间相关性]]（皮尔逊相关性）的修改版。

考虑一个由''N''对数据值组成的数据集（''x''''n'',1, ''x''''n'',2），对于''n'' = 1, ..., ''N''。最初由[[Ronald Fisher|罗纳德·费舍尔]]提出的组内相关性''r''<ref>{{cite journal | vauthors = Bartko JJ | title = The intraclass correlation coefficient as a measure of reliability | journal = Psychological Reports | volume = 19 | issue = 1 | pages = 3–11 | date = August 1966 | pmid = 5942109 | doi = 10.2466/pr0.1966.19.1.3 | s2cid = 145480729 }}</ref>是

: [math]r = \frac{1}{Ns^2} \sum_{n=1}^N (x_{n,1} - \bar{x}) ( x_{n,2} - \bar{x}), [/math]

其中

: [math]\bar{x} = \frac{1}{2N} \sum_{n=1}^N (x_{n,1} + x_{n,2}), [/math]
: [math]s^2 = \frac{1}{2N} \left\{ \sum_{n=1}^N ( x_{n,1} - \bar{x})^2 + \sum_{n=1}^N ( x_{n,2} - \bar{x})^2 \right\}. [/math]

此统计量的后续版本<ref name="FisherR1954Statistical">{{Cite book | vauthors = Fisher RA |title=Statistical Methods for Research Workers |publisher=[[Oliver and Boyd]] |location=[[Edinburgh]] |year=1954 |edition=Twelfth |url=https://archive.org/details/statisticalmethoe7fish |isbn=978-0-05-002170-5 |author-link=Ronald A. Fisher |url-access=registration }}</ref>在计算''s''2的分母中使用自由度2''N'' −1，而在计算''r''的分母中使用''N'' −1，使得''s''2变得无偏，如果''s''是已知的，那么''r''也变得无偏。

这个ICC与[[Pearson product-moment correlation coefficient|类间（皮尔逊）相关性]]的主要区别在于，数据被汇总以估计均值和方差。这样做的原因是，在需要组内相关性的设置中，对是被视为无序的。例如，如果我们正在研究双胞胎的相似性，通常没有有意义的方法来为双胞胎对中的两个个体排序。与类间相关性一样，成对数据的组内相关性将被限制在[[interval (mathematics)|区间]] [−1, +1]内。

也为具有多于2个值的组定义了组内相关性。对于由三个值组成的组，其定义为<ref name="FisherR1954Statistical"/>

: [math]r = \frac{1}{3Ns^2} \sum_{n=1}^N \left\{ ( x_{n,1} - \bar{x})( x_{n,2} - \bar{x}) + (x_{n,1} - \bar{x})( x_{n,3} - \bar{x})+( x_{n,2} - \bar{x})( x_{n,3} - \bar{x}) \right\}, [/math]

其中

: [math]\bar{x} = \frac{1}{3 N} \sum_{n=1}^N (x_{n,1} + x_{n,2} + x_{n,3}), [/math]
: [math]s^2 = \frac{1}{3N} \left\{ \sum_{n=1}^N ( x_{n,1} - \bar{x})^2 + \sum_{n=1}^N ( x_{n,2} - \bar{x})^2 + \sum_{n=1}^N ( x_{n,3} - \bar{x})^2\right\}. [/math]

随着每组项目数量的增加，此表达式中的交叉乘积项数量也随之增加。以下等价形式更简单：

:[math]r = \frac{K}{K-1}\cdot\frac{N^{-1}\sum_{n=1}^N(\bar{x}_n-\bar{x})^2}{s^2} - \frac{1}{K-1},[/math]

其中''K''是每组的数据值数量，[math]\bar{x}_n[/math]是第''n''组的样本均值。<ref name="FisherR1954Statistical"/> 这种形式通常归功于[[James Arthur Harris|哈里斯]]。<ref>{{Cite journal | vauthors = Harris JA | title = On the Calculation of Intra-Class and Inter-Class Coefficients of Correlation from Class Moments when the Number of Possible Combinations is Large | journal = [[Biometrika]] | volume = 9 | issue = 3/4 | pages = 446–472 | date = October 1913 | jstor = 2331901 | doi = 10.1093/biomet/9.3-4.446 | author-link = J. Arthur Harris }}</ref> 左边的项是非负的；因此，组内相关性必须满足

: [math]r \geq \frac {-1} {K-1}.[/math]

对于大的''K''，这个ICC几乎等于

:[math]\frac{N^{-1}\sum_{n=1}^N(\bar{x}_n-\bar{x})^2}{s^2},[/math]

这可以解释为总方差中由于组间变异所占的比例。[[Ronald Fisher|罗纳德·费舍尔]]在其经典书籍''[[Statistical Methods for Research Workers]]''中专门讨论了组内相关性。<ref name="FisherR1954Statistical"/>

对于来自完全噪声的人口数据，费舍尔的公式产生的ICC值分布在0附近，即有时为负。这是因为费舍尔设计了这个公式以使其无偏，因此其估计有时会过高估计，有时会低估。对于人口中的小或0底层值，从样本计算出的ICC可能为负。

== '''现代ICC定义：简化公式但正偏差''' ==

从罗纳德·费舍尔开始，组内相关性已经在[[analysis of variance|方差分析]]（ANOVA）的框架内被考虑，最近则在[[random effects model|随机效应模型]]的框架内被考虑。已经提出了多种ICC估计器。大多数估计器可以根据随机效应模型定义

:[math]Y_{ij} = \mu + \alpha_j + \varepsilon_{ij},[/math]

其中''Y''''ij''是第''j''组的第''i''次观察值，''μ''是未观察到的整体[[expected value|均值]]，''αj''是所有组''j''中的值共享的未观察到的随机效应，而''εij''是未观察到的噪声项。<ref>{{cite journal | vauthors = Donner A, Koval JJ | title = The estimation of intraclass correlation in the analysis of family data | journal = Biometrics | volume = 36 | issue = 1 | pages = 19–25 | date = March 1980 | pmid = 7370372 | doi = 10.2307/2530491 | jstor = 2530491 }}</ref> 为了识别模型，假设''αj''和''εij''的期望值为零并且彼此不相关。此外，假设''αj''是同分布的，而''εij''也是同分布的。''αj''的方差表示为''σ''{{supsub|2|''α''}}，而''ε''''ij''的方差表示为''σ''{{supsub|2|''ε''}}。

在这个框架下，群体ICC为<ref>证明ANOVA模型中的ICC是两项的相关性：ocram [https://stats.stackexchange.com/users/3019/ocram], 理解类内相关系数，网址（版本：2012-12-05）：[https://stats.stackexchange.com/q/45201]</ref>

：[math]
\frac{\sigma_\alpha^2}{\sigma_\alpha^2+\sigma_\varepsilon^2}.
[/math]

在此框架中，ICC是同一组内两次观察的[[Correlation and dependence#Definition|相关性]]。

{{hidden begin|style=width:60%|ta1=center|border=1px #aaa solid|title=[Proof]}}

对于单向随机效应模型：

[math]Y_{ij}=\mu+\alpha_i+\epsilon_{ij}[/math]

[math]\alpha_i \sim N(0,\sigma_\alpha^2)[/math]，[math]\epsilon_{ij} \sim N(0,\sigma_\varepsilon^2)[/math]，[math]\alpha_i[/math]s与[math]\epsilon_{ij}[/math]s相互独立，且[math]\alpha_i[/math]s与[math]\epsilon_{ij}[/math]s互相独立。

任何观察的方差是：[math]Var(Y_{ij})=\sigma_\varepsilon^2 + \sigma_\alpha^2[/math]
同一组[math]i[/math]内两次观察的协方差（对于[math]j \neq k[/math]）是：<ref>dsaxton (https://stats.stackexchange.com/users/78861/dsaxton), 随机效应模型：同一水平的观察具有$\sigma^2$的协方差？, 网址（版本：2016-03-22）[https://stats.stackexchange.com/a/203052/253 链接]</ref>

[math]\begin{aligned} \operatorname{Cov}\left(Y_{i j}, Y_{i k}\right) & =\operatorname{Cov}\left(\mu+\alpha_{i}+\epsilon_{i j}, \mu+\alpha_{i}+\epsilon_{i k}\right) \\ & =\operatorname{Cov}\left(\alpha_{i}+\epsilon_{i j}, \alpha_{i}+\epsilon_{i k}\right) \\ & =\operatorname{Cov}\left(\alpha_{i}, \alpha_{i}\right)+2 \operatorname{Cov}\left(\alpha_{i}, \epsilon_{i k}\right)+\operatorname{Cov}\left(\epsilon_{i j}, \epsilon_{i k}\right) \\ & =\operatorname{Cov}\left(\alpha_{i}, \alpha_{i}\right) \\ & =\operatorname{Var}\left(\alpha_{i}\right) \\ & =\sigma_{\alpha}^{2} .\end{aligned}[/math]

在此，我们使用了[[Covariance#Covariance of linear combinations|协方差的性质]]。

综合起来我们得到：
[math]
\text{Cor}(Y_{ij}, Y_{ik}) = \frac{\text{Cov}(Y_{ij}, Y_{ik})}{\sqrt{Var(Y_{ij})Var(Y_{ik})}} = \frac{\sigma^2_\alpha }{\sigma_\varepsilon^2 + \sigma_\alpha^2}
[/math]

{{hidden end}}

这个ANOVA框架的一个优点是，不同组可以有不同数量的数据值，这是使用早期ICC统计量难以处理的。这个ICC始终是非负的，允许将其解释为“组间”总方差的比例。这个ICC可以推广以允许协变量效应，在这种情况下，ICC被解释为捕捉协变量调整后数据值的类内相似性。<ref>{{cite journal | vauthors = Stanish W, Taylor N | journal=The American Statistician | title=用于协方差分析模型的类内相关系数估计 | year=1983 | volume=37 |pages=221–224 | doi=10.2307/2683375 | issue=3 | jstor=2683375 }}</ref>

这个表达式永远不会是负数（不同于费舍尔的原始公式），因此，在来自具有0 ICC的群体的样本中，样本中的ICC将高于群体的ICC。

已经提出了许多不同的ICC统计量，不是所有这些统计量都估计相同的群体参数。关于哪些ICC统计量适用于特定用途，已经有相当大的争论，因为它们可能会为相同的数据产生明显不同的结果。<ref>{{cite journal | vauthors = Müller R, Büttner P | title = 类内相关系数的批判性讨论 | journal = Statistics in Medicine | volume = 13 | issue = 23–24 | pages = 2465–76 | date = December 1994 | pmid = 7701147 | doi = 10.1002/sim.4780132310 }} 另见评论：
* {{Cite journal | vauthors = Vargha P | title = 致编辑的信 | journal = [[Statistics in Medicine (journal)|Statistics in Medicine]] | volume = 16 | issue = 7 | pages = 821–823 | year = 1997 | doi = 10.1002/(SICI)1097-0258(19970415)16:7<821::AID-SIM558>3.0.CO;2-B | pmid = 9131768 }}</ref><ref>{{Cite journal | vauthors = McGraw KO, Wong SP | title = 关于某些类内相关系数的推断 | journal = [[Psychological Methods]] | volume = 1 | pages = 30–46 | year = 1996 | doi = 10.1037/1082-989X.1.1.30 }} 文章中有几处错误：
* {{Cite journal | vauthors = McGraw KO, Wong SP | title = 对McGraw和Wong（1996）的更正 | journal = [[Psychological Methods]] | volume = 1 | issue = 4 | pages = 390 | year = 1996 | doi = 10.1037/1082-989x.1.4.390 }}</ref>

=='''与皮尔逊相关系数的关系'''==

就其代数形式而言，费舍尔的原始ICC是最类似于[[Pearson product-moment correlation coefficient|皮尔逊相关系数]]的ICC。两个统计量之间的一个关键差异是，在ICC中，数据使用汇总的均值和标准差进行中心化和缩放，而在皮尔逊相关系数中，每个变量都通过其自己的均值和标准差进行中心化和缩放。这种对ICC的汇总缩放是有意义的，因为所有测量都是相同的量（尽管是在不同组的单位上）。例如，在一组配对数据中，每个“对”是为两个单位（例如，称量一对同卵双胞胎中的每个孪生子）所做的单一测量，而不是为单一单位做两个不同的测量（例如，为每个个体测量身高和体重），ICC是比皮尔逊相关更自然的关联度量。

皮尔逊相关的一个重要属性是，它对于对两个被比较变量应用的单独[[linear transformation|线性变换]]是不变的。因此，如果我们正在关联‘[math]X[/math]’和‘[math]Y[/math]’，比如说，‘[math]Y[/math]’ = 2‘[math]X[/math]’ + 1，‘[math]X[/math]’和‘[math]Y[/math]’之间的皮尔逊相关系数是1 —— 一个完美的相关。对于ICC来说，这个属性没有意义，因为没有依据来决定哪种变换应用于组内的每个值。然而，如果所有组中的所有数据都受到相同的线性变换，那么ICC不会改变。

=='''观察者一致性评估中的应用'''==

ICC（类内相关系数）用于评估多个观察者测量相同数量时的一致性或符合性。<ref>{{cite journal | vauthors = Shrout PE, Fleiss JL | title = 类内相关性：评估评价者可靠性的应用 | journal = 心理学公报 | volume = 86 | issue = 2 | pages = 420–8 | date = 1979年3月 | pmid = 18839484 | doi = 10.1037/0033-2909.86.2.420 }}</ref> 例如，如果请求几位医师对CT扫描结果进行癌症进展的评分，我们可以询问这些评分彼此之间的一致性。如果真相已知（例如，如果CT扫描是对随后接受探索性手术的患者进行的），那么重点通常是医师的评分与真相的匹配程度。如果真相未知，我们只能考虑评分之间的相似性。这个问题的一个重要方面是存在观察者间和观察者内的可变性。观察者间的可变性指的是观察者之间的系统性差异——例如，一位医师可能一贯地将患者评为比其他医师更高的风险等级。观察者内的可变性指的是特定观察者对特定患者的评分偏离，这些偏离不是系统性差异的一部分。

ICC被构建为适用于可交换的测量值——即，组内没有有意义的方式对测量值进行排序的分组数据。在评估观察者间的一致性时，如果相同的观察者对每个被研究元素进行评价，则观察者之间可能存在系统性差异，这与可交换性的概念相冲突。如果在存在系统性差异的情况下使用ICC，结果是观察者内和观察者间可变性的综合度量。一个可以合理假设可交换性成立的情况是，要评分的样本，比如血液样本，被分成多个分液，并且这些分液在同一仪器上分别测量。在这种情况下，只要不存在由于运行样本的顺序而产生的效应，可交换性就成立。

由于‘[math]类内相关系数[/math]’提供了观察者内和观察者间可变性的综合，当观察者不可交换时，其结果有时被认为难以解释。作为替代，提出了如科恩的[[kappa统计量]]、[[Fleiss kappa]]和[[一致性相关系数]]<ref>{{Cite journal | vauthors = Nickerson CA | title = 关于'评估可重复性的一致性相关系数'的注释 | journal = [[生物统计学 (杂志)|生物统计学]] | volume = 53 | pages = 1503–1507 | date = 1997年12月 | doi = 10.2307/2533516 | issue = 4 | jstor = 2533516 }}</ref>等其他度量方法，作为非可交换观察者间协议的更适合的度量。

=='''软件包中的计算'''==
[[File:Intraclass correlation coefficient graph improved.svg|right|thumb|400px|应用于三种观察者一致性场景的不同类内相关系数定义。]]

ICC在开源软件包[[R (编程语言)|R]]中得到支持（使用"icc"函数与[ ‘psy’]或[ ‘irr’]包，或通过[ ‘psych’]包中的"ICC"函数）。[ rptR]包<ref>{{Cite journal| vauthors = Stoffel MA, Nakagawa S, Schielzeth J |title= rptR: 通过广义线性混合效应模型估计重复性和方差分解|journal=生态学和进化方法|volume=8|issue=11|pages=1639–1644|doi=10.1111/2041-210x.12797|issn=2041-210X|year=2017|doi-access=free}}</ref>提供了在混合模型框架下估计ICC和重复性的方法，适用于高斯分布、二项分布和泊松分布的数据。值得注意的是，该包允许估计调整后的ICC（即控制其他变量）并基于参数自举法计算置信区间，以及基于残差置换计算的显著性。商业软件也支持ICC，例如[[Stata]]或[[SPSS]]<ref>{{Cite journal | vauthors = MacLennan RN | title = 使用SPSS for Windows 5.0进行评价者间可靠性 | journal = [[美国统计员]] | volume = 47 | issue = 4 | date = 1993年11月 | pages = 292–296 | doi = 10.2307/2685289 | jstor = 2685289 }}</ref>

{| class="wikitable sortable"
|+不同类型的ICC [http://www.nyu.edu/its/statistics/Docs/intracls.html] {{Webarchive|url= |date=2009-03-03 }}
|-
! Shrout和Fleiss约定 !! McGraw和Wong约定 <ref>{{ite journal | vauthors = McGraw KO, Wong SP | title = 关于某些类内相关系数的推断形成 | journal = [[心理方法]] | volume = 1 | issue = 1 | date = 1996 | pages = 30–40 | doi = 10.1037/1082-989X.1.1.30 }}</ref> !! SPSS和Stata中的名称 <ref>{{Cite book | url = | date = 2017 | title = Stata用户指南第15版 | isbn = 978-1-59718-249-2 | pages = 1101–1123 | publisher = Stata Press | location = College Station, Texas }}</ref><ref>{{Cite web
| url =
| vauthors = Howell DC
| title = 类内相关系数
}}</ref>
|-
| ICC(1,1) || 单向随机，单次评分 ICC(1) || 单向随机，单次测量
|-
| ICC(2,1) || 双向随机，单次评分 ICC(A,1) || 双向随机，单次测量，绝对协议
|-
| ICC(3,1) || 双向混合，单次评分 ICC(C,1) || 双向混合，单次测量，一致性
|-
| 未定义 || 双向随机，单次评分 ICC(C,1) || 双向随机，单次测量，一致性
|-
| 未定义 || 双向混合，单次评分 ICC(A,1) || 双向混合，单次测量，绝对协议
|-
| ICC(1,k) || 单向随机，平均评分 ICC(k) || 单向随机，平均测量
|-
| ICC(2,k) || 双向随机，平均评分 ICC(A,k) || 双向随机，平均测量，绝对协议
|-
| ICC(3,k) || 双向混合，平均评分 ICC(C,k) || 双向混合，平均测量，一致性
|-
| 未定义 || 双向随机，平均评分 ICC(C,k) || 双向随机，平均测量，一致性
|-
| 未定义 || 双向混合，平均评分 ICC(A,k) || 双向混合，平均测量，绝对协议
|}

这三种模型是：
* 单向随机效应：每个受试者由一组不同的k个随机选定的评价者测量；
* 双向随机：随机选择k个评价者，然后，每个受试者由同一组k个评价者测量；
* 双向混合：定义k个固定评价者。每个受试者由k个评价者测量。

测量次数：
* 单一测量：尽管在实验中进行了不止一次的测量，可靠性适用于一个场景，即将执行单一评估者的单一测量；
* 平均测量：可靠性适用于一个场景，其中k个评估者的测量将对每个受试者进行平均。

一致性或绝对一致性：
* 绝对一致性：两个评估者之间的一致性是重点，包括两个评估者的系统性错误和随机残余错误；
* 一致性：在同一评估者重复测量的上下文中，评估者的系统性错误被取消，只保留随机残余错误。

在单向随机效应模型中，无法估计一致性ICC，因为无法分离评估者间和残余方差。

Liljequist等人（2019）<ref>{{cite journal | vauthors = Liljequist D, Elfving B, Skavberg Roaldsen K | title = 等级内相关性 - 基本特征的讨论和演示 | journal = PLOS ONE | volume = 14 | issue = 7 | pages = e0219854 | date = 2019 | pmid = 31329615 | doi = 10.1371/journal.pone.0219854 | pmc = 6645485 | doi-access = free }}</ref>也提供了对单一测量ICC的三个模型的概览和重新分析，以及它们使用的另一种方法。

== '''解释''' ==
Cicchetti（1994）<ref>{{Cite journal| vauthors = Cicchetti DV |title=评估心理学中规范化和标准化评估工具的指南、标准和经验法则。|journal=Psychological Assessment|volume=6|issue=4|date=1994|pages=284–290|doi=10.1037/1040-3590.6.4.284}}</ref>为[[Cohen's kappa|kappa]]或ICC评估者间一致性测量提供了以下经常引用的解释指南：
* 少于0.40—差。
* 在0.40和0.59之间—一般。
* 在0.60和0.74之间—好。
* 在0.75和1.00之间—优秀。

Koo和Li（2016）<ref>{{cite journal | vauthors = Koo TK, Li MY | title = 选择和报告等级内相关系数的可靠性研究指南 | journal = Journal of Chiropractic Medicine | volume = 15 | issue = 2 | pages = 155–63 | date = June 2016 | pmid = 27330520 | pmc = 4913118 | doi = 10.1016/j.jcm.2016.02.012 }}</ref>给出了不同的指南：

* 低于0.50：差
* 在0.50和0.75之间：中等
* 在0.75和0.90之间：好
* 高于0.90：优秀

== '''节点使用的R语言示例代码''' ==
=== 组内相关系数混合效应 ===
<syntaxhighlight lang="R">

ICC(x,missing=TRUE,alpha=.05,lmer=TRUE,check.keys=FALSE)

</syntaxhighlight>
方法参见'''R package: psych'''的官方文档

== '''节点使用指南''' ==
* 用来评估在分类数据中，同一组内个体间相似程度的一种度量
* 混合效应模型（也称为多层模型或层次线性模型）中，随机效应是指那些不是固定的、可以从一个更大的总体中随机抽取的效应。
* 在混合效应模型中，固定效应估计总体平均响应，而随机效应捕捉组间（如学校、医院、地区等）的变异性

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量：选择多个连续型数值变量
* Alpha：输入显着性Alpha值，查找置信区间的显着性Alpha水平，通常为0.05
* 此算法兼容空值

=== 注意事项 ===
* 确定足够的样本大小，以便为随机效应和固定效应的估计提供足够的统计功效
* ICC的值范围通常在0到1之间，一个较高的ICC值表明组内相似性较高，而较低的ICC值则表明组内差异较大

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:相关分析]]

组内相关系数混合效应

2024-02-25T05:58:36Z

RainW：

{{Infobox nodebasic
|nodename=组内相关系数_混合效应
|nodeimage=Intraclass Correlation Coefficient_Mixed.png
|icon=Intraclass Correlation Coefficient_Mixed.svg
|simpleicon=Intraclass Correlation Coefficient_Mixed_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.2.0|V1.0.2]]部署
|nodeenglishname=Intraclass Correlation Coefficient_Mixed
|abbreviation=ICCM
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::相关分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=组内相关系数是衡量和评价观察者间信度和复测信度的信度系数指标之一。也就是说常用于衡量某个指标在多次测量中的一致性或者相似性。该算法运用的是混合效应模型，当个体效应随机，各组之间效应固定时选用。用途：可以用来处理层次或嵌套数据结构。参数：选择多个连续型或离散型数值变量。
|nodeinputnumber=3
|nodeoutputnumber=2
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=PointPlot
|nodeavailabletablelist=Stats-Value;F-Value;df;P-Value;CI
|nodeconfiguration=VariableList;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/组内相关系数_混合效应
|previousnode=[[组内相关系数_随机效应]]
|nextnode=[[线性回归]]
}}

在[[statistics|统计学]]中，'''intraclass correlation|组内相关性'''，或'''intraclass correlation coefficient|组内相关系数'''（'''ICC'''）<ref>{{Cite encyclopedia | vauthors = Koch GG |title=Intraclass correlation coefficient |encyclopedia=[[Encyclopedia of Statistical Sciences]] |volume=4 |pages=213–217 |year=1982 |editor=Samuel Kotz and Norman L. Johnson |publisher=[[John Wiley & Sons]] |location=New York}}</ref>是一种[[descriptive statistic|描述统计]]，可用于对组织成组的单位进行定量测量时使用。它描述了同一组内的单位彼此相似的程度。虽然它被视为一种[[correlation|相关]]类型，但与大多数其他相关度量不同，它是对作为组而不是成对观测数据结构化的数据进行操作。

''intraclass correlation|组内相关性''通常用于量化具有固定关联度（例如，同胞兄弟姐妹）的个体在定量特征上彼此相似的程度（参见[[heritability|遗传性]]）。另一个重要的应用是评估不同观察者测量相同数量时的一致性或可重复性。

== 早期ICC定义：无偏但复杂的公式 ==

最早关于组内相关性的工作集中在成对测量的情况上，而首个被提出的组内相关性（ICC）统计量是[[Pearson product moment correlation coefficient|类间相关性]]（皮尔逊相关性）的修改版。

考虑一个由''N''对数据值组成的数据集（''x''''n'',1, ''x''''n'',2），对于''n'' = 1, ..., ''N''。最初由[[Ronald Fisher|罗纳德·费舍尔]]提出的组内相关性''r''<ref>{{cite journal | vauthors = Bartko JJ | title = The intraclass correlation coefficient as a measure of reliability | journal = Psychological Reports | volume = 19 | issue = 1 | pages = 3–11 | date = August 1966 | pmid = 5942109 | doi = 10.2466/pr0.1966.19.1.3 | s2cid = 145480729 }}</ref>是

: [math]r = \frac{1}{Ns^2} \sum_{n=1}^N (x_{n,1} - \bar{x}) ( x_{n,2} - \bar{x}), [/math]

其中

: [math]\bar{x} = \frac{1}{2N} \sum_{n=1}^N (x_{n,1} + x_{n,2}), [/math]
: [math]s^2 = \frac{1}{2N} \left\{ \sum_{n=1}^N ( x_{n,1} - \bar{x})^2 + \sum_{n=1}^N ( x_{n,2} - \bar{x})^2 \right\}. [/math]

此统计量的后续版本<ref name="FisherR1954Statistical">{{Cite book | vauthors = Fisher RA |title=Statistical Methods for Research Workers |publisher=[[Oliver and Boyd]] |location=[[Edinburgh]] |year=1954 |edition=Twelfth |url=https://archive.org/details/statisticalmethoe7fish |isbn=978-0-05-002170-5 |author-link=Ronald A. Fisher |url-access=registration }}</ref>在计算''s''2的分母中使用自由度2''N'' −1，而在计算''r''的分母中使用''N'' −1，使得''s''2变得无偏，如果''s''是已知的，那么''r''也变得无偏。

这个ICC与[[Pearson product-moment correlation coefficient|类间（皮尔逊）相关性]]的主要区别在于，数据被汇总以估计均值和方差。这样做的原因是，在需要组内相关性的设置中，对是被视为无序的。例如，如果我们正在研究双胞胎的相似性，通常没有有意义的方法来为双胞胎对中的两个个体排序。与类间相关性一样，成对数据的组内相关性将被限制在[[interval (mathematics)|区间]] [−1, +1]内。

也为具有多于2个值的组定义了组内相关性。对于由三个值组成的组，其定义为<ref name="FisherR1954Statistical"/>

: [math]r = \frac{1}{3Ns^2} \sum_{n=1}^N \left\{ ( x_{n,1} - \bar{x})( x_{n,2} - \bar{x}) + (x_{n,1} - \bar{x})( x_{n,3} - \bar{x})+( x_{n,2} - \bar{x})( x_{n,3} - \bar{x}) \right\}, [/math]

其中

: [math]\bar{x} = \frac{1}{3 N} \sum_{n=1}^N (x_{n,1} + x_{n,2} + x_{n,3}), [/math]
: [math]s^2 = \frac{1}{3N} \left\{ \sum_{n=1}^N ( x_{n,1} - \bar{x})^2 + \sum_{n=1}^N ( x_{n,2} - \bar{x})^2 + \sum_{n=1}^N ( x_{n,3} - \bar{x})^2\right\}. [/math]

随着每组项目数量的增加，此表达式中的交叉乘积项数量也随之增加。以下等价形式更简单：

:[math]r = \frac{K}{K-1}\cdot\frac{N^{-1}\sum_{n=1}^N(\bar{x}_n-\bar{x})^2}{s^2} - \frac{1}{K-1},[/math]

其中''K''是每组的数据值数量，[math]\bar{x}_n[/math]是第''n''组的样本均值。<ref name="FisherR1954Statistical"/> 这种形式通常归功于[[James Arthur Harris|哈里斯]]。<ref>{{Cite journal | vauthors = Harris JA | title = On the Calculation of Intra-Class and Inter-Class Coefficients of Correlation from Class Moments when the Number of Possible Combinations is Large | journal = [[Biometrika]] | volume = 9 | issue = 3/4 | pages = 446–472 | date = October 1913 | jstor = 2331901 | doi = 10.1093/biomet/9.3-4.446 | author-link = J. Arthur Harris }}</ref> 左边的项是非负的；因此，组内相关性必须满足

: [math]r \geq \frac {-1} {K-1}.[/math]

对于大的''K''，这个ICC几乎等于

:[math]\frac{N^{-1}\sum_{n=1}^N(\bar{x}_n-\bar{x})^2}{s^2},[/math]

这可以解释为总方差中由于组间变异所占的比例。[[Ronald Fisher|罗纳德·费舍尔]]在其经典书籍''[[Statistical Methods for Research Workers]]''中专门讨论了组内相关性。<ref name="FisherR1954Statistical"/>

对于来自完全噪声的人口数据，费舍尔的公式产生的ICC值分布在0附近，即有时为负。这是因为费舍尔设计了这个公式以使其无偏，因此其估计有时会过高估计，有时会低估。对于人口中的小或0底层值，从样本计算出的ICC可能为负。

== 现代ICC定义：简化公式但正偏差 ==

从罗纳德·费舍尔开始，组内相关性已经在[[analysis of variance|方差分析]]（ANOVA）的框架内被考虑，最近则在[[random effects model|随机效应模型]]的框架内被考虑。已经提出了多种ICC估计器。大多数估计器可以根据随机效应模型定义

:[math]Y_{ij} = \mu + \alpha_j + \varepsilon_{ij},[/math]

其中''Y''''ij''是第''j''组的第''i''次观察值，''μ''是未观察到的整体[[expected value|均值]]，''αj''是所有组''j''中的值共享的未观察到的随机效应，而''εij''是未观察到的噪声项。<ref>{{cite journal | vauthors = Donner A, Koval JJ | title = The estimation of intraclass correlation in the analysis of family data | journal = Biometrics | volume = 36 | issue = 1 | pages = 19–25 | date = March 1980 | pmid = 7370372 | doi = 10.2307/2530491 | jstor = 2530491 }}</ref> 为了识别模型，假设''αj''和''εij''的期望值为零并且彼此不相关。此外，假设''αj''是同分布的，而''εij''也是同分布的。''αj''的方差表示为''σ''{{supsub|2|''α''}}，而''ε''''ij''的方差表示为''σ''{{supsub|2|''ε''}}。

在这个框架下，群体ICC为<ref>证明ANOVA模型中的ICC是两项的相关性：ocram [https://stats.stackexchange.com/users/3019/ocram], 理解类内相关系数，网址（版本：2012-12-05）：[https://stats.stackexchange.com/q/45201]</ref>

：[math]
\frac{\sigma_\alpha^2}{\sigma_\alpha^2+\sigma_\varepsilon^2}.
[/math]

在此框架中，ICC是同一组内两次观察的[[Correlation and dependence#Definition|相关性]]。

{{hidden begin|style=width:60%|ta1=center|border=1px #aaa solid|title=[Proof]}}

对于单向随机效应模型：

[math]Y_{ij}=\mu+\alpha_i+\epsilon_{ij}[/math]

[math]\alpha_i \sim N(0,\sigma_\alpha^2)[/math]，[math]\epsilon_{ij} \sim N(0,\sigma_\varepsilon^2)[/math]，[math]\alpha_i[/math]s与[math]\epsilon_{ij}[/math]s相互独立，且[math]\alpha_i[/math]s与[math]\epsilon_{ij}[/math]s互相独立。

任何观察的方差是：[math]Var(Y_{ij})=\sigma_\varepsilon^2 + \sigma_\alpha^2[/math]
同一组[math]i[/math]内两次观察的协方差（对于[math]j \neq k[/math]）是：<ref>dsaxton (https://stats.stackexchange.com/users/78861/dsaxton), 随机效应模型：同一水平的观察具有$\sigma^2$的协方差？, 网址（版本：2016-03-22）[https://stats.stackexchange.com/a/203052/253 链接]</ref>

[math]\begin{aligned} \operatorname{Cov}\left(Y_{i j}, Y_{i k}\right) & =\operatorname{Cov}\left(\mu+\alpha_{i}+\epsilon_{i j}, \mu+\alpha_{i}+\epsilon_{i k}\right) \\ & =\operatorname{Cov}\left(\alpha_{i}+\epsilon_{i j}, \alpha_{i}+\epsilon_{i k}\right) \\ & =\operatorname{Cov}\left(\alpha_{i}, \alpha_{i}\right)+2 \operatorname{Cov}\left(\alpha_{i}, \epsilon_{i k}\right)+\operatorname{Cov}\left(\epsilon_{i j}, \epsilon_{i k}\right) \\ & =\operatorname{Cov}\left(\alpha_{i}, \alpha_{i}\right) \\ & =\operatorname{Var}\left(\alpha_{i}\right) \\ & =\sigma_{\alpha}^{2} .\end{aligned}[/math]

在此，我们使用了[[Covariance#Covariance of linear combinations|协方差的性质]]。

综合起来我们得到：
[math]
\text{Cor}(Y_{ij}, Y_{ik}) = \frac{\text{Cov}(Y_{ij}, Y_{ik})}{\sqrt{Var(Y_{ij})Var(Y_{ik})}} = \frac{\sigma^2_\alpha }{\sigma_\varepsilon^2 + \sigma_\alpha^2}
[/math]

{{hidden end}}

这个ANOVA框架的一个优点是，不同组可以有不同数量的数据值，这是使用早期ICC统计量难以处理的。这个ICC始终是非负的，允许将其解释为“组间”总方差的比例。这个ICC可以推广以允许协变量效应，在这种情况下，ICC被解释为捕捉协变量调整后数据值的类内相似性。<ref>{{cite journal | vauthors = Stanish W, Taylor N | journal=The American Statistician | title=用于协方差分析模型的类内相关系数估计 | year=1983 | volume=37 |pages=221–224 | doi=10.2307/2683375 | issue=3 | jstor=2683375 }}</ref>

这个表达式永远不会是负数（不同于费舍尔的原始公式），因此，在来自具有0 ICC的群体的样本中，样本中的ICC将高于群体的ICC。

已经提出了许多不同的ICC统计量，不是所有这些统计量都估计相同的群体参数。关于哪些ICC统计量适用于特定用途，已经有相当大的争论，因为它们可能会为相同的数据产生明显不同的结果。<ref>{{cite journal | vauthors = Müller R, Büttner P | title = 类内相关系数的批判性讨论 | journal = Statistics in Medicine | volume = 13 | issue = 23–24 | pages = 2465–76 | date = December 1994 | pmid = 7701147 | doi = 10.1002/sim.4780132310 }} 另见评论：
* {{Cite journal | vauthors = Vargha P | title = 致编辑的信 | journal = [[Statistics in Medicine (journal)|Statistics in Medicine]] | volume = 16 | issue = 7 | pages = 821–823 | year = 1997 | doi = 10.1002/(SICI)1097-0258(19970415)16:7<821::AID-SIM558>3.0.CO;2-B | pmid = 9131768 }}</ref><ref>{{Cite journal | vauthors = McGraw KO, Wong SP | title = 关于某些类内相关系数的推断 | journal = [[Psychological Methods]] | volume = 1 | pages = 30–46 | year = 1996 | doi = 10.1037/1082-989X.1.1.30 }} 文章中有几处错误：
* {{Cite journal | vauthors = McGraw KO, Wong SP | title = 对McGraw和Wong（1996）的更正 | journal = [[Psychological Methods]] | volume = 1 | issue = 4 | pages = 390 | year = 1996 | doi = 10.1037/1082-989x.1.4.390 }}</ref>

==与皮尔逊相关系数的关系==

就其代数形式而言，费舍尔的原始ICC是最类似于[[Pearson product-moment correlation coefficient|皮尔逊相关系数]]的ICC。两个统计量之间的一个关键差异是，在ICC中，数据使用汇总的均值和标准差进行中心化和缩放，而在皮尔逊相关系数中，每个变量都通过其自己的均值和标准差进行中心化和缩放。这种对ICC的汇总缩放是有意义的，因为所有测量都是相同的量（尽管是在不同组的单位上）。例如，在一组配对数据中，每个“对”是为两个单位（例如，称量一对同卵双胞胎中的每个孪生子）所做的单一测量，而不是为单一单位做两个不同的测量（例如，为每个个体测量身高和体重），ICC是比皮尔逊相关更自然的关联度量。

皮尔逊相关的一个重要属性是，它对于对两个被比较变量应用的单独[[linear transformation|线性变换]]是不变的。因此，如果我们正在关联‘[math]X[/math]’和‘[math]Y[/math]’，比如说，‘[math]Y[/math]’ = 2‘[math]X[/math]’ + 1，‘[math]X[/math]’和‘[math]Y[/math]’之间的皮尔逊相关系数是1 —— 一个完美的相关。对于ICC来说，这个属性没有意义，因为没有依据来决定哪种变换应用于组内的每个值。然而，如果所有组中的所有数据都受到相同的线性变换，那么ICC不会改变。

==观察者一致性评估中的应用==

ICC（类内相关系数）用于评估多个观察者测量相同数量时的一致性或符合性。<ref>{{cite journal | vauthors = Shrout PE, Fleiss JL | title = 类内相关性：评估评价者可靠性的应用 | journal = 心理学公报 | volume = 86 | issue = 2 | pages = 420–8 | date = 1979年3月 | pmid = 18839484 | doi = 10.1037/0033-2909.86.2.420 }}</ref> 例如，如果请求几位医师对CT扫描结果进行癌症进展的评分，我们可以询问这些评分彼此之间的一致性。如果真相已知（例如，如果CT扫描是对随后接受探索性手术的患者进行的），那么重点通常是医师的评分与真相的匹配程度。如果真相未知，我们只能考虑评分之间的相似性。这个问题的一个重要方面是存在观察者间和观察者内的可变性。观察者间的可变性指的是观察者之间的系统性差异——例如，一位医师可能一贯地将患者评为比其他医师更高的风险等级。观察者内的可变性指的是特定观察者对特定患者的评分偏离，这些偏离不是系统性差异的一部分。

ICC被构建为适用于可交换的测量值——即，组内没有有意义的方式对测量值进行排序的分组数据。在评估观察者间的一致性时，如果相同的观察者对每个被研究元素进行评价，则观察者之间可能存在系统性差异，这与可交换性的概念相冲突。如果在存在系统性差异的情况下使用ICC，结果是观察者内和观察者间可变性的综合度量。一个可以合理假设可交换性成立的情况是，要评分的样本，比如血液样本，被分成多个分液，并且这些分液在同一仪器上分别测量。在这种情况下，只要不存在由于运行样本的顺序而产生的效应，可交换性就成立。

由于‘[math]类内相关系数[/math]’提供了观察者内和观察者间可变性的综合，当观察者不可交换时，其结果有时被认为难以解释。作为替代，提出了如科恩的[[kappa统计量]]、[[Fleiss kappa]]和[[一致性相关系数]]<ref>{{Cite journal | vauthors = Nickerson CA | title = 关于'评估可重复性的一致性相关系数'的注释 | journal = [[生物统计学 (杂志)|生物统计学]] | volume = 53 | pages = 1503–1507 | date = 1997年12月 | doi = 10.2307/2533516 | issue = 4 | jstor = 2533516 }}</ref>等其他度量方法，作为非可交换观察者间协议的更适合的度量。

==软件包中的计算==
[[File:Intraclass correlation coefficient graph improved.svg|right|thumb|400px|应用于三种观察者一致性场景的不同类内相关系数定义。]]

ICC在开源软件包[[R (编程语言)|R]]中得到支持（使用"icc"函数与[ ‘psy’]或[ ‘irr’]包，或通过[ ‘psych’]包中的"ICC"函数）。[ rptR]包<ref>{{Cite journal| vauthors = Stoffel MA, Nakagawa S, Schielzeth J |title= rptR: 通过广义线性混合效应模型估计重复性和方差分解|journal=生态学和进化方法|volume=8|issue=11|pages=1639–1644|doi=10.1111/2041-210x.12797|issn=2041-210X|year=2017|doi-access=free}}</ref>提供了在混合模型框架下估计ICC和重复性的方法，适用于高斯分布、二项分布和泊松分布的数据。值得注意的是，该包允许估计调整后的ICC（即控制其他变量）并基于参数自举法计算置信区间，以及基于残差置换计算的显著性。商业软件也支持ICC，例如[[Stata]]或[[SPSS]]<ref>{{Cite journal | vauthors = MacLennan RN | title = 使用SPSS for Windows 5.0进行评价者间可靠性 | journal = [[美国统计员]] | volume = 47 | issue = 4 | date = 1993年11月 | pages = 292–296 | doi = 10.2307/2685289 | jstor = 2685289 }}</ref>

{| class="wikitable sortable"
|+不同类型的ICC [http://www.nyu.edu/its/statistics/Docs/intracls.html] {{Webarchive|url= |date=2009-03-03 }}
|-
! Shrout和Fleiss约定 !! McGraw和Wong约定 <ref>{{ite journal | vauthors = McGraw KO, Wong SP | title = 关于某些类内相关系数的推断形成 | journal = [[心理方法]] | volume = 1 | issue = 1 | date = 1996 | pages = 30–40 | doi = 10.1037/1082-989X.1.1.30 }}</ref> !! SPSS和Stata中的名称 <ref>{{Cite book | url = | date = 2017 | title = Stata用户指南第15版 | isbn = 978-1-59718-249-2 | pages = 1101–1123 | publisher = Stata Press | location = College Station, Texas }}</ref><ref>{{Cite web
| url =
| vauthors = Howell DC
| title = 类内相关系数
}}</ref>
|-
| ICC(1,1) || 单向随机，单次评分 ICC(1) || 单向随机，单次测量
|-
| ICC(2,1) || 双向随机，单次评分 ICC(A,1) || 双向随机，单次测量，绝对协议
|-
| ICC(3,1) || 双向混合，单次评分 ICC(C,1) || 双向混合，单次测量，一致性
|-
| 未定义 || 双向随机，单次评分 ICC(C,1) || 双向随机，单次测量，一致性
|-
| 未定义 || 双向混合，单次评分 ICC(A,1) || 双向混合，单次测量，绝对协议
|-
| ICC(1,k) || 单向随机，平均评分 ICC(k) || 单向随机，平均测量
|-
| ICC(2,k) || 双向随机，平均评分 ICC(A,k) || 双向随机，平均测量，绝对协议
|-
| ICC(3,k) || 双向混合，平均评分 ICC(C,k) || 双向混合，平均测量，一致性
|-
| 未定义 || 双向随机，平均评分 ICC(C,k) || 双向随机，平均测量，一致性
|-
| 未定义 || 双向混合，平均评分 ICC(A,k) || 双向混合，平均测量，绝对协议
|}

这三种模型是：
* 单向随机效应：每个受试者由一组不同的k个随机选定的评价者测量；
* 双向随机：随机选择k个评价者，然后，每个受试者由同一组k个评价者测量；
* 双向混合：定义k个固定评价者。每个受试者由k个评价者测量。

测量次数：
* 单一测量：尽管在实验中进行了不止一次的测量，可靠性适用于一个场景，即将执行单一评估者的单一测量；
* 平均测量：可靠性适用于一个场景，其中k个评估者的测量将对每个受试者进行平均。

一致性或绝对一致性：
* 绝对一致性：两个评估者之间的一致性是重点，包括两个评估者的系统性错误和随机残余错误；
* 一致性：在同一评估者重复测量的上下文中，评估者的系统性错误被取消，只保留随机残余错误。

在单向随机效应模型中，无法估计一致性ICC，因为无法分离评估者间和残余方差。

Liljequist等人（2019）<ref>{{cite journal | vauthors = Liljequist D, Elfving B, Skavberg Roaldsen K | title = 等级内相关性 - 基本特征的讨论和演示 | journal = PLOS ONE | volume = 14 | issue = 7 | pages = e0219854 | date = 2019 | pmid = 31329615 | doi = 10.1371/journal.pone.0219854 | pmc = 6645485 | doi-access = free }}</ref>也提供了对单一测量ICC的三个模型的概览和重新分析，以及它们使用的另一种方法。

== 解释 ==
Cicchetti（1994）<ref>{{Cite journal| vauthors = Cicchetti DV |title=评估心理学中规范化和标准化评估工具的指南、标准和经验法则。|journal=Psychological Assessment|volume=6|issue=4|date=1994|pages=284–290|doi=10.1037/1040-3590.6.4.284}}</ref>为[[Cohen's kappa|kappa]]或ICC评估者间一致性测量提供了以下经常引用的解释指南：
* 少于0.40—差。
* 在0.40和0.59之间—一般。
* 在0.60和0.74之间—好。
* 在0.75和1.00之间—优秀。

Koo和Li（2016）<ref>{{cite journal | vauthors = Koo TK, Li MY | title = 选择和报告等级内相关系数的可靠性研究指南 | journal = Journal of Chiropractic Medicine | volume = 15 | issue = 2 | pages = 155–63 | date = June 2016 | pmid = 27330520 | pmc = 4913118 | doi = 10.1016/j.jcm.2016.02.012 }}</ref>给出了不同的指南：

* 低于0.50：差
* 在0.50和0.75之间：中等
* 在0.75和0.90之间：好
* 高于0.90：优秀

== '''节点使用的R语言示例代码''' ==
=== 组内相关系数混合效应 ===
<syntaxhighlight lang="R">

ICC(x,missing=TRUE,alpha=.05,lmer=TRUE,check.keys=FALSE)

</syntaxhighlight>
方法参见'''R package: psych'''的官方文档

== '''节点使用指南''' ==
* 用来评估在分类数据中，同一组内个体间相似程度的一种度量
* 混合效应模型（也称为多层模型或层次线性模型）中，随机效应是指那些不是固定的、可以从一个更大的总体中随机抽取的效应。
* 在混合效应模型中，固定效应估计总体平均响应，而随机效应捕捉组间（如学校、医院、地区等）的变异性

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量：选择多个连续型数值变量
* Alpha：输入显着性Alpha值，查找置信区间的显着性Alpha水平，通常为0.05
* 此算法兼容空值

=== 注意事项 ===
* 确定足够的样本大小，以便为随机效应和固定效应的估计提供足够的统计功效
* ICC的值范围通常在0到1之间，一个较高的ICC值表明组内相似性较高，而较低的ICC值则表明组内差异较大

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:相关分析]]

典型相关分析

2024-02-25T02:46:49Z

RainW：

{{Infobox nodebasic
|nodename=典型相关分析
|nodeimage=Canonical Correlation Analysis.png
|icon=Canonical Correlation Analysis.svg
|simpleicon=Canonical Correlation Analysis_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Canonical Correlation Analysis
|abbreviation=CCA
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::相关分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=典型相关分析是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。假设有两组变量，采用类似主成分分析的做法，在每一组变量中选择若干个有代表性的综合指标-变量的线性组合，通过研究两组的综合指标之间的关系来反映两组变量之间的相关关系。原理是首先在变量中找出变量的线性组合，使其具有最大相关性，然后再每组变量中找出第二对线性组合，使其分别与第一对线性组合不相关，而第二对线性组合本身具有最大的相关性，如此继续下去，直到两组变量之间的相关性被提取完毕。用途：研究两组变量之间的关系，典型相关分析可以一次性分析多个变量的关系，也可以帮助研究者了解哪些变量在两组数据中有最强的关系。参数：可以输入多个数值因变量和多个数值自变量。
|nodeinputnumber=4
|nodeoutputnumber=2
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=PointPlot
|nodeavailabletablelist=Coeff-Value;CCA
|nodeconfiguration=VariableList
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/典型相关分析
|previousnode=[[一般线性相关分析]]
|nextnode=[[组内相关系数_随机效应]]
}}

在[[statistics|统计学]]中，'''典型相关分析'''（'''CCA'''），也称为'''典型变量分析'''，是一种从[[cross-covariance matrix|交叉协方差矩阵]]推断信息的方法。如果我们有两个向量''X'' = (''X''1, ..., ''X''''n'')和''Y'' = (''Y''1, ..., ''Y''''m'')的[[random variable|随机变量]]，并且变量之间存在[[correlation|相关性]]，那么典型相关分析将找到''X''和''Y''的线性组合，这些线性组合彼此之间具有最大的相关性。<ref>{{Cite book | doi = 10.1007/978-3-540-72244-1_14 | chapter = 典型相关分析 | title = 应用多变量统计分析 | pages = 321–330 | year = 2007 | isbn = 978-3-540-72243-4 | first1 = Wolfgang | last1 = Härdle| first2 = Léopold | last2 = Simar| citeseerx = 10.1.1.324.403 }}</ref> T. R. Knapp指出，“几乎所有常见的[[parametric statistics|参数检验]]的显著性都可以视为典型相关分析的特例，这是研究两组变量之间关系的通用程序。”<ref>{{Cite journal | last1 = Knapp | first1 = T. R. | title = 典型相关分析：一个通用的参数显著性检验系统 | doi = 10.1037/0033-2909.85.2.410 | journal = 心理学公报 | volume = 85 | issue = 2 | pages = 410–416 | year = 1978 }}</ref> 该方法最初由[[Harold Hotelling|哈罗德·霍特林]]在1936年引入，<ref>{{Cite journal | last1 = Hotelling | first1 = H. | author-link1 = Harold Hotelling| title = 两组变量之间的关系 | doi = 10.1093/biomet/28.3-4.321 | journal = 生物统计学 | volume = 28 | issue = 3–4 | pages = 321–377 | year = 1936 | jstor = 2333955}}</ref> 尽管在[[angles between flats|平面间角度]]的数学概念上，乔丹在1875年已经发表了相关论文。<ref name="jordan">{{cite journal
|last=Jordan
|first=C.
|author-link=Camille Jordan
|date=1875
|title=关于n维几何的试验
|journal=法国数学会公报
|volume=3
|pages=103
|url=http://www.numdam.org/item?id=BSMF_1875__3__103_2
}}</ref>

如今，CCA已成为多变量统计和多视图学习的基石，提出了大量的解释和扩展，如概率CCA、稀疏CCA、多视图CCA和深度CCA。不幸的是，也许因为其受欢迎的程度，文献中的符号可能不一致，我们试图在本文中突出这种不一致性，以帮助读者最好地利用现有的文献和可用技术。

像其姐妹方法[[Principal component analysis|主成分分析（PCA)]]一样，CCA可以以''群体''形式（对应于随机向量及其协方差矩阵）或''样本''形式（对应于数据集及其样本协方差矩阵）来查看。这两种形式几乎是彼此的精确类似物，这就是为什么它们的区别常常被忽视，但在高维设置中它们的表现可能大不相同。<ref>{{Cite web |title=稀疏统计学习：套索和泛化 |url=https://hastie.su.domains/StatLearnSparsity/ |access-date=2023-09-12 |website=hastie.su.domains}}</ref> 接下来我们将为群体问题给出明确的数学定义，并突出所谓的''典型分解''中的不同对象 - 理解这些对象之间的差异对于技术的解释至关重要。

=='''通过相关性定义群体CCA'''==
给定两个[[column vectors|列向量]] [math]X = (x_1, \dots, x_n)^T[/math] 和 [math]Y = (y_1, \dots, y_m)^T[/math] 的[[random variable|随机变量]]，它们具有[[Wikt:finite|有限的]] [[second moments|二阶矩]]，人们可以定义[[cross-covariance|交叉协方差]] [math]\Sigma _{XY} = \operatorname{cov}(X, Y) [/math] 为 [math] n \times m[/math] [[matrix (mathematics)|矩阵]]，其 [math](i, j)[/math] 项是[[covariance|协方差]] [math]\operatorname{cov}(x_i, y_j)[/math]。在实践中，我们会基于来自 [math]X[/math] 和 [math]Y[/math] 的样本数据（即一对数据矩阵）来估计协方差矩阵。

典型相关分析寻求一系列向量 [math]a_k[/math]（[math]a_k \in\mathbb R^n[/math]）和 [math]b_k[/math]（[math]b_k \in\mathbb R^m[/math]），使得随机变量 [math]a_k^T X[/math] 和 [math]b_k^T Y[/math] 最大化[[correlation|相关性]] [math]\rho = \operatorname{corr}(a_k^T X, b_k^T Y)[/math]。标量随机变量 [math]U = a_k^T X[/math] 和 [math]V = b_k^T Y[/math] 是'''''第一对典型变量'''''。然后寻找最大化相同相关性的向量，受到它们必须与第一对典型变量不相关的约束；这就得到了'''''第二对典型变量'''''。这个程序可以继续进行直到 [math]\min\{m,n\}[/math] 次。

[math]\left(a_{k}, b_{k}\right)=\underset{a, b}{\operatorname{argmax}} \operatorname{corr}\left(a^{T} X, b^{T} Y\right) \quad subject to \operatorname{cov}\left(a^{T} X, a_{j}^{T} X\right)=\operatorname{cov}\left(b^{T} Y, b_{j}^{T} Y\right)=0 for j=1, \ldots, k-1[/math]

向量集 [math]a_k, b_k[/math] 被称为'''''典型方向'''''或'''''权重向量'''''或简单地称为'''''权重'''''。'对偶'向量集 [math]\Sigma_{XX}a_k, \Sigma_{YY} b_k[/math] 被称为'''''典型载荷向量'''''或简单地称为'''''载荷'''''；这些通常比权重更容易解释。<ref>{{Cite journal |last1=Gu |first1=Fei |last2=Wu |first2=Hao |date=2018-04-01 |title=具有不变典型载荷的同时典型相关分析 |url=https://doi.org/10.1007/s41237-017-0042-8 |journal=行为计量学 |language=en |volume=45 |issue=1 |pages=111–132 |doi=10.1007/s41237-017-0042-8 |issn=1349-6964}}</ref>

=='''计算'''==
===推导===
设[math]\Sigma _{XY}[/math]为任意一对（向量形状的）随机变量[math]X[/math]和[math]Y[/math]的[[交协方差矩阵]]。要最大化的目标函数是

[math]\rho = \frac{a^T \Sigma _{XY} b}{\sqrt{a^T \Sigma _{XX} a} \sqrt{b^T \Sigma _{YY} b}}。[/math]

第一步是定义一个[[基变换]]并定义

[math]c = \Sigma _{XX} ^{1/2} a，[/math]

[math]d = \Sigma _{YY} ^{1/2} b，[/math]

其中[math]\Sigma_{XX}^{1/2}[/math]和[math]\Sigma_{YY}^{1/2}[/math]可以通过特征分解（或通过[[矩阵的平方根#通过对角化|对角化]]）获得：

[math]\Sigma _{XX} ^{1/2} = V_X D_X^{1/2} V_X^\top，\qquad V_X D_X V_X^\top = \Sigma_{XX}，[/math]

和

[math]\Sigma _{YY} ^{1/2} = V_Y D_Y^{1/2} V_Y^\top，\qquad V_Y D_Y V_Y^\top = \Sigma_{YY}。[/math]

因此
[math]\rho = \frac{c^T \Sigma _{XX} ^{-1/2} \Sigma _{XY} \Sigma _{YY} ^{-1/2} d}{\sqrt{c^Tc} \sqrt{d^Td}}。[/math]

根据[[柯西-施瓦茨不等式]]，

[math]\left(c^T \Sigma _{XX} ^{-1/2} \Sigma _{XY} \Sigma _{YY} ^{-1/2} \right) (d) \leq \left(c^T \Sigma _{XX} ^{-1/2} \Sigma _{XY} \Sigma _{YY} ^{-1/2} \Sigma _{YY} ^{-1/2} \Sigma _{YX} \Sigma _{XX} ^{-1/2} c \right)^{1/2} \left(d^T d \right)^{1/2}，[/math]

[math]\rho \leq \frac{\left(c^T \Sigma _{XX}^{-1/2} \Sigma _{XY} \Sigma _{YY}^{-1} \Sigma _{YX} \Sigma_{XX}^{-1/2} c \right)^{1/2}}{\left(c^T c \right)^{1/2}}。[/math]

如果向量[math]d[/math]和[math]\Sigma_{YY}^{-1/2} \Sigma_{YX} \Sigma_{XX}^{-1/2} c[/math]共线，则等式成立。此外，如果[math]c[/math]是矩阵[math]\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1} \Sigma_{YX} \Sigma_{XX}^{-1/2}[/math]的最大特征值对应的[[特征向量]]（见[[瑞利商]]），则可以达到相关性的最大值。通过使用逐渐减小的[[特征值]]找到后续对。相关矩阵的对称性保证了正交性。

另一种看待这个计算的方式是，[math]c[/math]和[math]d[/math]是X和Y的相关矩阵对应于最高奇异值的左右[[奇异值分解|奇异向量]]。

===解===
因此，解为：
* [math]c[/math]是[math]\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1} \Sigma_{YX} \Sigma_{XX}^{-1/2}[/math]的一个特征向量
* [math]d[/math]与[math]\Sigma _{YY}^{-1/2} \Sigma_{YX} \Sigma_{XX}^{-1/2} c[/math]成比例

反之亦然：
* [math]d[/math]是[math]\Sigma_{YY}^{-1/2} \Sigma_{YX} \Sigma_{XX}^{-1} \Sigma_{XY} \Sigma_{YY}^{-1/2}[/math]的一个特征向量
* [math]c[/math]与[math]\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1/2} d[/math]成比例

逆转坐标变换，我们有：
* [math]a[/math]是[math]\Sigma_{XX}^{-1} \Sigma_{XY} \Sigma_{YY}^{-1} \Sigma_{YX}[/math]的一个特征向量，
* [math]b[/math]与[math]\Sigma_{YY}^{-1} \Sigma_{YX} a;[/math]成比例
* [math]b[/math]是[math]\Sigma _{YY}^{-1} \Sigma_{YX} \Sigma_{XX}^{-1} \Sigma_{XY},[/math]的一个特征向量，
* [math]a[/math]与[math]\Sigma_{XX}^{-1} \Sigma_{XY} b[/math]成比例。

典型变量由以下定义：

:[math]U = c^T \Sigma_{XX}^{-1/2} X = a^T X[/math]

:[math]V = d^T \Sigma_{YY}^{-1/2} Y = b^T Y[/math]

===实现===
可以使用[[奇异值分解]]在相关矩阵上计算CCA。<ref>{{Cite journal | last1 = Hsu | first1 = D. | last2 = Kakade | first2 = S. M. | last3 = Zhang | first3 = T. | doi = 10.1016/j.jcss.2011.12.025 | title = 学习隐马尔可夫模型的光谱算法 | journal = 计算机与系统科学杂志 | volume = 78 | issue = 5 | pages = 1460 | year = 2012 | url = http://www.cs.mcgill.ca/~colt2009/papers/011.pdf| arxiv = 0811.4413| s2cid = 220740158 }}</ref> 它作为一个函数在<ref>{{Cite journal | last1 = Huang | first1 = S. Y. | last2 = Lee | first2 = M. H. | last3 = Hsiao | first3 = C. K. | doi = 10.1016/j.jspi.2008.10.011 | title = 使用核典型相关分析和应用的非线性关联度量 | journal = 统计规划与推断杂志 | volume = 139 | issue = 7 | pages = 2162 | year = 2009 | url = http://www.stat.sinica.edu.tw/syhuang/papersdownload/KCCA-080906.pdf | access-date = 2015-09-04 | archive-date = 2017-03-13 | archive-url = | url-status = dead }}</ref>

* [[MATLAB]]作为[canoncorr]（也在[[GNU Octave|Octave]]中[https://sourceforge.net/p/octave/statistics/ci/default/tree/inst/canoncorr.m]）
* [[R (编程语言)|R]]作为标准函数[cancor]以及其他几个包，包括[CCA]和[vegan]。[CCP]用于典型相关分析中的统计假设检验。
* [[SAS语言|SAS]]作为[proc cancorr]
* [[Python (编程语言)|Python]]在[[scikit-learn]]库中，作为[Cross decomposition]，在[[statsmodels]]中，作为[https://devdocs.io/statsmodels/generated/statsmodels.multivariate.cancorr.cancorr CanCorr]。CCA-Zoo库<ref>{{Cite journal |last1=Chapman |first1=James |last2=Wang |first2=Hao-Ting |date=2021-12-18 |title=CCA-Zoo: 一系列在scikit-learn风格框架中的正则化、基于深度学习的、核心、和概率CCA方法的集合 |journal=开源软件杂志 |language=en |volume=6 |issue=68 |pages=3823 |doi=10.21105/joss.03823 |issn=2475-9066|doi-access=free }}</ref>实现了CCA的扩展，如概率CCA、稀疏CCA、多视图CCA和深度CCA。
* [[SPSS]]作为随主软件提供的宏CanCorr
*[[Julia (编程语言)]]在[https://github.com/JuliaStats/MultivariateStats.jl MultivariateStats.jl]包中。

使用[[奇异值分解]]在相关矩阵上的CCA计算与[[扁平间的角度]]的[[余弦]]函数相关。对于小角度，[[余弦]]函数是[[条件不良]]的，导致在有限[[精度（计算机科学）|精度]][[计算机算术]]中高度相关的主向量的计算非常不准确。为了[[扁平间角度的计算|解决这个问题]]，有其他算法<ref name="KA02">{{Citation
| last1 = Knyazev
| first1 = A.V.
| last2 = Argentati
| first2 = M.E.
| title = 在基于A的标量积中子空间之间的主要角度：算法和扰动估计
| journal = SIAM科学计算杂志
| volume = 23
| issue = 6
| pages = 2009–2041
| year = 2002
| doi = 10.1137/S1064827500377332
| bibcode = 2002SJSC...23.2008K
| citeseerx = 10.1.1.73.2914
}}</ref>可用于

* [[SciPy]] 作为 [线性代数函数子空间角度]
* [[MATLAB]] 作为 [https://www.mathworks.com/matlabcentral/fileexchange/55-subspacea-m FileExchange函数subspacea]

=='''假设检验'''==
每一行都可以用以下方法检验其显著性。由于相关性是排序的，因此说第[math]i[/math]行为零意味着所有后续的相关性也为零。如果我们在样本中有[math]p[/math]个独立观察值，且[math]\widehat{\rho}_i[/math]是对[math]i = 1,\dots, \min\{m,n\}[/math]的估计相关性。对于第[math]i[/math]行，检验统计量为：

:[math]\chi^2 = - \left( p - 1 - \frac{1}{2}(m + n + 1)\right) \ln \prod_{j = i}^{\min\{m,n\}} (1 - \widehat{\rho}_j^2),[/math]

该统计量在[math]p[/math]较大时，渐近地服从自由度为[math](m - i + 1)(n - i + 1)[/math]的[[chi-squared distribution|卡方分布]]。<ref>{{Cite book
| author = [[Kanti V. Mardia]], J. T. Kent 和 J. M. Bibby
| title = Multivariate Analysis
| year = 1979
| publisher = [[Academic Press]]
}}</ref> 由于从[math] \min\{m,n\}[/math]到[math]p[/math]的所有相关性在逻辑上都是零（也以这种方式估计），因此这一点之后的项的乘积是无关紧要的。

注意，在样本量较小的限制下，如果[math]p < n + m[/math]，则我们可以保证前[math]m + n - p[/math]个相关性恒定为1，因此这种检验是无意义的。<ref>Yang Song, Peter J. Schreier, David Ramírez, 和 Tanuj Hasija ''Canonical correlation analysis of high-dimensional data with very small sample support'' {{ArXiv|1604.02047}}</ref>

=='''实际应用'''==
典型的典型相关性在实验环境中的应用是取两组变量，看看这两组之间有什么共同点。<ref>{{cite book|last= Sieranoja|first=S.|author2=Sahidullah, Md| author3=Kinnunen, T.| author4= Komulainen, J.| author5= Hadid, A.|title=2018 IEEE第三届国际信号与图像处理会议(ICSIP) |chapter=使用优化音频特征的音视频同步检测 |date=2018年7月|pages=377–381 |doi=10.1109/SIPROCESS.2018.8600424 |isbn=978-1-5386-6396-7 |s2cid=51682024 |url=http://urn.fi/urn:nbn:fi-fe2020041415345 |chapter-url=http://cs.joensuu.fi/pages/tkinnu/webpage/pdf/audiovisual_synchrony_2018.pdf}}</ref> 例如，在心理测试中，可以采取两个成熟的多维[[personality tests|人格测试]]，如[[Minnesota Multiphasic Personality Inventory|明尼苏达多项人格测试]](MMPI-2)和[[Neuroticism Extraversion Openness Personality Inventory|NEO]]。通过观察MMPI-2因素与NEO因素之间的关系，可以洞察测试之间共有的维度以及共享的变异量有多少。例如，可能会发现[[Extraversion and introversion|外向性]]或[[neuroticism|神经质]]维度在两次测试之间共享了大量的变异量。

也可以使用典型相关分析来生成一个模型方程，该方程关联两组变量，例如一组性能度量和一组解释变量，或一组输出和一组输入。可以对这样的模型施加约束限制，以确保它反映理论要求或直观明显的条件。这种类型的模型被称为最大相关模型。<ref>{{Cite journal | last1 = Tofallis | first1 = C. | title = Model Building with Multiple Dependent Variables and Constraints | doi = 10.1111/1467-9884.00195 | journal = Journal of the Royal Statistical Society, Series D | volume = 48 | issue = 3 | pages = 371–378 | year = 1999 | arxiv = 1109.0725| s2cid = 8942357 }}</ref>

通常通过两组变量的系数的条形图来可视化典型相关的结果，显示出显著相关的典型变量对。一些作者建议，将它们作为圆盘图绘制出来可能是最佳的可视化方式，这是一种圆形格式，带有类似射线的条形，每一半代表两组变量。<ref>{{Cite book | last1 = Degani | first1 = A. | last2 = Shafto | first2 = M. | last3 = Olson | first3 = L. | doi = 10.1007/11783183_11 | chapter = Canonical Correlation Analysis: Use of Composite Heliographs for Representing Multiple Patterns | title = Diagrammatic Representation and Inference | series = Lecture Notes in Computer Science | volume = 4045 | pages = 93 | year = 2006 | isbn = 978-3-540-35623-3 | chapter-url = http://ti.arc.nasa.gov/m/profile/adegani/Composite_Heliographs.pdf| citeseerx = 10.1.1.538.5217 }}</ref>

=='''例子'''==
设[math]X = x_1[/math]，其[[expected value|期望值]]为零，即[math]\operatorname{E}(X)=0[/math]。

1. 如果[math]Y = X[/math]，即[math]X[/math]和[math]Y[/math]完全相关，那么，例如，[math]a=1[/math]和[math]b=1[/math]，使得第一对（也是本例中唯一的一对）典型变量为[math]U = X[/math]和[math]V = Y =X[/math]。
2. 如果[math]Y = -X[/math]，即[math]X[/math]和[math]Y[/math]完全反相关，那么，例如，[math]a=1[/math]和[math]b=-1[/math]，使得第一对（也是本例中唯一的一对）典型变量为[math]U = X[/math]和[math]V = -Y =X[/math]。

我们注意到，在这两种情况下[math]U =V[/math]，这说明典型相关分析对于相关变量和反相关变量的处理是相似的。

=='''与主角之间的联系'''==
假设 [math]X = (x_1, \dots, x_n)^T[/math] 和 [math]Y = (y_1, \dots, y_m)^T[/math] 的 [[expected value|期望值]] 为零，即 [math]\operatorname{E}(X)=\operatorname{E}(Y)=0[/math]，他们的 [[covariance|协方差]] 矩阵 [math]\Sigma _{XX} =\operatorname{Cov}(X,X) = \operatorname{E}[X X^T][/math] 和 [math]\Sigma _{YY} =\operatorname{Cov}(Y,Y) = \operatorname{E}[Y Y^T][/math] 可以视为对应于 [math]X[/math] 和 [math]Y[/math] 的条目的 [[Gram matrix|格拉姆矩阵]] 在 [[inner product|内积]] 中。在这种解释中，随机变量，[math]X[/math] 的条目 [math]x_i[/math] 和 [math]Y[/math] 的条目 [math]y_j[/math] 被视为向量空间中的元素，该向量空间的内积由 [[covariance|协方差]] [math]\operatorname{cov}(x_i, y_j)[/math] 给出；参见 [[Covariance#Relationship to inner products|协方差与内积的关系]]。

然后，规范变量 [math]U[/math] 和 [math]V[/math] 的定义等同于对于由 [math]X[/math] 和 [math]Y[/math] 的条目张成的一对子空间关于此 [[inner product|内积]] 的 [[principal angles|主向量]] 的定义。规范相关性 [math]\operatorname{corr}(U,V)[/math] 等于 [[principal angles|主角]] 的 [[cosine|余弦]]。

=='''白化和概率规范相关分析'''==

CCA 也可以视为一种特殊的 [[whitening transformation|白化转换]]，其中随机向量 [math]X[/math] 和 [math]Y[/math] 被同时转换，以使得白化向量 [math]X^{CCA}[/math] 和 [math]Y^{CCA}[/math] 之间的交叉相关性是对角线的。<ref>{{cite journal | last1 = Jendoubi | first1 = T. | last2 = Strimmer | first2 = K. | title = A whitening approach to probabilistic canonical correlation analysis for omics data integration | journal = BMC Bioinformatics | volume = 20 | issue = 1 | pages = 15 | year = 2018 | arxiv = 1802.03490 | doi = 10.1186/s12859-018-2572-9 | pmid = 30626338 | pmc = 6327589 | doi-access = free }}</ref> 然后，规范相关性被解释为连接 [math]X^{CCA}[/math] 和 [math]Y^{CCA}[/math] 的回归系数，也可能是负数。CCA 的回归视角还提供了一种构建 CCA 的潜在变量概率生成模型的方法，其中不相关的隐藏变量代表共享和非共享的变异性。

== '''节点使用的R语言示例代码''' ==
=== 典型相关分析 ===
<syntaxhighlight lang="R">

cancor(x, y, xcenter = TRUE, ycenter = TRUE)

</syntaxhighlight>

== '''节点使用指南''' ==
* 典型相关分析旨在探索和量化两组变量集（称为变量集X和变量集Y）之间的线性关系
* 与简单的相关分析不同，CCA可以同时考虑多个变量，分析两组变量之间的整体相关性

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 因变量：选择多个连续型数值变量
* 自变量：选择多个连续型数值变量
* 因变量和自变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 当涉及到多对典型变量时，可能会出现多重性问题，这可能会导致统计显著性的问题
* 典型相关分析对样本大小有较高的要求，特别是当涉及到大量变量时
* 在小样本情况下，典型相关分析可能会产生过度拟合，即模型对于训练数据的拟合很好，但泛化到新数据的能力差

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:相关分析]]

典型相关分析

2024-02-25T02:42:04Z

RainW：

{{Infobox nodebasic
|nodename=典型相关分析
|nodeimage=Canonical Correlation Analysis.png
|icon=Canonical Correlation Analysis.svg
|simpleicon=Canonical Correlation Analysis_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Canonical Correlation Analysis
|abbreviation=CCA
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::相关分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=典型相关分析是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。假设有两组变量，采用类似主成分分析的做法，在每一组变量中选择若干个有代表性的综合指标-变量的线性组合，通过研究两组的综合指标之间的关系来反映两组变量之间的相关关系。原理是首先在变量中找出变量的线性组合，使其具有最大相关性，然后再每组变量中找出第二对线性组合，使其分别与第一对线性组合不相关，而第二对线性组合本身具有最大的相关性，如此继续下去，直到两组变量之间的相关性被提取完毕。用途：研究两组变量之间的关系，典型相关分析可以一次性分析多个变量的关系，也可以帮助研究者了解哪些变量在两组数据中有最强的关系。参数：可以输入多个数值因变量和多个数值自变量。
|nodeinputnumber=4
|nodeoutputnumber=2
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=PointPlot
|nodeavailabletablelist=Coeff-Value;CCA
|nodeconfiguration=VariableList
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/典型相关分析
|previousnode=[[一般线性相关分析]]
|nextnode=[[组内相关系数_随机效应]]
}}

在[[statistics|统计学]]中，'''典型相关分析'''（'''CCA'''），也称为'''典型变量分析'''，是一种从[[cross-covariance matrix|交叉协方差矩阵]]推断信息的方法。如果我们有两个向量''X'' = (''X''1, ..., ''X''''n'')和''Y'' = (''Y''1, ..., ''Y''''m'')的[[random variable|随机变量]]，并且变量之间存在[[correlation|相关性]]，那么典型相关分析将找到''X''和''Y''的线性组合，这些线性组合彼此之间具有最大的相关性。<ref>{{Cite book | doi = 10.1007/978-3-540-72244-1_14 | chapter = 典型相关分析 | title = 应用多变量统计分析 | pages = 321–330 | year = 2007 | isbn = 978-3-540-72243-4 | first1 = Wolfgang | last1 = Härdle| first2 = Léopold | last2 = Simar| citeseerx = 10.1.1.324.403 }}</ref> T. R. Knapp指出，“几乎所有常见的[[parametric statistics|参数检验]]的显著性都可以视为典型相关分析的特例，这是研究两组变量之间关系的通用程序。”<ref>{{Cite journal | last1 = Knapp | first1 = T. R. | title = 典型相关分析：一个通用的参数显著性检验系统 | doi = 10.1037/0033-2909.85.2.410 | journal = 心理学公报 | volume = 85 | issue = 2 | pages = 410–416 | year = 1978 }}</ref> 该方法最初由[[Harold Hotelling|哈罗德·霍特林]]在1936年引入，<ref>{{Cite journal | last1 = Hotelling | first1 = H. | author-link1 = Harold Hotelling| title = 两组变量之间的关系 | doi = 10.1093/biomet/28.3-4.321 | journal = 生物统计学 | volume = 28 | issue = 3–4 | pages = 321–377 | year = 1936 | jstor = 2333955}}</ref> 尽管在[[angles between flats|平面间角度]]的数学概念上，乔丹在1875年已经发表了相关论文。<ref name="jordan">{{cite journal
|last=Jordan
|first=C.
|author-link=Camille Jordan
|date=1875
|title=关于n维几何的试验
|journal=法国数学会公报
|volume=3
|pages=103
|url=http://www.numdam.org/item?id=BSMF_1875__3__103_2
}}</ref>

如今，CCA已成为多变量统计和多视图学习的基石，提出了大量的解释和扩展，如概率CCA、稀疏CCA、多视图CCA和深度CCA。不幸的是，也许因为其受欢迎的程度，文献中的符号可能不一致，我们试图在本文中突出这种不一致性，以帮助读者最好地利用现有的文献和可用技术。

像其姐妹方法[[Principal component analysis|主成分分析（PCA)]]一样，CCA可以以''群体''形式（对应于随机向量及其协方差矩阵）或''样本''形式（对应于数据集及其样本协方差矩阵）来查看。这两种形式几乎是彼此的精确类似物，这就是为什么它们的区别常常被忽视，但在高维设置中它们的表现可能大不相同。<ref>{{Cite web |title=稀疏统计学习：套索和泛化 |url=https://hastie.su.domains/StatLearnSparsity/ |access-date=2023-09-12 |website=hastie.su.domains}}</ref> 接下来我们将为群体问题给出明确的数学定义，并突出所谓的''典型分解''中的不同对象 - 理解这些对象之间的差异对于技术的解释至关重要。

=='''通过相关性定义群体CCA'''==
给定两个[[column vectors|列向量]] [math]X = (x_1, \dots, x_n)^T[/math] 和 [math]Y = (y_1, \dots, y_m)^T[/math] 的[[random variable|随机变量]]，它们具有[[Wikt:finite|有限的]] [[second moments|二阶矩]]，人们可以定义[[cross-covariance|交叉协方差]] [math]\Sigma _{XY} = \operatorname{cov}(X, Y) [/math] 为 [math] n \times m[/math] [[matrix (mathematics)|矩阵]]，其 [math](i, j)[/math] 项是[[covariance|协方差]] [math]\operatorname{cov}(x_i, y_j)[/math]。在实践中，我们会基于来自 [math]X[/math] 和 [math]Y[/math] 的样本数据（即一对数据矩阵）来估计协方差矩阵。

典型相关分析寻求一系列向量 [math]a_k[/math]（[math]a_k \in\mathbb R^n[/math]）和 [math]b_k[/math]（[math]b_k \in\mathbb R^m[/math]），使得随机变量 [math]a_k^T X[/math] 和 [math]b_k^T Y[/math] 最大化[[correlation|相关性]] [math]\rho = \operatorname{corr}(a_k^T X, b_k^T Y)[/math]。标量随机变量 [math]U = a_k^T X[/math] 和 [math]V = b_k^T Y[/math] 是'''''第一对典型变量'''''。然后寻找最大化相同相关性的向量，受到它们必须与第一对典型变量不相关的约束；这就得到了'''''第二对典型变量'''''。这个程序可以继续进行直到 [math]\min\{m,n\}[/math] 次。

: [math](a_k,b_k) = \underset{a,b}\operatorname{argmax} \operatorname{corr}(a^T X, b^T Y) \quad\text{ subject to } \operatorname{cov}(a^T X, a_j^T X) = \operatorname{cov}(b^T Y, b_j^T Y) = 0 \text{ for } j=1, \dots, k-1[/math]

向量集 [math]a_k, b_k[/math] 被称为'''''典型方向'''''或'''''权重向量'''''或简单地称为'''''权重'''''。'对偶'向量集 [math]\Sigma_{XX}a_k, \Sigma_{YY} b_k[/math] 被称为'''''典型载荷向量'''''或简单地称为'''''载荷'''''；这些通常比权重更容易解释。<ref>{{Cite journal |last1=Gu |first1=Fei |last2=Wu |first2=Hao |date=2018-04-01 |title=具有不变典型载荷的同时典型相关分析 |url=https://doi.org/10.1007/s41237-017-0042-8 |journal=行为计量学 |language=en |volume=45 |issue=1 |pages=111–132 |doi=10.1007/s41237-017-0042-8 |issn=1349-6964}}</ref>

=='''计算'''==
===推导===
设[math]\Sigma _{XY}[/math]为任意一对（向量形状的）随机变量[math]X[/math]和[math]Y[/math]的[[交协方差矩阵]]。要最大化的目标函数是

[math]\rho = \frac{a^T \Sigma _{XY} b}{\sqrt{a^T \Sigma _{XX} a} \sqrt{b^T \Sigma _{YY} b}}。[/math]

第一步是定义一个[[基变换]]并定义

[math]c = \Sigma _{XX} ^{1/2} a，[/math]

[math]d = \Sigma _{YY} ^{1/2} b，[/math]

其中[math]\Sigma_{XX}^{1/2}[/math]和[math]\Sigma_{YY}^{1/2}[/math]可以通过特征分解（或通过[[矩阵的平方根#通过对角化|对角化]]）获得：

[math]\Sigma _{XX} ^{1/2} = V_X D_X^{1/2} V_X^\top，\qquad V_X D_X V_X^\top = \Sigma_{XX}，[/math]
和
[math]\Sigma _{YY} ^{1/2} = V_Y D_Y^{1/2} V_Y^\top，\qquad V_Y D_Y V_Y^\top = \Sigma_{YY}。[/math]

因此
[math]\rho = \frac{c^T \Sigma _{XX} ^{-1/2} \Sigma _{XY} \Sigma _{YY} ^{-1/2} d}{\sqrt{c^Tc} \sqrt{d^Td}}。[/math]

根据[[柯西-施瓦茨不等式]]，
[math]\left(c^T \Sigma _{XX} ^{-1/2} \Sigma _{XY} \Sigma _{YY} ^{-1/2} \right) (d) \leq \left(c^T \Sigma _{XX} ^{-1/2} \Sigma _{XY} \Sigma _{YY} ^{-1/2} \Sigma _{YY} ^{-1/2} \Sigma _{YX} \Sigma _{XX} ^{-1/2} c \right)^{1/2} \left(d^T d \right)^{1/2}，[/math]

[math]\rho \leq \frac{\left(c^T \Sigma _{XX}^{-1/2} \Sigma _{XY} \Sigma _{YY}^{-1} \Sigma _{YX} \Sigma_{XX}^{-1/2} c \right)^{1/2}}{\left(c^T c \right)^{1/2}}。[/math]

如果向量[math]d[/math]和[math]\Sigma_{YY}^{-1/2} \Sigma_{YX} \Sigma_{XX}^{-1/2} c[/math]共线，则等式成立。此外，如果[math]c[/math]是矩阵[math]\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1} \Sigma_{YX} \Sigma_{XX}^{-1/2}[/math]的最大特征值对应的[[特征向量]]（见[[瑞利商]]），则可以达到相关性的最大值。通过使用逐渐减小的[[特征值]]找到后续对。相关矩阵的对称性保证了正交性。

另一种看待这个计算的方式是，[math]c[/math]和[math]d[/math]是X和Y的相关矩阵对应于最高奇异值的左右[[奇异值分解|奇异向量]]。

===解===
因此，解为：
* [math]c[/math]是[math]\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1} \Sigma_{YX} \Sigma_{XX}^{-1/2}[/math]的一个特征向量
* [math]d[/math]与[math]\Sigma _{YY}^{-1/2} \Sigma_{YX} \Sigma_{XX}^{-1/2} c[/math]成比例

反之亦然：
* [math]d[/math]是[math]\Sigma_{YY}^{-1/2} \Sigma_{YX} \Sigma_{XX}^{-1} \Sigma_{XY} \Sigma_{YY}^{-1/2}[/math]的一个特征向量
* [math]c[/math]与[math]\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1/2} d[/math]成比例

逆转坐标变换，我们有：
* [math]a[/math]是[math]\Sigma_{XX}^{-1} \Sigma_{XY} \Sigma_{YY}^{-1} \Sigma_{YX}[/math]的一个特征向量，
* [math]b[/math]与[math]\Sigma_{YY}^{-1} \Sigma_{YX} a;[/math]成比例
* [math]b[/math]是[math]\Sigma _{YY}^{-1} \Sigma_{YX} \Sigma_{XX}^{-1} \Sigma_{XY},[/math]的一个特征向量，
* [math]a[/math]与[math]\Sigma_{XX}^{-1} \Sigma_{XY} b[/math]成比例。

典型变量由以下定义：

:[math]U = c^T \Sigma_{XX}^{-1/2} X = a^T X[/math]

:[math]V = d^T \Sigma_{YY}^{-1/2} Y = b^T Y[/math]

===实现===
可以使用[[奇异值分解]]在相关矩阵上计算CCA。<ref>{{Cite journal | last1 = Hsu | first1 = D. | last2 = Kakade | first2 = S. M. | last3 = Zhang | first3 = T. | doi = 10.1016/j.jcss.2011.12.025 | title = 学习隐马尔可夫模型的光谱算法 | journal = 计算机与系统科学杂志 | volume = 78 | issue = 5 | pages = 1460 | year = 2012 | url = http://www.cs.mcgill.ca/~colt2009/papers/011.pdf| arxiv = 0811.4413| s2cid = 220740158 }}</ref> 它作为一个函数在<ref>{{Cite journal | last1 = Huang | first1 = S. Y. | last2 = Lee | first2 = M. H. | last3 = Hsiao | first3 = C. K. | doi = 10.1016/j.jspi.2008.10.011 | title = 使用核典型相关分析和应用的非线性关联度量 | journal = 统计规划与推断杂志 | volume = 139 | issue = 7 | pages = 2162 | year = 2009 | url = http://www.stat.sinica.edu.tw/syhuang/papersdownload/KCCA-080906.pdf | access-date = 2015-09-04 | archive-date = 2017-03-13 | archive-url = | url-status = dead }}</ref>

* [[MATLAB]]作为[canoncorr]（也在[[GNU Octave|Octave]]中[https://sourceforge.net/p/octave/statistics/ci/default/tree/inst/canoncorr.m]）
* [[R (编程语言)|R]]作为标准函数[cancor]以及其他几个包，包括[CCA]和[vegan]。[CCP]用于典型相关分析中的统计假设检验。
* [[SAS语言|SAS]]作为[proc cancorr]
* [[Python (编程语言)|Python]]在[[scikit-learn]]库中，作为[Cross decomposition]，在[[statsmodels]]中，作为[https://devdocs.io/statsmodels/generated/statsmodels.multivariate.cancorr.cancorr CanCorr]。CCA-Zoo库<ref>{{Cite journal |last1=Chapman |first1=James |last2=Wang |first2=Hao-Ting |date=2021-12-18 |title=CCA-Zoo: 一系列在scikit-learn风格框架中的正则化、基于深度学习的、核心、和概率CCA方法的集合 |journal=开源软件杂志 |language=en |volume=6 |issue=68 |pages=3823 |doi=10.21105/joss.03823 |issn=2475-9066|doi-access=free }}</ref>实现了CCA的扩展，如概率CCA、稀疏CCA、多视图CCA和深度CCA。
* [[SPSS]]作为随主软件提供的宏CanCorr
*[[Julia (编程语言)]]在[https://github.com/JuliaStats/MultivariateStats.jl MultivariateStats.jl]包中。

使用[[奇异值分解]]在相关矩阵上的CCA计算与[[扁平间的角度]]的[[余弦]]函数相关。对于小角度，[[余弦]]函数是[[条件不良]]的，导致在有限[[精度（计算机科学）|精度]][[计算机算术]]中高度相关的主向量的计算非常不准确。为了[[扁平间角度的计算|解决这个问题]]，有其他算法<ref name="KA02">{{Citation
| last1 = Knyazev
| first1 = A.V.
| last2 = Argentati
| first2 = M.E.
| title = 在基于A的标量积中子空间之间的主要角度：算法和扰动估计
| journal = SIAM科学计算杂志
| volume = 23
| issue = 6
| pages = 2009–2041
| year = 2002
| doi = 10.1137/S1064827500377332
| bibcode = 2002SJSC...23.2008K
| citeseerx = 10.1.1.73.2914
}}</ref>可用于

* [[SciPy]] 作为 [线性代数函数子空间角度]
* [[MATLAB]] 作为 [https://www.mathworks.com/matlabcentral/fileexchange/55-subspacea-m FileExchange函数subspacea]

=='''假设检验'''==
每一行都可以用以下方法检验其显著性。由于相关性是排序的，因此说第[math]i[/math]行为零意味着所有后续的相关性也为零。如果我们在样本中有[math]p[/math]个独立观察值，且[math]\widehat{\rho}_i[/math]是对[math]i = 1,\dots, \min\{m,n\}[/math]的估计相关性。对于第[math]i[/math]行，检验统计量为：

:[math]\chi^2 = - \left( p - 1 - \frac{1}{2}(m + n + 1)\right) \ln \prod_{j = i}^{\min\{m,n\}} (1 - \widehat{\rho}_j^2),[/math]

该统计量在[math]p[/math]较大时，渐近地服从自由度为[math](m - i + 1)(n - i + 1)[/math]的[[chi-squared distribution|卡方分布]]。<ref>{{Cite book
| author = [[Kanti V. Mardia]], J. T. Kent 和 J. M. Bibby
| title = Multivariate Analysis
| year = 1979
| publisher = [[Academic Press]]
}}</ref> 由于从[math] \min\{m,n\}[/math]到[math]p[/math]的所有相关性在逻辑上都是零（也以这种方式估计），因此这一点之后的项的乘积是无关紧要的。

注意，在样本量较小的限制下，如果[math]p < n + m[/math]，则我们可以保证前[math]m + n - p[/math]个相关性恒定为1，因此这种检验是无意义的。<ref>Yang Song, Peter J. Schreier, David Ramírez, 和 Tanuj Hasija ''Canonical correlation analysis of high-dimensional data with very small sample support'' {{ArXiv|1604.02047}}</ref>

=='''实际应用'''==
典型的典型相关性在实验环境中的应用是取两组变量，看看这两组之间有什么共同点。<ref>{{cite book|last= Sieranoja|first=S.|author2=Sahidullah, Md| author3=Kinnunen, T.| author4= Komulainen, J.| author5= Hadid, A.|title=2018 IEEE第三届国际信号与图像处理会议(ICSIP) |chapter=使用优化音频特征的音视频同步检测 |date=2018年7月|pages=377–381 |doi=10.1109/SIPROCESS.2018.8600424 |isbn=978-1-5386-6396-7 |s2cid=51682024 |url=http://urn.fi/urn:nbn:fi-fe2020041415345 |chapter-url=http://cs.joensuu.fi/pages/tkinnu/webpage/pdf/audiovisual_synchrony_2018.pdf}}</ref> 例如，在心理测试中，可以采取两个成熟的多维[[personality tests|人格测试]]，如[[Minnesota Multiphasic Personality Inventory|明尼苏达多项人格测试]](MMPI-2)和[[Neuroticism Extraversion Openness Personality Inventory|NEO]]。通过观察MMPI-2因素与NEO因素之间的关系，可以洞察测试之间共有的维度以及共享的变异量有多少。例如，可能会发现[[Extraversion and introversion|外向性]]或[[neuroticism|神经质]]维度在两次测试之间共享了大量的变异量。

也可以使用典型相关分析来生成一个模型方程，该方程关联两组变量，例如一组性能度量和一组解释变量，或一组输出和一组输入。可以对这样的模型施加约束限制，以确保它反映理论要求或直观明显的条件。这种类型的模型被称为最大相关模型。<ref>{{Cite journal | last1 = Tofallis | first1 = C. | title = Model Building with Multiple Dependent Variables and Constraints | doi = 10.1111/1467-9884.00195 | journal = Journal of the Royal Statistical Society, Series D | volume = 48 | issue = 3 | pages = 371–378 | year = 1999 | arxiv = 1109.0725| s2cid = 8942357 }}</ref>

通常通过两组变量的系数的条形图来可视化典型相关的结果，显示出显著相关的典型变量对。一些作者建议，将它们作为圆盘图绘制出来可能是最佳的可视化方式，这是一种圆形格式，带有类似射线的条形，每一半代表两组变量。<ref>{{Cite book | last1 = Degani | first1 = A. | last2 = Shafto | first2 = M. | last3 = Olson | first3 = L. | doi = 10.1007/11783183_11 | chapter = Canonical Correlation Analysis: Use of Composite Heliographs for Representing Multiple Patterns | title = Diagrammatic Representation and Inference | series = Lecture Notes in Computer Science | volume = 4045 | pages = 93 | year = 2006 | isbn = 978-3-540-35623-3 | chapter-url = http://ti.arc.nasa.gov/m/profile/adegani/Composite_Heliographs.pdf| citeseerx = 10.1.1.538.5217 }}</ref>

=='''例子'''==
设[math]X = x_1[/math]，其[[expected value|期望值]]为零，即[math]\operatorname{E}(X)=0[/math]。

1. 如果[math]Y = X[/math]，即[math]X[/math]和[math]Y[/math]完全相关，那么，例如，[math]a=1[/math]和[math]b=1[/math]，使得第一对（也是本例中唯一的一对）典型变量为[math]U = X[/math]和[math]V = Y =X[/math]。
2. 如果[math]Y = -X[/math]，即[math]X[/math]和[math]Y[/math]完全反相关，那么，例如，[math]a=1[/math]和[math]b=-1[/math]，使得第一对（也是本例中唯一的一对）典型变量为[math]U = X[/math]和[math]V = -Y =X[/math]。

我们注意到，在这两种情况下[math]U =V[/math]，这说明典型相关分析对于相关变量和反相关变量的处理是相似的。

=='''与主角之间的联系'''==
假设 [math]X = (x_1, \dots, x_n)^T[/math] 和 [math]Y = (y_1, \dots, y_m)^T[/math] 的 [[expected value|期望值]] 为零，即 [math]\operatorname{E}(X)=\operatorname{E}(Y)=0[/math]，他们的 [[covariance|协方差]] 矩阵 [math]\Sigma _{XX} =\operatorname{Cov}(X,X) = \operatorname{E}[X X^T][/math] 和 [math]\Sigma _{YY} =\operatorname{Cov}(Y,Y) = \operatorname{E}[Y Y^T][/math] 可以视为对应于 [math]X[/math] 和 [math]Y[/math] 的条目的 [[Gram matrix|格拉姆矩阵]] 在 [[inner product|内积]] 中。在这种解释中，随机变量，[math]X[/math] 的条目 [math]x_i[/math] 和 [math]Y[/math] 的条目 [math]y_j[/math] 被视为向量空间中的元素，该向量空间的内积由 [[covariance|协方差]] [math]\operatorname{cov}(x_i, y_j)[/math] 给出；参见 [[Covariance#Relationship to inner products|协方差与内积的关系]]。

然后，规范变量 [math]U[/math] 和 [math]V[/math] 的定义等同于对于由 [math]X[/math] 和 [math]Y[/math] 的条目张成的一对子空间关于此 [[inner product|内积]] 的 [[principal angles|主向量]] 的定义。规范相关性 [math]\operatorname{corr}(U,V)[/math] 等于 [[principal angles|主角]] 的 [[cosine|余弦]]。

=='''白化和概率规范相关分析'''==

CCA 也可以视为一种特殊的 [[whitening transformation|白化转换]]，其中随机向量 [math]X[/math] 和 [math]Y[/math] 被同时转换，以使得白化向量 [math]X^{CCA}[/math] 和 [math]Y^{CCA}[/math] 之间的交叉相关性是对角线的。<ref>{{cite journal | last1 = Jendoubi | first1 = T. | last2 = Strimmer | first2 = K. | title = A whitening approach to probabilistic canonical correlation analysis for omics data integration | journal = BMC Bioinformatics | volume = 20 | issue = 1 | pages = 15 | year = 2018 | arxiv = 1802.03490 | doi = 10.1186/s12859-018-2572-9 | pmid = 30626338 | pmc = 6327589 | doi-access = free }}</ref> 然后，规范相关性被解释为连接 [math]X^{CCA}[/math] 和 [math]Y^{CCA}[/math] 的回归系数，也可能是负数。CCA 的回归视角还提供了一种构建 CCA 的潜在变量概率生成模型的方法，其中不相关的隐藏变量代表共享和非共享的变异性。

== '''节点使用的R语言示例代码''' ==
=== 典型相关分析 ===
<syntaxhighlight lang="R">

cancor(x, y, xcenter = TRUE, ycenter = TRUE)

</syntaxhighlight>

== '''节点使用指南''' ==
* 典型相关分析旨在探索和量化两组变量集（称为变量集X和变量集Y）之间的线性关系
* 与简单的相关分析不同，CCA可以同时考虑多个变量，分析两组变量之间的整体相关性

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 因变量：选择多个连续型数值变量
* 自变量：选择多个连续型数值变量
* 因变量和自变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 当涉及到多对典型变量时，可能会出现多重性问题，这可能会导致统计显著性的问题
* 典型相关分析对样本大小有较高的要求，特别是当涉及到大量变量时
* 在小样本情况下，典型相关分析可能会产生过度拟合，即模型对于训练数据的拟合很好，但泛化到新数据的能力差

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:相关分析]]

典型相关分析

2024-02-25T02:37:13Z

RainW：

{{Infobox nodebasic
|nodename=典型相关分析
|nodeimage=Canonical Correlation Analysis.png
|icon=Canonical Correlation Analysis.svg
|simpleicon=Canonical Correlation Analysis_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Canonical Correlation Analysis
|abbreviation=CCA
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::相关分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=典型相关分析是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。假设有两组变量，采用类似主成分分析的做法，在每一组变量中选择若干个有代表性的综合指标-变量的线性组合，通过研究两组的综合指标之间的关系来反映两组变量之间的相关关系。原理是首先在变量中找出变量的线性组合，使其具有最大相关性，然后再每组变量中找出第二对线性组合，使其分别与第一对线性组合不相关，而第二对线性组合本身具有最大的相关性，如此继续下去，直到两组变量之间的相关性被提取完毕。用途：研究两组变量之间的关系，典型相关分析可以一次性分析多个变量的关系，也可以帮助研究者了解哪些变量在两组数据中有最强的关系。参数：可以输入多个数值因变量和多个数值自变量。
|nodeinputnumber=4
|nodeoutputnumber=2
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=PointPlot
|nodeavailabletablelist=Coeff-Value;CCA
|nodeconfiguration=VariableList
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/典型相关分析
|previousnode=[[一般线性相关分析]]
|nextnode=[[组内相关系数_随机效应]]
}}

在[[statistics|统计学]]中，'''典型相关分析'''（'''CCA'''），也称为'''典型变量分析'''，是一种从[[cross-covariance matrix|交叉协方差矩阵]]推断信息的方法。如果我们有两个向量''X'' = (''X''1, ..., ''X''''n'')和''Y'' = (''Y''1, ..., ''Y''''m'')的[[random variable|随机变量]]，并且变量之间存在[[correlation|相关性]]，那么典型相关分析将找到''X''和''Y''的线性组合，这些线性组合彼此之间具有最大的相关性。<ref>{{Cite book | doi = 10.1007/978-3-540-72244-1_14 | chapter = 典型相关分析 | title = 应用多变量统计分析 | pages = 321–330 | year = 2007 | isbn = 978-3-540-72243-4 | first1 = Wolfgang | last1 = Härdle| first2 = Léopold | last2 = Simar| citeseerx = 10.1.1.324.403 }}</ref> T. R. Knapp指出，“几乎所有常见的[[parametric statistics|参数检验]]的显著性都可以视为典型相关分析的特例，这是研究两组变量之间关系的通用程序。”<ref>{{Cite journal | last1 = Knapp | first1 = T. R. | title = 典型相关分析：一个通用的参数显著性检验系统 | doi = 10.1037/0033-2909.85.2.410 | journal = 心理学公报 | volume = 85 | issue = 2 | pages = 410–416 | year = 1978 }}</ref> 该方法最初由[[Harold Hotelling|哈罗德·霍特林]]在1936年引入，<ref>{{Cite journal | last1 = Hotelling | first1 = H. | author-link1 = Harold Hotelling| title = 两组变量之间的关系 | doi = 10.1093/biomet/28.3-4.321 | journal = 生物统计学 | volume = 28 | issue = 3–4 | pages = 321–377 | year = 1936 | jstor = 2333955}}</ref> 尽管在[[angles between flats|平面间角度]]的数学概念上，乔丹在1875年已经发表了相关论文。<ref name="jordan">{{cite journal
|last=Jordan
|first=C.
|author-link=Camille Jordan
|date=1875
|title=关于n维几何的试验
|journal=法国数学会公报
|volume=3
|pages=103
|url=http://www.numdam.org/item?id=BSMF_1875__3__103_2
}}</ref>

如今，CCA已成为多变量统计和多视图学习的基石，提出了大量的解释和扩展，如概率CCA、稀疏CCA、多视图CCA和深度CCA。不幸的是，也许因为其受欢迎的程度，文献中的符号可能不一致，我们试图在本文中突出这种不一致性，以帮助读者最好地利用现有的文献和可用技术。

像其姐妹方法[[Principal component analysis|主成分分析（PCA)]]一样，CCA可以以''群体''形式（对应于随机向量及其协方差矩阵）或''样本''形式（对应于数据集及其样本协方差矩阵）来查看。这两种形式几乎是彼此的精确类似物，这就是为什么它们的区别常常被忽视，但在高维设置中它们的表现可能大不相同。<ref>{{Cite web |title=稀疏统计学习：套索和泛化 |url=https://hastie.su.domains/StatLearnSparsity/ |access-date=2023-09-12 |website=hastie.su.domains}}</ref> 接下来我们将为群体问题给出明确的数学定义，并突出所谓的''典型分解''中的不同对象 - 理解这些对象之间的差异对于技术的解释至关重要。

=='''通过相关性定义群体CCA'''==
给定两个[[column vectors|列向量]] [math]X = (x_1, \dots, x_n)^T[/math] 和 [math]Y = (y_1, \dots, y_m)^T[/math] 的[[random variable|随机变量]]，它们具有[[Wikt:finite|有限的]] [[second moments|二阶矩]]，人们可以定义[[cross-covariance|交叉协方差]] [math]\Sigma _{XY} = \operatorname{cov}(X, Y) [/math] 为 [math] n \times m[/math] [[matrix (mathematics)|矩阵]]，其 [math](i, j)[/math] 项是[[covariance|协方差]] [math]\operatorname{cov}(x_i, y_j)[/math]。在实践中，我们会基于来自 [math]X[/math] 和 [math]Y[/math] 的样本数据（即一对数据矩阵）来估计协方差矩阵。

典型相关分析寻求一系列向量 [math]a_k[/math]（[math]a_k \in\mathbb R^n[/math]）和 [math]b_k[/math]（[math]b_k \in\mathbb R^m[/math]），使得随机变量 [math]a_k^T X[/math] 和 [math]b_k^T Y[/math] 最大化[[correlation|相关性]] [math]\rho = \operatorname{corr}(a_k^T X, b_k^T Y)[/math]。标量随机变量 [math]U = a_k^T X[/math] 和 [math]V = b_k^T Y[/math] 是'''''第一对典型变量'''''。然后寻找最大化相同相关性的向量，受到它们必须与第一对典型变量不相关的约束；这就得到了'''''第二对典型变量'''''。这个程序可以继续进行直到 [math]\min\{m,n\}[/math] 次。

: [math display="block"](a_k,b_k) = \underset{a,b}\operatorname{argmax} \operatorname{corr}(a^T X, b^T Y) \quad\text{ subject to } \operatorname{cov}(a^T X, a_j^T X) = \operatorname{cov}(b^T Y, b_j^T Y) = 0 \text{ for } j=1, \dots, k-1[/math]

向量集 [math]a_k, b_k[/math] 被称为'''''典型方向'''''或'''''权重向量'''''或简单地称为'''''权重'''''。'对偶'向量集 [math]\Sigma_{XX}a_k, \Sigma_{YY} b_k[/math] 被称为'''''典型载荷向量'''''或简单地称为'''''载荷'''''；这些通常比权重更容易解释。<ref>{{Cite journal |last1=Gu |first1=Fei |last2=Wu |first2=Hao |date=2018-04-01 |title=具有不变典型载荷的同时典型相关分析 |url=https://doi.org/10.1007/s41237-017-0042-8 |journal=行为计量学 |language=en |volume=45 |issue=1 |pages=111–132 |doi=10.1007/s41237-017-0042-8 |issn=1349-6964}}</ref>

=='''计算'''==
===推导===
设[math]\Sigma _{XY}[/math]为任意一对（向量形状的）随机变量[math]X[/math]和[math]Y[/math]的[[交协方差矩阵]]。要最大化的目标函数是

:[math]
\rho = \frac{a^T \Sigma _{XY} b}{\sqrt{a^T \Sigma _{XX} a} \sqrt{b^T \Sigma _{YY} b}}。
[/math]

第一步是定义一个[[基变换]]并定义

:[math]
c = \Sigma _{XX} ^{1/2} a，
[/math]

:[math]
d = \Sigma _{YY} ^{1/2} b，
[/math]
其中[math]\Sigma_{XX}^{1/2}[/math]和[math]\Sigma_{YY}^{1/2}[/math]可以通过特征分解（或通过[[矩阵的平方根#通过对角化|对角化]]）获得：

:[math]
\Sigma _{XX} ^{1/2} = V_X D_X^{1/2} V_X^\top，\qquad V_X D_X V_X^\top = \Sigma_{XX}，
[/math]
和
:[math]
\Sigma _{YY} ^{1/2} = V_Y D_Y^{1/2} V_Y^\top，\qquad V_Y D_Y V_Y^\top = \Sigma_{YY}。
[/math]

因此
:[math]
\rho = \frac{c^T \Sigma _{XX} ^{-1/2} \Sigma _{XY} \Sigma _{YY} ^{-1/2} d}{\sqrt{c^Tc} \sqrt{d^Td}}。
[/math]

根据[[柯西-施瓦茨不等式]]，
:[math]
\left(c^T \Sigma _{XX} ^{-1/2} \Sigma _{XY} \Sigma _{YY} ^{-1/2} \right) (d) \leq \left(c^T \Sigma _{XX} ^{-1/2} \Sigma _{XY} \Sigma _{YY} ^{-1/2} \Sigma _{YY} ^{-1/2} \Sigma _{YX} \Sigma _{XX} ^{-1/2} c \right)^{1/2} \left(d^T d \right)^{1/2}，
[/math]

:[math]
\rho \leq \frac{\left(c^T \Sigma _{XX}^{-1/2} \Sigma _{XY} \Sigma _{YY}^{-1} \Sigma _{YX} \Sigma_{XX}^{-1/2} c \right)^{1/2}}{\left(c^T c \right)^{1/2}}。
[/math]

如果向量[math]d[/math]和[math]\Sigma_{YY}^{-1/2} \Sigma_{YX} \Sigma_{XX}^{-1/2} c[/math]共线，则等式成立。此外，如果[math]c[/math]是矩阵[math]\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1} \Sigma_{YX} \Sigma_{XX}^{-1/2}[/math]的最大特征值对应的[[特征向量]]（见[[瑞利商]]），则可以达到相关性的最大值。通过使用逐渐减小的[[特征值]]找到后续对。相关矩阵的对称性保证了正交性。

另一种看待这个计算的方式是，[math]c[/math]和[math]d[/math]是X和Y的相关矩阵对应于最高奇异值的左右[[奇异值分解|奇异向量]]。

===解===
因此，解为：
* [math]c[/math]是[math]\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1} \Sigma_{YX} \Sigma_{XX}^{-1/2}[/math]的一个特征向量
* [math]d[/math]与[math]\Sigma _{YY}^{-1/2} \Sigma_{YX} \Sigma_{XX}^{-1/2} c[/math]成比例

反之亦然：
* [math]d[/math]是[math]\Sigma_{YY}^{-1/2} \Sigma_{YX} \Sigma_{XX}^{-1} \Sigma_{XY} \Sigma_{YY}^{-1/2}[/math]的一个特征向量
* [math]c[/math]与[math]\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1/2} d[/math]成比例

逆转坐标变换，我们有：
* [math]a[/math]是[math]\Sigma_{XX}^{-1} \Sigma_{XY} \Sigma_{YY}^{-1} \Sigma_{YX}[/math]的一个特征向量，
* [math]b[/math]与[math]\Sigma_{YY}^{-1} \Sigma_{YX} a;[/math]成比例
* [math]b[/math]是[math]\Sigma _{YY}^{-1} \Sigma_{YX} \Sigma_{XX}^{-1} \Sigma_{XY},[/math]的一个特征向量，
* [math]a[/math]与[math]\Sigma_{XX}^{-1} \Sigma_{XY} b[/math]成比例。

典型变量由以下定义：

:[math]U = c^T \Sigma_{XX}^{-1/2} X = a^T X[/math]

:[math]V = d^T \Sigma_{YY}^{-1/2} Y = b^T Y[/math]

===实现===
可以使用[[奇异值分解]]在相关矩阵上计算CCA。<ref>{{Cite journal | last1 = Hsu | first1 = D. | last2 = Kakade | first2 = S. M. | last3 = Zhang | first3 = T. | doi = 10.1016/j.jcss.2011.12.025 | title = 学习隐马尔可夫模型的光谱算法 | journal = 计算机与系统科学杂志 | volume = 78 | issue = 5 | pages = 1460 | year = 2012 | url = http://www.cs.mcgill.ca/~colt2009/papers/011.pdf| arxiv = 0811.4413| s2cid = 220740158 }}</ref> 它作为一个函数在<ref>{{Cite journal | last1 = Huang | first1 = S. Y. | last2 = Lee | first2 = M. H. | last3 = Hsiao | first3 = C. K. | doi = 10.1016/j.jspi.2008.10.011 | title = 使用核典型相关分析和应用的非线性关联度量 | journal = 统计规划与推断杂志 | volume = 139 | issue = 7 | pages = 2162 | year = 2009 | url = http://www.stat.sinica.edu.tw/syhuang/papersdownload/KCCA-080906.pdf | access-date = 2015-09-04 | archive-date = 2017-03-13 | archive-url = | url-status = dead }}</ref>

* [[MATLAB]]作为[canoncorr]（也在[[GNU Octave|Octave]]中[https://sourceforge.net/p/octave/statistics/ci/default/tree/inst/canoncorr.m]）
* [[R (编程语言)|R]]作为标准函数[cancor]以及其他几个包，包括[CCA]和[vegan]。[CCP]用于典型相关分析中的统计假设检验。
* [[SAS语言|SAS]]作为[proc cancorr]
* [[Python (编程语言)|Python]]在[[scikit-learn]]库中，作为[Cross decomposition]，在[[statsmodels]]中，作为[https://devdocs.io/statsmodels/generated/statsmodels.multivariate.cancorr.cancorr CanCorr]。CCA-Zoo库<ref>{{Cite journal |last1=Chapman |first1=James |last2=Wang |first2=Hao-Ting |date=2021-12-18 |title=CCA-Zoo: 一系列在scikit-learn风格框架中的正则化、基于深度学习的、核心、和概率CCA方法的集合 |journal=开源软件杂志 |language=en |volume=6 |issue=68 |pages=3823 |doi=10.21105/joss.03823 |issn=2475-9066|doi-access=free }}</ref>实现了CCA的扩展，如概率CCA、稀疏CCA、多视图CCA和深度CCA。
* [[SPSS]]作为随主软件提供的宏CanCorr
*[[Julia (编程语言)]]在[https://github.com/JuliaStats/MultivariateStats.jl MultivariateStats.jl]包中。

使用[[奇异值分解]]在相关矩阵上的CCA计算与[[扁平间的角度]]的[[余弦]]函数相关。对于小角度，[[余弦]]函数是[[条件不良]]的，导致在有限[[精度（计算机科学）|精度]][[计算机算术]]中高度相关的主向量的计算非常不准确。为了[[扁平间角度的计算|解决这个问题]]，有其他算法<ref name="KA02">{{Citation
| last1 = Knyazev
| first1 = A.V.
| last2 = Argentati
| first2 = M.E.
| title = 在基于A的标量积中子空间之间的主要角度：算法和扰动估计
| journal = SIAM科学计算杂志
| volume = 23
| issue = 6
| pages = 2009–2041
| year = 2002
| doi = 10.1137/S1064827500377332
| bibcode = 2002SJSC...23.2008K
| citeseerx = 10.1.1.73.2914
}}</ref>可用于

* [[SciPy]] 作为 [线性代数函数子空间角度]
* [[MATLAB]] 作为 [https://www.mathworks.com/matlabcentral/fileexchange/55-subspacea-m FileExchange函数subspacea]

=='''假设检验'''==
每一行都可以用以下方法检验其显著性。由于相关性是排序的，因此说第[math]i[/math]行为零意味着所有后续的相关性也为零。如果我们在样本中有[math]p[/math]个独立观察值，且[math]\widehat{\rho}_i[/math]是对[math]i = 1,\dots, \min\{m,n\}[/math]的估计相关性。对于第[math]i[/math]行，检验统计量为：

:[math]\chi^2 = - \left( p - 1 - \frac{1}{2}(m + n + 1)\right) \ln \prod_{j = i}^{\min\{m,n\}} (1 - \widehat{\rho}_j^2),[/math]

该统计量在[math]p[/math]较大时，渐近地服从自由度为[math](m - i + 1)(n - i + 1)[/math]的[[chi-squared distribution|卡方分布]]。<ref>{{Cite book
| author = [[Kanti V. Mardia]], J. T. Kent 和 J. M. Bibby
| title = Multivariate Analysis
| year = 1979
| publisher = [[Academic Press]]
}}</ref> 由于从[math] \min\{m,n\}[/math]到[math]p[/math]的所有相关性在逻辑上都是零（也以这种方式估计），因此这一点之后的项的乘积是无关紧要的。

注意，在样本量较小的限制下，如果[math]p < n + m[/math]，则我们可以保证前[math]m + n - p[/math]个相关性恒定为1，因此这种检验是无意义的。<ref>Yang Song, Peter J. Schreier, David Ramírez, 和 Tanuj Hasija ''Canonical correlation analysis of high-dimensional data with very small sample support'' {{ArXiv|1604.02047}}</ref>

=='''实际应用'''==
典型的典型相关性在实验环境中的应用是取两组变量，看看这两组之间有什么共同点。<ref>{{cite book|last= Sieranoja|first=S.|author2=Sahidullah, Md| author3=Kinnunen, T.| author4= Komulainen, J.| author5= Hadid, A.|title=2018 IEEE第三届国际信号与图像处理会议(ICSIP) |chapter=使用优化音频特征的音视频同步检测 |date=2018年7月|pages=377–381 |doi=10.1109/SIPROCESS.2018.8600424 |isbn=978-1-5386-6396-7 |s2cid=51682024 |url=http://urn.fi/urn:nbn:fi-fe2020041415345 |chapter-url=http://cs.joensuu.fi/pages/tkinnu/webpage/pdf/audiovisual_synchrony_2018.pdf}}</ref> 例如，在心理测试中，可以采取两个成熟的多维[[personality tests|人格测试]]，如[[Minnesota Multiphasic Personality Inventory|明尼苏达多项人格测试]](MMPI-2)和[[Neuroticism Extraversion Openness Personality Inventory|NEO]]。通过观察MMPI-2因素与NEO因素之间的关系，可以洞察测试之间共有的维度以及共享的变异量有多少。例如，可能会发现[[Extraversion and introversion|外向性]]或[[neuroticism|神经质]]维度在两次测试之间共享了大量的变异量。

也可以使用典型相关分析来生成一个模型方程，该方程关联两组变量，例如一组性能度量和一组解释变量，或一组输出和一组输入。可以对这样的模型施加约束限制，以确保它反映理论要求或直观明显的条件。这种类型的模型被称为最大相关模型。<ref>{{Cite journal | last1 = Tofallis | first1 = C. | title = Model Building with Multiple Dependent Variables and Constraints | doi = 10.1111/1467-9884.00195 | journal = Journal of the Royal Statistical Society, Series D | volume = 48 | issue = 3 | pages = 371–378 | year = 1999 | arxiv = 1109.0725| s2cid = 8942357 }}</ref>

通常通过两组变量的系数的条形图来可视化典型相关的结果，显示出显著相关的典型变量对。一些作者建议，将它们作为圆盘图绘制出来可能是最佳的可视化方式，这是一种圆形格式，带有类似射线的条形，每一半代表两组变量。<ref>{{Cite book | last1 = Degani | first1 = A. | last2 = Shafto | first2 = M. | last3 = Olson | first3 = L. | doi = 10.1007/11783183_11 | chapter = Canonical Correlation Analysis: Use of Composite Heliographs for Representing Multiple Patterns | title = Diagrammatic Representation and Inference | series = Lecture Notes in Computer Science | volume = 4045 | pages = 93 | year = 2006 | isbn = 978-3-540-35623-3 | chapter-url = http://ti.arc.nasa.gov/m/profile/adegani/Composite_Heliographs.pdf| citeseerx = 10.1.1.538.5217 }}</ref>

=='''例子'''==
设[math]X = x_1[/math]，其[[expected value|期望值]]为零，即[math]\operatorname{E}(X)=0[/math]。

1. 如果[math]Y = X[/math]，即[math]X[/math]和[math]Y[/math]完全相关，那么，例如，[math]a=1[/math]和[math]b=1[/math]，使得第一对（也是本例中唯一的一对）典型变量为[math]U = X[/math]和[math]V = Y =X[/math]。
2. 如果[math]Y = -X[/math]，即[math]X[/math]和[math]Y[/math]完全反相关，那么，例如，[math]a=1[/math]和[math]b=-1[/math]，使得第一对（也是本例中唯一的一对）典型变量为[math]U = X[/math]和[math]V = -Y =X[/math]。

我们注意到，在这两种情况下[math]U =V[/math]，这说明典型相关分析对于相关变量和反相关变量的处理是相似的。

=='''与主角之间的联系'''==
假设 [math]X = (x_1, \dots, x_n)^T[/math] 和 [math]Y = (y_1, \dots, y_m)^T[/math] 的 [[expected value|期望值]] 为零，即 [math]\operatorname{E}(X)=\operatorname{E}(Y)=0[/math]，他们的 [[covariance|协方差]] 矩阵 [math]\Sigma _{XX} =\operatorname{Cov}(X,X) = \operatorname{E}[X X^T][/math] 和 [math]\Sigma _{YY} =\operatorname{Cov}(Y,Y) = \operatorname{E}[Y Y^T][/math] 可以视为对应于 [math]X[/math] 和 [math]Y[/math] 的条目的 [[Gram matrix|格拉姆矩阵]] 在 [[inner product|内积]] 中。在这种解释中，随机变量，[math]X[/math] 的条目 [math]x_i[/math] 和 [math]Y[/math] 的条目 [math]y_j[/math] 被视为向量空间中的元素，该向量空间的内积由 [[covariance|协方差]] [math]\operatorname{cov}(x_i, y_j)[/math] 给出；参见 [[Covariance#Relationship to inner products|协方差与内积的关系]]。

然后，规范变量 [math]U[/math] 和 [math]V[/math] 的定义等同于对于由 [math]X[/math] 和 [math]Y[/math] 的条目张成的一对子空间关于此 [[inner product|内积]] 的 [[principal angles|主向量]] 的定义。规范相关性 [math]\operatorname{corr}(U,V)[/math] 等于 [[principal angles|主角]] 的 [[cosine|余弦]]。

=='''白化和概率规范相关分析'''==

CCA 也可以视为一种特殊的 [[whitening transformation|白化转换]]，其中随机向量 [math]X[/math] 和 [math]Y[/math] 被同时转换，以使得白化向量 [math]X^{CCA}[/math] 和 [math]Y^{CCA}[/math] 之间的交叉相关性是对角线的。<ref>{{cite journal | last1 = Jendoubi | first1 = T. | last2 = Strimmer | first2 = K. | title = A whitening approach to probabilistic canonical correlation analysis for omics data integration | journal = BMC Bioinformatics | volume = 20 | issue = 1 | pages = 15 | year = 2018 | arxiv = 1802.03490 | doi = 10.1186/s12859-018-2572-9 | pmid = 30626338 | pmc = 6327589 | doi-access = free }}</ref> 然后，规范相关性被解释为连接 [math]X^{CCA}[/math] 和 [math]Y^{CCA}[/math] 的回归系数，也可能是负数。CCA 的回归视角还提供了一种构建 CCA 的潜在变量概率生成模型的方法，其中不相关的隐藏变量代表共享和非共享的变异性。

== '''节点使用的R语言示例代码''' ==
=== 典型相关分析 ===
<syntaxhighlight lang="R">

cancor(x, y, xcenter = TRUE, ycenter = TRUE)

</syntaxhighlight>

== '''节点使用指南''' ==
* 典型相关分析旨在探索和量化两组变量集（称为变量集X和变量集Y）之间的线性关系
* 与简单的相关分析不同，CCA可以同时考虑多个变量，分析两组变量之间的整体相关性

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 因变量：选择多个连续型数值变量
* 自变量：选择多个连续型数值变量
* 因变量和自变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 当涉及到多对典型变量时，可能会出现多重性问题，这可能会导致统计显著性的问题
* 典型相关分析对样本大小有较高的要求，特别是当涉及到大量变量时
* 在小样本情况下，典型相关分析可能会产生过度拟合，即模型对于训练数据的拟合很好，但泛化到新数据的能力差

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:相关分析]]

一般线性相关分析

2024-02-09T09:03:38Z

RainW：

{{Infobox nodebasic
|nodename=一般线性相关分析
|nodeimage=Linear Correlation Analysis.png
|icon=Linear Correlation Analysis.svg
|simpleicon=Linear Correlation Analysis_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Linear Correlation Analysis
|abbreviation=LinCA
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::相关分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=一般线性相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。变量之间的关系可以分为确定关系和非确定性关系。确定性关系，可以说是函数关系，也就是说对于某一变量的每个数值都有另一变量的完全确定的值与之对应。非确定性关系，即这里所说的相关关系，变量之间存在一定的依存关系，但不是一一对应的关系，即相随变动关系。此相关分析使用的方法有: pearson, spearman, 和kendall。用途：用于衡量两个或多个变量间的线性关系强度和方向。检测两个连续变量之间是否存在线性关系的常用方法。参数：选择数值变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=NotSplittingPointPlot
|nodeavailabletablelist=t-Value;df;P-Value;CI;Cor-Value
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/一般线性相关分析
|previousnode=[[Two_Way_ANCOVA]]
|nextnode=[[典型相关分析]]
}}

在[[统计学]]中，'''相关性'''或'''依赖性'''是指两个[[随机变量]]或[[双变量数据]]之间，无论是否具有[[因果性|因果关系]]，存在的任何统计关系。尽管在最广泛的意义上，“相关性”可能表示任何类型的关联，在统计学中它通常指的是一对变量“[[线性几何|线性地]]”相关的程度。

熟悉的依赖现象示例包括[[人类身高|父母身高]]与其后代之间的相关性，以及商品价格与消费者愿意购买的数量之间的相关性，正如所谓的[[需求曲线]]所描绘的。

相关性之所以有用，是因为它们可以指示一种可以在实践中利用的预测关系。例如，一个电力公司可能会根据电力需求与天气之间的相关性，在温和的日子里生产较少的电力。在这个例子中，存在一个[[因果性|因果关系]]，因为[[极端天气]]导致人们使用更多的电力进行加热或冷却。然而，一般来说，相关性的存在不足以推断出因果关系的存在（即[[相关性不等于因果性]]）。

从正式的角度来说，如果随机变量不满足[[独立性（概率论）|概率独立性]]的数学属性，则它们是“依赖”的。在非正式用语中，“相关性”与“依赖性”同义。然而，当在技术意义上使用时，相关性指的是[[条件期望|被测试变量及其各自的预期值]]之间的几种特定类型的数学操作之一。本质上，相关性是衡量两个或多个变量之间关系的度量。有几种[[相关系数]]，通常用[math]\rho[/math]或[math]r[/math]表示，用于测量相关程度。其中最常见的是“[[皮尔逊积矩相关系数|皮尔逊相关系数]]”，它只对两个变量之间的线性关系敏感（即使当其中一个变量是另一个变量的非线性函数时也可能存在）。其他的相关系数——如“[[斯皮尔曼等级相关系数|斯皮尔曼等级相关]]”——已被开发出来，比皮尔逊的更[[稳健统计|稳健]]，即对非线性关系更敏感。<ref>Croxton, Frederick Emory; Cowden, Dudley Johnstone; Klein, Sidney (1968) ''Applied General Statistics'', Pitman. {{ISBN|9780273403159}} (page 625)</ref><ref>Dietrich, Cornelius Frank (1991) ''Uncertainty, Calibration and Probability: The Statistics of Scientific and Industrial Measurement'' 2nd Edition, A. Higler. {{ISBN|9780750300605}} (Page 331)</ref><ref>Aitken, Alexander Craig (1957) ''Statistical Mathematics'' 8th Edition. Oliver & Boyd. {{ISBN|9780050013007}} (Page 95)</ref> [[互信息]]也可以用来衡量两个变量之间的依赖性。

=='''皮尔逊积矩系数'''==
{{Main|皮尔逊积矩相关系数}}
[[File:Pearson Correlation Coefficient and associated scatterplots.png|thumb|各种数据集与各种相关系数的示例散点图。]]

两个数量之间依赖性的最熟悉度量是[[皮尔逊积矩相关系数]]（PPMCC），或称“皮尔逊相关系数”，通常简称为“相关系数”。它是通过取我们数值数据集中两个变量的协方差与它们方差的平方根的比值得到的。数学上，简单地将两个变量的[[协方差]]除以它们的[[标准差]]的乘积。[[卡尔·皮尔逊]]根据[[弗朗西斯·高尔顿]]的一个类似但略有不同的想法开发了这个系数。<ref name="thirteenways">{{cite journal | last1 = Rodgers | first1 = J. L. | last2 = Nicewander | first2 = W. A. | year = 1988 | title = Thirteen ways to look at the correlation coefficient | journal = The American Statistician | volume = 42 | issue = 1| pages = 59–66 | jstor=2685263 | doi=10.1080/00031305.1988.10475524}}</ref>

皮尔逊积矩相关系数试图通过基本上布置预期值并通过数据集的两个变量建立一条最佳拟合线，而得出的皮尔逊相关系数指示实际数据集与预期值的偏离程度。根据我们的皮尔逊相关系数的符号，如果数据集的变量之间存在任何类型的关系，我们可以得到负相关或正相关。{{cn|date=2023年11月}}

两个[[随机变量]][math]X[/math]和[math]Y[/math]之间的总体相关系数[math]\rho_{X,Y}[/math]，它们的[[期望值]]分别为[math]\mu_X[/math]和[math]\mu_Y[/math]，[[标准差]]分别为[math]\sigma_X[/math]和[math]\sigma_Y[/math]，定义为：

[math]\rho_{X,Y} = \operatorname{corr}(X,Y) = {\operatorname{cov}(X,Y) \over \sigma_X \sigma_Y} = {\operatorname{E}[(X-\mu_X)(Y-\mu_Y)] \over \sigma_X\sigma_Y}, \quad \text{if}\ \sigma_{X}\sigma_{Y}>0.[/math]

其中[math]\operatorname{E}[/math]是[[期望值]]运算符，[math]\operatorname{cov}[/math]表示[[协方差]]，而[math]\operatorname{corr}[/math]是相关系数的广泛使用的替代符号。只有当两个标准差都是有限且正的，皮尔逊相关才有定义。纯粹用[[矩（数学）|矩]]的术语表示的另一公式是：

[math]\rho_{X,Y} = {\operatorname{E}(XY)-\operatorname{E}(X)\operatorname{E}(Y)\over \sqrt{\operatorname{E}(X^2)-\operatorname{E}(X)^2}\cdot \sqrt{\operatorname{E}(Y^2)-\operatorname{E}(Y)^2} }[/math]

===相关性与独立性===
[[Cauchy–Schwarz不等式]]的一个推论是，皮尔逊相关系数的[[绝对值]]不大于1。因此，相关系数的值在-1和+1之间变化。在完美直接（增加）线性关系（相关性）的情况下，相关系数为+1，在完美逆（减少）线性关系（'''反相关'''）的情况下，相关系数为-1<ref>Dowdy, S. 和 Wearden, S. (1983). "Statistics for Research", Wiley. {{ISBN|0-471-08602-9}} 页 230</ref>，在所有其他情况下，其值在[math](-1,1)[/math]的[[开区间]]内，指示变量之间的[[线性依赖]]程度。当它接近零时，关系较小（更接近于不相关）。系数越接近-1或1，变量之间的相关性越强。

如果变量是[[统计独立|独立的]]，皮尔逊相关系数为0，但反之则不成立，因为相关系数只能检测两个变量之间的线性依赖。简单来说，如果两个随机变量X和Y是独立的，则它们是不相关的，但如果两个随机变量是不相关的，那么它们可能是独立的，也可能不是独立的。

[math]\begin{align}
X,Y \text{ 独立} \quad & \Rightarrow \quad \rho_{X,Y} = 0 \quad (X,Y \text{ 不相关})\\
\rho_{X,Y} = 0 \quad (X,Y \text{ 不相关})\quad & \nRightarrow \quad X,Y \text{ 独立}
\end{align}[/math]

例如，假设随机变量[math]X[/math]关于零对称分布，且[math]Y=X^2[/math]。那么[math]Y[/math]完全由[math]X[/math]决定，因此[math]X[/math]和[math]Y[/math]是完全依赖的，但它们的相关性为零；它们是[[不相关]]的。然而，在特殊情况下，当[math]X[/math]和[math]Y[/math]是[[联合正态|联合正态分布]]时，不相关性等同于独立性。

尽管不相关数据不一定意味着独立性，但如果随机变量的[[互信息]]为0，可以检查随机变量是否独立。

===样本相关系数===
给定一系列[math]n[/math]次对[math](X_i,Y_i)[/math]的测量，由[math]i=1,\ldots,n[/math]索引，''样本相关系数''可用于估计[math]X[/math]和[math]Y[/math]之间的群体皮尔逊相关[math]\rho_{X,Y}[/math]。样本相关系数定义为

[math]r_{x y} \stackrel{\text { def }}{=} \frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{(n-1) s_{x} s_{y}}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}} ,[/math]

其中[math]\overline{x}[/math]和[math]\overline{y}[/math]是[math]X[/math]和[math]Y[/math]的样本[[算术平均|平均值]]，[math]s_x[/math]和[math]s_y[/math]是[math]X[/math]和[math]Y[/math]的[[标准差#校正样本标准差|校正样本标准差]]。

[math]r_{xy}[/math]的等价表达式是

[math]\begin{aligned} r_{x y} & =\frac{\sum x_{i} y_{i}-n \bar{x} \bar{y}}{n s_{x}^{\prime} s_{y}^{\prime}} \\ & =\frac{n \sum x_{i} y_{i}-\sum x_{i} \sum y_{i}}{\sqrt{n \sum x_{i}^{2}-\left(\sum x_{i}\right)^{2}} \sqrt{n \sum y_{i}^{2}-\left(\sum y_{i}\right)^{2}}} .\end{aligned}[/math]

其中[math]s'_x[/math]和[math]s'_y[/math]是[math]X[/math]和[math]Y[/math]的[[标准差#未校正样本标准差|''未校正''样本标准差]]。

如果[math]x[/math]和[math]y[/math]是包含测量误差的测量结果，则相关系数的实际限制不是-1到+1，而是一个更小的范围。<ref>{{cite journal|last=Francis|first=DP|author2=Coats AJ|author3=Gibson D|title=How high can a correlation coefficient be?|journal=Int J Cardiol|year=1999|volume=69|pages=185–199|doi=10.1016/S0167-5273(99)00028-5|issue=2|pmid=10549842}}</ref> 对于具有单一独立变量的线性模型情况，[[决定系数|决定系数（R平方）]]是[math]r_{xy}[/math]，皮尔逊乘积矩系数的平方。

=='''例子'''==
考虑下表中给出的{{mvar|X}}和{{mvar|Y}}的[[联合概率分布]]。

:{| class="wikitable" style="text-align:center;"
|+ [math]\mathrm{P}(X=x,Y=y)[/math]
! {{diagonal split header|{{mvar|x}}|{{mvar|y}}}}
!−1
!0
!1
|-
!0
|0
|{{sfrac|1|3}}
|0
|-
!1
|{{sfrac|1|3}}
|0
|{{sfrac|1|3}}
|}

对于这个联合分布，[[边缘分布]]是：

[math]\mathrm{P}(X=x)=\left\{\begin{array}{ll}\frac{1}{3} & \text { for } x=0 \\ \frac{2}{3} & \text { for } x=1\end{array}\right.[/math]

[math]\mathrm{P}(Y=y)=\left\{\begin{array}{ll}\frac{1}{3} & \text { for } y=-1 \\ \frac{1}{3} & \text { for } y=0 \\ \frac{1}{3} & \text { for } y=1\end{array}\right.[/math]

这产生了以下期望和方差：
:[math]\mu_X = \frac 2 3[/math]
:[math]\mu_Y = 0[/math]
:[math]\sigma_X^2 = \frac 2 9[/math]
:[math]\sigma_Y^2 = \frac 2 3[/math]

因此：

[math]\begin{aligned} \rho_{X, Y} & =\frac{1}{\sigma_{X} \sigma_{Y}} \mathrm{E}\left[\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right] \\ & =\frac{1}{\sigma_{X} \sigma_{Y}} \sum_{x, y}\left(x-\mu_{X}\right)\left(y-\mu_{Y}\right) \mathrm{P}(X=x, Y=y) \\ & =\left(1-\frac{2}{3}\right)(-1-0) \frac{1}{3}+\left(0-\frac{2}{3}\right)(0-0) \frac{1}{3}+\left(1-\frac{2}{3}\right)(1-0) \frac{1}{3}=0\end{aligned}[/math]

=='''等级相关系数'''==
{{Main|Spearman's rank correlation coefficient|Kendall tau rank correlation coefficient}}

[[Rank correlation]]系数，如[[Spearman's rank correlation coefficient]]和[[Kendall's tau|Kendall等级相关系数(τ)]]，衡量的是随着一个变量的增加，另一个变量倾向于增加的程度，而不要求这种增加必须通过线性关系来表示。如果随着一个变量的增加，另一个变量''减少''，那么等级相关系数将是负数。通常认为这些等级相关系数是Pearson系数的替代品，用来减少计算量或使系数对分布的非正态性不那么敏感。然而，这种观点在数学上几乎没有依据，因为等级相关系数衡量的是与[[Pearson product-moment correlation coefficient]]不同类型的关系，并且最好被视为不同类型的关联度量，而不是人口相关系数的另一种度量。<ref name="Yule and Kendall">Yule, G.U和Kendall, M.G. (1950),《统计理论导论》，第14版（第5次印刷1968）。Charles Griffin & Co. 页258–270</ref><ref name="Kendall Rank Correlation Methods">Kendall, M. G. (1955) "Rank Correlation Methods", Charles Griffin & Co.</ref>

为了说明等级相关的性质及其与线性相关的区别，请考虑以下四对数字[math](x,y)[/math]：

:(0, 1), (10, 100), (101, 500), (102, 2000).

当我们从每一对数字过渡到下一对时，[math]x[/math]增加，[math]y[/math]也增加。这种关系是完美的，因为[math]x[/math]的增加''总是''伴随着[math]y[/math]的增加。这意味着我们有一个完美的等级相关，Spearman和Kendall的相关系数都是1，而在这个例子中Pearson乘积矩相关系数是0.7544，表明这些点远未落在一条直线上。同样地，如果[math]y[/math]在[math]x[/math]''增加''时总是''减少''，等级相关系数将是-1，而Pearson乘积矩相关系数可能接近于-1也可能不接近，这取决于这些点与直线的接近程度。尽管在完美等级相关的极端情况下，两个系数都是相等的（都是+1或都是-1），但通常情况并非如此，因此两个系数的值不能有意义地进行比较。<ref name="Yule and Kendall"/>例如，对于三对数字(1, 1) (2, 3) (3, 2)，Spearman系数是1/2，而Kendall系数是 1/3。

=='''随机变量间的其他依赖性度量'''==
{{See also|Pearson product-moment correlation coefficient#Variants}}

相关系数给出的信息不足以定义随机变量之间的依赖结构。<ref name="wilmottM.com">{{cite journal|author=Mahdavi Damghani B.|title=推断相关的非误导价值：对Cointelation模型的介绍|journal=Wilmott Magazine|volume=2013|issue=67|pages=50–61|year=2013|doi=10.1002/wilm.10252 }}</ref>在非常特殊的情况下，相关系数完全定义了依赖结构，例如当分布是[[multivariate normal distribution]]。（见上图。）在[[elliptical distribution]]的情况下，它描述了等密度的（超）椭圆；然而，它并未完全描述依赖结构（例如，[[multivariate t-distribution]]的自由度决定了尾部依赖的级别）。

[[Distance correlation]]<ref>{{cite journal | last1 = Székely | first1 = G. J. Rizzo | last2 = Bakirov | first2 = N. K. | year = 2007 | title = 通过距离的相关性测量和测试独立性 | journal = [[Annals of Statistics]] | volume = 35 | issue = 6| pages = 2769–2794 | doi = 10.1214/009053607000000505 | arxiv = 0803.4101 | s2cid = 5661488 }}</ref><ref>{{cite journal | last1 = Székely | first1 = G. J. | last2 = Rizzo | first2 = M. L. | year = 2009 | title = 布朗距离协方差 | journal = Annals of Applied Statistics | volume = 3 | issue = 4| pages = 1233–1303 | doi = 10.1214/09-AOAS312 | pmid = 20574547 | pmc = 2889501 | arxiv = 1010.0297 }}</ref>被引入是为了解决Pearson相关性的不足，即它对于依赖的随机变量可能为零；零距离相关意味着独立性。

随机依赖系数<ref>Lopez-Paz D.和Hennig P.以及Schölkopf B. (2013)。"随机依赖系数"，"[[Conference on Neural Information Processing Systems]]" [重印]</ref>是一种基于[[Copula (probability theory)|copula]]的多变量随机变量之间的依赖度量，计算效率高。RDC对随机变量的非线性缩放是不变的，能够发现广泛的功能关联模式，并在独立时取值为零。

对于两个[[binary data|二进制变量]]，[[odds ratio]]测量它们的依赖性，并取非负数范围，可能为无穷大：{{tmath|[0, +\infty]}}。相关的统计量如[[Yule's Y|Yule的''Y'']]和[[Yule's Q|Yule的''Q'']]将这个规范化到类似相关性的范围{{tmath|[-1, 1]}}。几率比通过[[logistic regression|逻辑模型]]被推广，以模拟依赖变量是离散的情况，并且可能有一个或多个独立变量。

[[correlation ratio]]，基于[[Entropy (information theory)|熵]]的[[mutual information]]，[[total correlation]]，[[dual total correlation]]和[[polychoric correlation]]都能够检测更一般的依赖性，考虑它们之间的[[copula (statistics)|copula]]也是如此，而[[coefficient of determination]]将相关系数推广到[[multiple regression]]。

=='''对数据分布的敏感性'''==
{{Further|Pearson product-moment correlation coefficient#Sensitivity to the data distribution}}

变量{{mvar|X}}与{{mvar|Y}}之间的依赖程度并不取决于变量表达的尺度。也就是说，如果我们正在分析{{mvar|X}}与{{mvar|Y}}之间的关系，大多数相关性测量不受将{{mvar|X}}转换为[math]a + bX[/math]和将{{mvar|Y}}转换为[math]c + dY[/math]的影响，其中a、b、c和d是常数（b和d为正）。这一点对于一些相关性[[statistic]]以及它们的[[Population (statistics)|population]]类比都是成立的。某些相关统计量，如秩相关系数，也对{{mvar|X}}和/或{{mvar|Y}}的边缘分布的[[monotone function|单调变换]]保持不变。

[[File:correlation range dependence.svg|300px|right|thumb|[[Pearson product moment correlation coefficient|Pearson]]/[[Spearman's rank correlation coefficient|Spearman]] 关于{{mvar|X}}与{{mvar|Y}}的相关系数，展示了当两个变量的范围不受限制时，以及{{mvar|X}}的范围限制在（0,1）区间时的情况。]]大多数相关度量对于{{mvar|X}}和{{mvar|Y}}的采样方式都是敏感的。如果在更广范围的值上观察，依赖性往往会更强。因此，如果我们考虑所有成年男性中父亲和他们儿子的身高之间的相关系数，并将其与仅选择身高在165厘米到170厘米之间的父亲计算的同一相关系数比较，后一种情况下的相关性会更弱。已经开发了几种技术试图纠正一个或两个变量的范围限制，并且这些技术通常用于元分析；最常见的是Thorndike的第二种情形和第三种情形方程。<ref>{{cite book|last=Thorndike|first=Robert Ladd|title=Research problems and techniques (Report No. 3)|year=1947|publisher=US Govt. print. off.|location=Washington DC}}</ref>

某些相关度量在特定的{{mvar|X}}和{{mvar|Y}}的联合分布下可能是未定义的。例如，Pearson相关系数是基于[[moment (mathematics)|矩]]定义的，因此如果矩未定义，则该相关系数将是未定义的。基于[[quantile]]的依赖度量总是有定义的。旨在估计人口依赖度量的基于样本的统计量可能具有也可能不具有诸如无偏或[[consistent estimator|渐近一致]]等理想的统计属性，这取决于数据样本的空间结构。

对数据分布的敏感性可以被用作优势。例如，[[scaled correlation]]旨在利用对范围的敏感性来挑选出时间序列快速组成部分之间的相关性。<ref name = "Nikolicetal">{{cite journal | last1 = Nikolić | first1 = D | last2 = Muresan | first2 = RC | last3 = Feng | first3 = W | last4 = Singer | first4 = W | year = 2012 | title = Scaled correlation analysis: a better way to compute a cross-correlogram | journal = European Journal of Neuroscience | volume = 35| issue = 5| pages = 1–21 | doi = 10.1111/j.1460-9568.2011.07987.x | pmid = 22324876 | s2cid = 4694570 }}</ref>通过以受控方式减少值的范围，过滤掉长时间尺度上的相关性，仅揭示短时间尺度上的相关性。

=='''相关性矩阵'''==

[math]n[/math]个随机变量[math]X_1,\ldots,X_n[/math]的相关性矩阵是[math]n \times n[/math]矩阵[math]C[/math]，其[math](i,j)[/math]项为
:[math]c_{ij}:=\operatorname{corr}(X_i,X_j)=\frac{\operatorname{cov}(X_i,X_j)}{\sigma_{X_i}\sigma_{X_j}},\quad \text{if}\ \sigma_{X_i}\sigma_{X_j}>0.[/math]
因此，对角线项全都是[[unity (number)|一]]。如果使用的相关度量是乘积矩相关系数，那么相关性矩阵与[[standardized variable|标准化随机变量]][math]X_i / \sigma(X_i)[/math]的[[covariance matrix|协方差矩阵]]相同，适用于人口相关矩阵（在这种情况下[math]\sigma[/math]是人口标准差）和样本相关矩阵（在这种情况下[math]\sigma[/math]表示样本标准差）。因此，每一个都必然是[[positive-semidefinite matrix|半正定矩阵]]。此外，如果没有任何变量可以完全通过其他变量的值的线性函数生成其所有值，则相关矩阵严格是[[positive definite matrix|正定矩阵]]。

相关性矩阵是对称的，因为[math]X_i[/math]与[math]X_j[/math]之间的相关性与[math]X_j[/math]与[math]X_i[/math]之间的相关性相同。

相关性矩阵出现在多个公式中，例如，在[[coefficient of multiple determination#Computation|多重决定系数]]的一个公式中，这是一个衡量[[multiple regression|多元回归]]拟合优度的指标。

在[[statistical modelling|统计建模]]中，代表变量之间关系的相关性矩阵被分类为不同的相关结构，这些结构通过估计它们所需的参数数量等因素进行区分。例如，在一个[[Exchangeability|可交换性]]相关矩阵中，所有变量对被建模为具有相同的相关性，因此矩阵的所有非对角线元素彼此相等。另一方面，当变量代表时间序列时，通常使用[[Autoregressive model|自回归]]矩阵，因为测量值时间上越接近，它们的相关性可能越大。其他例子包括独立、无结构、M-依赖和Toeplitz结构。

在[[exploratory data analysis|探索性数据分析]]中，[[iconography of correlations|相关性图标法]]包括用图表替换相关性矩阵，其中“显著”的相关性用实线（正相关）或虚线（负相关）表示。

===最接近的有效相关矩阵===
在一些应用中（例如，仅从部分观测数据构建数据模型），人们希望找到一个“最接近”的相关矩阵到一个“近似”的相关矩阵（例如，一个通常因计算方式而缺乏半正定性的矩阵）。

2002年，Higham<ref>{{cite journal|title=计算最接近的相关矩阵——来自金融的问题|journal=IMA数值分析杂志|date=2002|first=Nicholas J.|last=Higham|volume=22|issue=3|pages=329–343|doi=10.1093/imanum/22.3.329|citeseerx=10.1.1.661.2180}}</ref>使用[[Frobenius范数]]明确了近似的概念，并提供了一种使用[[Dykstra的投影算法]]计算最接近的相关矩阵的方法，该方法的实现可作为在线Web API使用。<ref>{{Cite web|url=https://portfoliooptimizer.io/|title=投资组合优化器|website=portfoliooptimizer.io|access-date=2021-01-30}}</ref>

这激发了对该主题的兴趣，随后几年中获得了新的理论（例如，计算具有因子结构的最接近的相关矩阵<ref>{{cite journal|title=计算具有因子结构的最接近的相关矩阵。|journal= SIAM J.矩阵分析及应用。|date=2010|first1=Rudiger|last1=Borsdorf|first2=Nicholas J.|last2=Higham|first3=Marcos|last3=Raydan|volume=31|issue=5|pages=2603–2622|doi=10.1137/090776718|url= http://eprints.maths.manchester.ac.uk/1523/1/SML002603.pdf}}</ref>）和数值（例如，使用[[牛顿法]]计算最接近的相关矩阵<ref>{{cite journal|title=一种用于计算最接近相关矩阵的二次收敛牛顿方法。|journal= SIAM J.矩阵分析及应用。|date=2006|first1=HOUDUO|last1=Qi|first2=DEFENG|last2=Sun|volume=28|issue=2|pages=360–385|doi=10.1137/050624509}}</ref>）结果。

=='''随机过程的不相关性和独立性'''==
同样对于两个随机过程[math]\left\{ X_t \right\}_{t\in\mathcal{T}}[/math]和[math]\left\{ Y_t \right\}_{t\in\mathcal{T}}[/math]：如果它们是独立的，那么它们是不相关的。<ref name=KunIlPark>{{cite book | author=Park, Kun Il| title=概率论与随机过程基础及其在通信中的应用| publisher=Springer | year=2018 | isbn=978-3-319-68074-3}}</ref>{{rp|p. 151}}这个陈述的反面可能不成立。即使两个变量是不相关的，它们也可能不是彼此独立的。

=='''常见误解'''==

===相关性与因果关系===
{{Main|相关性不意味着因果关系}} {{See also|正态分布且不相关不意味着独立}}
传统的格言“[[相关性不意味着因果关系]]”意味着相关性本身不能用来推断变量之间的因果关系。<ref>{{cite journal | last=Aldrich | first=John | journal=统计科学 | volume=10 | issue=4 | year=1995 | pages=364–376 | title=皮尔森和尤尔的真实与伪造的相关性 | jstor=2246135 | doi=10.1214/ss/1177009870| doi-access=free }}</ref> 这一格言不应被理解为相关性不能指示因果关系的潜在存在。然而，如果有的话，相关性背后的原因可能是间接的和未知的，且高相关性也与[[身份(数学)|身份]]关系（[[重言式(逻辑)|重言式]]）重叠，在那里不存在因果过程。因此，两个变量之间的相关性不是建立因果关系（无论哪个方向）的充分条件。

儿童的年龄和身高之间的相关性相当因果透明，但人们的心情和健康之间的相关性就不那么明显了。是改善心情导致健康改善，还是良好的健康导致心情好，或者两者都有？或者是某些其他因素同时影响两者？换句话说，相关性可以作为可能因果关系的证据，但不能指示因果关系（如果有的话）可能是什么。

=== 简单线性相关性 ===

[[File:Anscombe's quartet 3.svg|thumb|325px|right|[[Anscombe四重奏]]：四组数据具有相同的相关性0.816]]
皮尔森相关系数指示两个变量之间“线性”关系的强度，但其值通常不完全表征它们的关系。<ref>{{cite journal |first=Babak |last=Mahdavi Damghani |year=2012|title=测量相关性的误导性价值 |journal=[[Wilmott (magazine)|Wilmott 杂志]] |volume=2012 |issue=1 |pages=64–73 |doi=10.1002/wilm.10167|s2cid=154550363 }}</ref> 特别是，如果给定[math]X[/math]的[math]Y[/math]的[[条件期望|条件平均值]]，表示为[math]\operatorname{E}(Y \mid X)[/math]，不是[math]X[/math]的线性，则相关系数将无法完全确定[math]\operatorname{E}(Y \mid X)[/math]的形式。

相邻图像显示了[[散点图]]中的[[Anscombe四重奏]]，一组由[[Francis Anscombe]]创建的四对不同变量。<ref>{{cite journal | last=Anscombe | first=Francis J. | year=1973 | title=统计分析中的图表 | journal=美国统计学家 | volume=27 | issue=1 | pages=17–21 | jstor=2682899 | doi=10.2307/2682899}}</ref> 这四个[math]y[/math]变量具有相同的平均值（7.5），方差（4.12），相关性（0.816）和回归线（[math display="inline"]y=3+0.5x[/math]）。然而，如图所示，变量的分布非常不同。第一个（左上）似乎正态分布，符合考虑两个变量相关且假设正态性时的预期。第二个（右上）不是正态分布；尽管可以观察到两个变量之间明显的关系，但它不是线性的。在这种情况下，皮尔森相关系数不表明存在确切的函数关系：只是该关系可以被线性关系近似的程度。在第三种情况（左下），线性关系是完美的，除了一个[[离群值]]足以将相关系数从1降低到0.816。最后，第四个例子（右下）显示了另一个例子，当一个离群值足以产生高相关系数时，尽管两个变量之间的关系不是线性的。

这些例子表明，作为[[汇总统计量]]的相关系数不能替代数据的视觉检查。有时候这些例子被认为证明了皮尔森相关假设数据遵循[[正态分布]]，但这只是部分正确。<ref name="thirteenways"/> 皮尔森相关可以准确地计算任何具有有限[[协方差矩阵]]的分布，这包括实践中遇到的大多数分布。然而，如果数据来自[[多变量正态分布]]，皮尔森相关系数（连同样本均值和方差）才是一个[[充分统计量]]。因此，只有当数据来源于多变量正态分布时，皮尔逊相关系数才能完全表征变量之间的关系。

==双变量正态分布==
如果一对随机变量[math]\ (X,Y)\ [/math]遵循[[bivariate normal distribution|双变量正态分布]]，则条件均值[math]\mathcal{E}(X \mid Y)[/math]是[math]Y[/math]的线性函数，而条件均值[math]\mathcal{E}(Y \mid X)[/math]是[math]\ X\ [/math]的线性函数。变量[math]\ X\ [/math]和[math]\ Y\ [/math]之间的相关系数[math]\ \rho_{X,Y}\ [/math]，以及[math]\ X\ [/math]和[math]\ Y\ [/math]的[[Marginal distribution|边际]]均值和方差决定了这种线性关系：

:[math]\mathcal{E}(Y \mid X ) = \mathcal{E}(Y) + \rho_{X,Y} \cdot \sigma_Y \cdot \frac{\ X-\mathcal{E}(X)\ }{ \sigma_X }\ ,[/math]

其中，[math]\mathcal{E}(X)[/math]和[math]\mathcal{E}(Y)[/math]分别是[math]\ X\ [/math]和[math]\ Y\ [/math]的期望值，[math]\ \sigma_X\ [/math]和[math]\ \sigma_Y\ [/math]分别是[math]\ X\ [/math]和[math]\ Y\ [/math]的标准差。

经验相关系数[math]r[/math]是相关系数[math]\ \rho\ [/math]的[[Estimation|估计]]。对[math]\ \rho\ [/math]的分布估计由下式给出：

[math]\pi(\rho \mid r)=\frac{\Gamma(N)}{\sqrt{2 \pi} \cdot \Gamma\left(N-\frac{1}{2}\right)} \cdot\left(1-r^{2}\right)^{\frac{N-2}{2}} \cdot\left(1-\rho^{2}\right)^{\frac{N-3}{2}} \cdot(1-r \rho)^{-N+\frac{3}{2}} \cdot F_{\text {Hyp }}\left(\frac{3}{2},-\frac{1}{2} ; N-\frac{1}{2} ; \frac{1+r \rho}{2}\right)[/math]

其中[math]\ F_\mathsf{Hyp} \ [/math]是[[Gaussian hypergeometric function|高斯超几何函数]]。

这个密度既是贝叶斯[[posterior probability|后验]]密度，也是一个精确的最优[[confidence distribution|置信分布]]密度。<ref>{{cite journal |last=Taraldsen |first=Gunnar |date=2021 |title=The confidence density for correlation |journal=Sankhya A |volume=85 |pages=600–616 |lang=en |s2cid=244594067 |issn=0976-8378 |doi=10.1007/s13171-021-00267-y |doi-access=free}}</ref><ref>{{cite report |last=Taraldsen |first=Gunnar |date=2020 |title=Confidence in correlation |lang=en |type=preprint |doi=10.13140/RG.2.2.23673.49769 |website=researchgate.net |url=http://rgdoi.net/10.13140/RG.2.2.23673.49769}}</ref>

== '''节点使用的R语言示例代码''' ==
=== 一般线性相关分析 ===
<syntaxhighlight lang="R">

cor.test(x, ...)

</syntaxhighlight>

== '''节点使用指南''' ==
* 研究两个或多个变量之间的线性关系的程度
* 计算相关系数
* 相关系数的值介于-1（完全负相关）和+1（完全正相关）之间，0表示没有线性关系

=== 方法选择 ===
* Pearson：评估两个定量变量之间的线性关系程度，数据应为连续的，服从正态分布，线性关系，变量之间的关系应具有相同的方差（即同方差性）
* Spearman：评估两个变量之间的单调关系，用于定序数据或不满足皮尔逊相关系数正态分布的连续数据，不要求数据服从正态分布，不要求变量之间的关系是线性
* Kendall：评估两组等级数据之间关系的强度和方向，适用于小样本大小或定序数据，不要求数据服从正态分布，测量变量之间的相关性，但不一定是线性的

=== 参数配置 ===
* 统计变量1：选择数值变量，必须是continue类型变量。如果不是，需要进行变量类型转换
* 统计变量2：选择一个或多个数值变量，必须是continue类型变量。如果不是，需要进行变量类型转换。每个变量将与变量1做一次线性相关分析
* 选择方法：Pearson，Spearman，Kendall
* 置信区间百分比：输入百分比，95%置信区间就是0.95
* 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 相关不等于因果。即使两个变量之间存在强相关，也不能推断出一个变量导致另一个变量变化
* 相关系数仅测量变量之间的线性关系。如果关系是非线性的，相关系数可能低估或高估其关系的强度

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:相关分析]]

一般线性相关分析

2024-02-09T08:45:23Z

RainW：

{{Infobox nodebasic
|nodename=一般线性相关分析
|nodeimage=Linear Correlation Analysis.png
|icon=Linear Correlation Analysis.svg
|simpleicon=Linear Correlation Analysis_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Linear Correlation Analysis
|abbreviation=LinCA
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::相关分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=一般线性相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。变量之间的关系可以分为确定关系和非确定性关系。确定性关系，可以说是函数关系，也就是说对于某一变量的每个数值都有另一变量的完全确定的值与之对应。非确定性关系，即这里所说的相关关系，变量之间存在一定的依存关系，但不是一一对应的关系，即相随变动关系。此相关分析使用的方法有: pearson, spearman, 和kendall。用途：用于衡量两个或多个变量间的线性关系强度和方向。检测两个连续变量之间是否存在线性关系的常用方法。参数：选择数值变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=NotSplittingPointPlot
|nodeavailabletablelist=t-Value;df;P-Value;CI;Cor-Value
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/一般线性相关分析
|previousnode=[[Two_Way_ANCOVA]]
|nextnode=[[典型相关分析]]
}}

在[[统计学]]中，'''相关性'''或'''依赖性'''是指两个[[随机变量]]或[[双变量数据]]之间，无论是否具有[[因果性|因果关系]]，存在的任何统计关系。尽管在最广泛的意义上，“相关性”可能表示任何类型的关联，在统计学中它通常指的是一对变量“[[线性几何|线性地]]”相关的程度。

熟悉的依赖现象示例包括[[人类身高|父母身高]]与其后代之间的相关性，以及商品价格与消费者愿意购买的数量之间的相关性，正如所谓的[[需求曲线]]所描绘的。

相关性之所以有用，是因为它们可以指示一种可以在实践中利用的预测关系。例如，一个电力公司可能会根据电力需求与天气之间的相关性，在温和的日子里生产较少的电力。在这个例子中，存在一个[[因果性|因果关系]]，因为[[极端天气]]导致人们使用更多的电力进行加热或冷却。然而，一般来说，相关性的存在不足以推断出因果关系的存在（即[[相关性不等于因果性]]）。

从正式的角度来说，如果随机变量不满足[[独立性（概率论）|概率独立性]]的数学属性，则它们是“依赖”的。在非正式用语中，“相关性”与“依赖性”同义。然而，当在技术意义上使用时，相关性指的是[[条件期望|被测试变量及其各自的预期值]]之间的几种特定类型的数学操作之一。本质上，相关性是衡量两个或多个变量之间关系的度量。有几种[[相关系数]]，通常用[math]\rho[/math]或[math]r[/math]表示，用于测量相关程度。其中最常见的是“[[皮尔逊积矩相关系数|皮尔逊相关系数]]”，它只对两个变量之间的线性关系敏感（即使当其中一个变量是另一个变量的非线性函数时也可能存在）。其他的相关系数——如“[[斯皮尔曼等级相关系数|斯皮尔曼等级相关]]”——已被开发出来，比皮尔逊的更[[稳健统计|稳健]]，即对非线性关系更敏感。<ref>Croxton, Frederick Emory; Cowden, Dudley Johnstone; Klein, Sidney (1968) ''Applied General Statistics'', Pitman. {{ISBN|9780273403159}} (page 625)</ref><ref>Dietrich, Cornelius Frank (1991) ''Uncertainty, Calibration and Probability: The Statistics of Scientific and Industrial Measurement'' 2nd Edition, A. Higler. {{ISBN|9780750300605}} (Page 331)</ref><ref>Aitken, Alexander Craig (1957) ''Statistical Mathematics'' 8th Edition. Oliver & Boyd. {{ISBN|9780050013007}} (Page 95)</ref> [[互信息]]也可以用来衡量两个变量之间的依赖性。

=='''皮尔逊积矩系数'''==
{{Main|皮尔逊积矩相关系数}}
[[File:Pearson Correlation Coefficient and associated scatterplots.png|thumb|各种数据集与各种相关系数的示例散点图。]]

两个数量之间依赖性的最熟悉度量是[[皮尔逊积矩相关系数]]（PPMCC），或称“皮尔逊相关系数”，通常简称为“相关系数”。它是通过取我们数值数据集中两个变量的协方差与它们方差的平方根的比值得到的。数学上，简单地将两个变量的[[协方差]]除以它们的[[标准差]]的乘积。[[卡尔·皮尔逊]]根据[[弗朗西斯·高尔顿]]的一个类似但略有不同的想法开发了这个系数。<ref name="thirteenways">{{cite journal | last1 = Rodgers | first1 = J. L. | last2 = Nicewander | first2 = W. A. | year = 1988 | title = Thirteen ways to look at the correlation coefficient | journal = The American Statistician | volume = 42 | issue = 1| pages = 59–66 | jstor=2685263 | doi=10.1080/00031305.1988.10475524}}</ref>

皮尔逊积矩相关系数试图通过基本上布置预期值并通过数据集的两个变量建立一条最佳拟合线，而得出的皮尔逊相关系数指示实际数据集与预期值的偏离程度。根据我们的皮尔逊相关系数的符号，如果数据集的变量之间存在任何类型的关系，我们可以得到负相关或正相关。{{cn|date=2023年11月}}

两个[[随机变量]][math]X[/math]和[math]Y[/math]之间的总体相关系数[math]\rho_{X,Y}[/math]，它们的[[期望值]]分别为[math]\mu_X[/math]和[math]\mu_Y[/math]，[[标准差]]分别为[math]\sigma_X[/math]和[math]\sigma_Y[/math]，定义为：

[math]\rho_{X,Y} = \operatorname{corr}(X,Y) = {\operatorname{cov}(X,Y) \over \sigma_X \sigma_Y} = {\operatorname{E}[(X-\mu_X)(Y-\mu_Y)] \over \sigma_X\sigma_Y}, \quad \text{if}\ \sigma_{X}\sigma_{Y}>0.[/math]

其中[math]\operatorname{E}[/math]是[[期望值]]运算符，[math]\operatorname{cov}[/math]表示[[协方差]]，而[math]\operatorname{corr}[/math]是相关系数的广泛使用的替代符号。只有当两个标准差都是有限且正的，皮尔逊相关才有定义。纯粹用[[矩（数学）|矩]]的术语表示的另一公式是：

[math]\rho_{X,Y} = {\operatorname{E}(XY)-\operatorname{E}(X)\operatorname{E}(Y)\over \sqrt{\operatorname{E}(X^2)-\operatorname{E}(X)^2}\cdot \sqrt{\operatorname{E}(Y^2)-\operatorname{E}(Y)^2} }[/math]

===相关性与独立性===
[[Cauchy–Schwarz不等式]]的一个推论是，皮尔逊相关系数的[[绝对值]]不大于1。因此，相关系数的值在-1和+1之间变化。在完美直接（增加）线性关系（相关性）的情况下，相关系数为+1，在完美逆（减少）线性关系（'''反相关'''）的情况下，相关系数为-1<ref>Dowdy, S. 和 Wearden, S. (1983). "Statistics for Research", Wiley. {{ISBN|0-471-08602-9}} 页 230</ref>，在所有其他情况下，其值在[math](-1,1)[/math]的[[开区间]]内，指示变量之间的[[线性依赖]]程度。当它接近零时，关系较小（更接近于不相关）。系数越接近-1或1，变量之间的相关性越强。

如果变量是[[统计独立|独立的]]，皮尔逊相关系数为0，但反之则不成立，因为相关系数只能检测两个变量之间的线性依赖。简单来说，如果两个随机变量X和Y是独立的，则它们是不相关的，但如果两个随机变量是不相关的，那么它们可能是独立的，也可能不是独立的。

[math]\begin{align}
X,Y \text{ 独立} \quad & \Rightarrow \quad \rho_{X,Y} = 0 \quad (X,Y \text{ 不相关})\\
\rho_{X,Y} = 0 \quad (X,Y \text{ 不相关})\quad & \nRightarrow \quad X,Y \text{ 独立}
\end{align}[/math]

例如，假设随机变量[math]X[/math]关于零对称分布，且[math]Y=X^2[/math]。那么[math]Y[/math]完全由[math]X[/math]决定，因此[math]X[/math]和[math]Y[/math]是完全依赖的，但它们的相关性为零；它们是[[不相关]]的。然而，在特殊情况下，当[math]X[/math]和[math]Y[/math]是[[联合正态|联合正态分布]]时，不相关性等同于独立性。

尽管不相关数据不一定意味着独立性，但如果随机变量的[[互信息]]为0，可以检查随机变量是否独立。

===样本相关系数===
给定一系列[math]n[/math]次对[math](X_i,Y_i)[/math]的测量，由[math]i=1,\ldots,n[/math]索引，''样本相关系数''可用于估计[math]X[/math]和[math]Y[/math]之间的群体皮尔逊相关[math]\rho_{X,Y}[/math]。样本相关系数定义为

:[math]r_{xy} \quad \overset{\underset{\mathrm{def}}{}}{=} \quad \frac{\sum\limits_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{(n-1)s_x s_y}
=\frac{\sum\limits_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}
{\sqrt{\sum\limits_{i=1}^n (x_i-\bar{x})^2 \sum\limits_{i=1}^n (y_i-\bar{y})^2}},[/math]

其中[math]\overline{x}[/math]和[math]\overline{y}[/math]是[math]X[/math]和[math]Y[/math]的样本[[算术平均|平均值]]，[math]s_x[/math]和[math]s_y[/math]是[math]X[/math]和[math]Y[/math]的[[标准差#校正样本标准差|校正样本标准差]]。

[math]r_{xy}[/math]的等价表达式是
:[math]\begin{align}
r_{xy} &=\frac{\sum x_iy_i-n \bar{x} \bar{y}}{n s'_x s'_y} \\[5pt]
&=\frac{n\sum x_iy_i-\sum x_i\sum y_i}{\sqrt{n\sum x_i^2-(\sum x_i)^2}~\sqrt{n\sum y_i^2-(\sum y_i)^2}}.
\end{align}[/math]

其中[math]s'_x[/math]和[math]s'_y[/math]是[math]X[/math]和[math]Y[/math]的[[标准差#未校正样本标准差|''未校正''样本标准差]]。

如果[math]x[/math]和[math]y[/math]是包含测量误差的测量结果，则相关系数的实际限制不是-1到+1，而是一个更小的范围。<ref>{{cite journal|last=Francis|first=DP|author2=Coats AJ|author3=Gibson D|title=How high can a correlation coefficient be?|journal=Int J Cardiol|year=1999|volume=69|pages=185–199|doi=10.1016/S0167-5273(99)00028-5|issue=2|pmid=10549842}}</ref> 对于具有单一独立变量的线性模型情况，[[决定系数|决定系数（R平方）]]是[math]r_{xy}[/math]，皮尔逊乘积矩系数的平方。

=='''例子'''==
考虑下表中给出的{{mvar|X}}和{{mvar|Y}}的[[联合概率分布]]。

:{| class="wikitable" style="text-align:center;"
|+ [math]\mathrm{P}(X=x,Y=y)[/math]
! {{diagonal split header|{{mvar|x}}|{{mvar|y}}}}
!−1
!0
!1
|-
!0
|0
|{{sfrac|1|3}}
|0
|-
!1
|{{sfrac|1|3}}
|0
|{{sfrac|1|3}}
|}

对于这个联合分布，[[边缘分布]]是：
:[math]\mathrm{P}(X=x)=
\begin{cases}
\frac 1 3 & \quad \text{对 } x=0 \\
\frac 2 3 & \quad \text{对 } x=1
\end{cases}
[/math]

:[math]\mathrm{P}(Y=y)=
\begin{cases}
\frac 1 3 & \quad \text{对 } y=-1 \\
\frac 1 3 & \quad \text{对 } y=0 \\
\frac 1 3 & \quad \text{对 } y=1
\end{cases}
[/math]

这产生了以下期望和方差：
:[math]\mu_X = \frac 2 3[/math]
:[math]\mu_Y = 0[/math]
:[math]\sigma_X^2 = \frac 2 9[/math]
:[math]\sigma_Y^2 = \frac 2 3[/math]

因此：

: [math]
\begin{align}
\rho_{X,Y} & = \frac{1}{\sigma_X \sigma_Y} \mathrm{E}[(X-\mu_X)(Y-\mu_Y)] \\[5pt]
& = \frac{1}{\sigma_X \sigma_Y} \sum_{x,y}{(x-\mu_X)(y-\mu_Y) \mathrm{P}(X=x,Y=y)} \\[5pt]
& = \left(1-\frac 2 3\right)(-1-0)\frac{1}{3} + \left(0-\frac 2 3\right)(0-0)\frac{1}{3} + \left(1-\frac 2 3\right)(1-0)\frac{1}{3} = 0.
\end{align}
[/math]

=='''等级相关系数'''==
{{Main|Spearman's rank correlation coefficient|Kendall tau rank correlation coefficient}}

[[Rank correlation]]系数，如[[Spearman's rank correlation coefficient]]和[[Kendall's tau|Kendall等级相关系数(τ)]]，衡量的是随着一个变量的增加，另一个变量倾向于增加的程度，而不要求这种增加必须通过线性关系来表示。如果随着一个变量的增加，另一个变量''减少''，那么等级相关系数将是负数。通常认为这些等级相关系数是Pearson系数的替代品，用来减少计算量或使系数对分布的非正态性不那么敏感。然而，这种观点在数学上几乎没有依据，因为等级相关系数衡量的是与[[Pearson product-moment correlation coefficient]]不同类型的关系，并且最好被视为不同类型的关联度量，而不是人口相关系数的另一种度量。<ref name="Yule and Kendall">Yule, G.U和Kendall, M.G. (1950),《统计理论导论》，第14版（第5次印刷1968）。Charles Griffin & Co. 页258–270</ref><ref name="Kendall Rank Correlation Methods">Kendall, M. G. (1955) "Rank Correlation Methods", Charles Griffin & Co.</ref>

为了说明等级相关的性质及其与线性相关的区别，请考虑以下四对数字[math](x,y)[/math]：

:(0, 1), (10, 100), (101, 500), (102, 2000).

当我们从每一对数字过渡到下一对时，[math]x[/math]增加，[math]y[/math]也增加。这种关系是完美的，因为[math]x[/math]的增加''总是''伴随着[math]y[/math]的增加。这意味着我们有一个完美的等级相关，Spearman和Kendall的相关系数都是1，而在这个例子中Pearson乘积矩相关系数是0.7544，表明这些点远未落在一条直线上。同样地，如果[math]y[/math]在[math]x[/math]''增加''时总是''减少''，等级相关系数将是-1，而Pearson乘积矩相关系数可能接近于-1也可能不接近，这取决于这些点与直线的接近程度。尽管在完美等级相关的极端情况下，两个系数都是相等的（都是+1或都是-1），但通常情况并非如此，因此两个系数的值不能有意义地进行比较。<ref name="Yule and Kendall"/>例如，对于三对数字(1, 1) (2, 3) (3, 2)，Spearman系数是1/2，而Kendall系数是 1/3。

=='''随机变量间的其他依赖性度量'''==
{{See also|Pearson product-moment correlation coefficient#Variants}}

相关系数给出的信息不足以定义随机变量之间的依赖结构。<ref name="wilmottM.com">{{cite journal|author=Mahdavi Damghani B.|title=推断相关的非误导价值：对Cointelation模型的介绍|journal=Wilmott Magazine|volume=2013|issue=67|pages=50–61|year=2013|doi=10.1002/wilm.10252 }}</ref>在非常特殊的情况下，相关系数完全定义了依赖结构，例如当分布是[[multivariate normal distribution]]。（见上图。）在[[elliptical distribution]]的情况下，它描述了等密度的（超）椭圆；然而，它并未完全描述依赖结构（例如，[[multivariate t-distribution]]的自由度决定了尾部依赖的级别）。

[[Distance correlation]]<ref>{{cite journal | last1 = Székely | first1 = G. J. Rizzo | last2 = Bakirov | first2 = N. K. | year = 2007 | title = 通过距离的相关性测量和测试独立性 | journal = [[Annals of Statistics]] | volume = 35 | issue = 6| pages = 2769–2794 | doi = 10.1214/009053607000000505 | arxiv = 0803.4101 | s2cid = 5661488 }}</ref><ref>{{cite journal | last1 = Székely | first1 = G. J. | last2 = Rizzo | first2 = M. L. | year = 2009 | title = 布朗距离协方差 | journal = Annals of Applied Statistics | volume = 3 | issue = 4| pages = 1233–1303 | doi = 10.1214/09-AOAS312 | pmid = 20574547 | pmc = 2889501 | arxiv = 1010.0297 }}</ref>被引入是为了解决Pearson相关性的不足，即它对于依赖的随机变量可能为零；零距离相关意味着独立性。

随机依赖系数<ref>Lopez-Paz D.和Hennig P.以及Schölkopf B. (2013)。"随机依赖系数"，"[[Conference on Neural Information Processing Systems]]" [重印]</ref>是一种基于[[Copula (probability theory)|copula]]的多变量随机变量之间的依赖度量，计算效率高。RDC对随机变量的非线性缩放是不变的，能够发现广泛的功能关联模式，并在独立时取值为零。

对于两个[[binary data|二进制变量]]，[[odds ratio]]测量它们的依赖性，并取非负数范围，可能为无穷大：{{tmath|[0, +\infty]}}。相关的统计量如[[Yule's Y|Yule的''Y'']]和[[Yule's Q|Yule的''Q'']]将这个规范化到类似相关性的范围{{tmath|[-1, 1]}}。几率比通过[[logistic regression|逻辑模型]]被推广，以模拟依赖变量是离散的情况，并且可能有一个或多个独立变量。

[[correlation ratio]]，基于[[Entropy (information theory)|熵]]的[[mutual information]]，[[total correlation]]，[[dual total correlation]]和[[polychoric correlation]]都能够检测更一般的依赖性，考虑它们之间的[[copula (statistics)|copula]]也是如此，而[[coefficient of determination]]将相关系数推广到[[multiple regression]]。

=='''对数据分布的敏感性'''==
{{Further|Pearson product-moment correlation coefficient#Sensitivity to the data distribution}}

变量{{mvar|X}}与{{mvar|Y}}之间的依赖程度并不取决于变量表达的尺度。也就是说，如果我们正在分析{{mvar|X}}与{{mvar|Y}}之间的关系，大多数相关性测量不受将{{mvar|X}}转换为[math]a + bX[/math]和将{{mvar|Y}}转换为[math]c + dY[/math]的影响，其中a、b、c和d是常数（b和d为正）。这一点对于一些相关性[[statistic]]以及它们的[[Population (statistics)|population]]类比都是成立的。某些相关统计量，如秩相关系数，也对{{mvar|X}}和/或{{mvar|Y}}的边缘分布的[[monotone function|单调变换]]保持不变。

[[File:correlation range dependence.svg|300px|right|thumb|[[Pearson product moment correlation coefficient|Pearson]]/[[Spearman's rank correlation coefficient|Spearman]] 关于{{mvar|X}}与{{mvar|Y}}的相关系数，展示了当两个变量的范围不受限制时，以及{{mvar|X}}的范围限制在（0,1）区间时的情况。]]大多数相关度量对于{{mvar|X}}和{{mvar|Y}}的采样方式都是敏感的。如果在更广范围的值上观察，依赖性往往会更强。因此，如果我们考虑所有成年男性中父亲和他们儿子的身高之间的相关系数，并将其与仅选择身高在165厘米到170厘米之间的父亲计算的同一相关系数比较，后一种情况下的相关性会更弱。已经开发了几种技术试图纠正一个或两个变量的范围限制，并且这些技术通常用于元分析；最常见的是Thorndike的第二种情形和第三种情形方程。<ref>{{cite book|last=Thorndike|first=Robert Ladd|title=Research problems and techniques (Report No. 3)|year=1947|publisher=US Govt. print. off.|location=Washington DC}}</ref>

某些相关度量在特定的{{mvar|X}}和{{mvar|Y}}的联合分布下可能是未定义的。例如，Pearson相关系数是基于[[moment (mathematics)|矩]]定义的，因此如果矩未定义，则该相关系数将是未定义的。基于[[quantile]]的依赖度量总是有定义的。旨在估计人口依赖度量的基于样本的统计量可能具有也可能不具有诸如无偏或[[consistent estimator|渐近一致]]等理想的统计属性，这取决于数据样本的空间结构。

对数据分布的敏感性可以被用作优势。例如，[[scaled correlation]]旨在利用对范围的敏感性来挑选出时间序列快速组成部分之间的相关性。<ref name = "Nikolicetal">{{cite journal | last1 = Nikolić | first1 = D | last2 = Muresan | first2 = RC | last3 = Feng | first3 = W | last4 = Singer | first4 = W | year = 2012 | title = Scaled correlation analysis: a better way to compute a cross-correlogram | journal = European Journal of Neuroscience | volume = 35| issue = 5| pages = 1–21 | doi = 10.1111/j.1460-9568.2011.07987.x | pmid = 22324876 | s2cid = 4694570 }}</ref>通过以受控方式减少值的范围，过滤掉长时间尺度上的相关性，仅揭示短时间尺度上的相关性。

=='''相关性矩阵'''==

[math]n[/math]个随机变量[math]X_1,\ldots,X_n[/math]的相关性矩阵是[math]n \times n[/math]矩阵[math]C[/math]，其[math](i,j)[/math]项为
:[math]c_{ij}:=\operatorname{corr}(X_i,X_j)=\frac{\operatorname{cov}(X_i,X_j)}{\sigma_{X_i}\sigma_{X_j}},\quad \text{if}\ \sigma_{X_i}\sigma_{X_j}>0.[/math]
因此，对角线项全都是[[unity (number)|一]]。如果使用的相关度量是乘积矩相关系数，那么相关性矩阵与[[standardized variable|标准化随机变量]][math]X_i / \sigma(X_i)[/math]的[[covariance matrix|协方差矩阵]]相同，适用于人口相关矩阵（在这种情况下[math]\sigma[/math]是人口标准差）和样本相关矩阵（在这种情况下[math]\sigma[/math]表示样本标准差）。因此，每一个都必然是[[positive-semidefinite matrix|半正定矩阵]]。此外，如果没有任何变量可以完全通过其他变量的值的线性函数生成其所有值，则相关矩阵严格是[[positive definite matrix|正定矩阵]]。

相关性矩阵是对称的，因为[math]X_i[/math]与[math]X_j[/math]之间的相关性与[math]X_j[/math]与[math]X_i[/math]之间的相关性相同。

相关性矩阵出现在多个公式中，例如，在[[coefficient of multiple determination#Computation|多重决定系数]]的一个公式中，这是一个衡量[[multiple regression|多元回归]]拟合优度的指标。

在[[statistical modelling|统计建模]]中，代表变量之间关系的相关性矩阵被分类为不同的相关结构，这些结构通过估计它们所需的参数数量等因素进行区分。例如，在一个[[Exchangeability|可交换性]]相关矩阵中，所有变量对被建模为具有相同的相关性，因此矩阵的所有非对角线元素彼此相等。另一方面，当变量代表时间序列时，通常使用[[Autoregressive model|自回归]]矩阵，因为测量值时间上越接近，它们的相关性可能越大。其他例子包括独立、无结构、M-依赖和Toeplitz结构。

在[[exploratory data analysis|探索性数据分析]]中，[[iconography of correlations|相关性图标法]]包括用图表替换相关性矩阵，其中“显著”的相关性用实线（正相关）或虚线（负相关）表示。

===最接近的有效相关矩阵===
在一些应用中（例如，仅从部分观测数据构建数据模型），人们希望找到一个“最接近”的相关矩阵到一个“近似”的相关矩阵（例如，一个通常因计算方式而缺乏半正定性的矩阵）。

2002年，Higham<ref>{{cite journal|title=计算最接近的相关矩阵——来自金融的问题|journal=IMA数值分析杂志|date=2002|first=Nicholas J.|last=Higham|volume=22|issue=3|pages=329–343|doi=10.1093/imanum/22.3.329|citeseerx=10.1.1.661.2180}}</ref>使用[[Frobenius范数]]明确了近似的概念，并提供了一种使用[[Dykstra的投影算法]]计算最接近的相关矩阵的方法，该方法的实现可作为在线Web API使用。<ref>{{Cite web|url=https://portfoliooptimizer.io/|title=投资组合优化器|website=portfoliooptimizer.io|access-date=2021-01-30}}</ref>

这激发了对该主题的兴趣，随后几年中获得了新的理论（例如，计算具有因子结构的最接近的相关矩阵<ref>{{cite journal|title=计算具有因子结构的最接近的相关矩阵。|journal= SIAM J.矩阵分析及应用。|date=2010|first1=Rudiger|last1=Borsdorf|first2=Nicholas J.|last2=Higham|first3=Marcos|last3=Raydan|volume=31|issue=5|pages=2603–2622|doi=10.1137/090776718|url= http://eprints.maths.manchester.ac.uk/1523/1/SML002603.pdf}}</ref>）和数值（例如，使用[[牛顿法]]计算最接近的相关矩阵<ref>{{cite journal|title=一种用于计算最接近相关矩阵的二次收敛牛顿方法。|journal= SIAM J.矩阵分析及应用。|date=2006|first1=HOUDUO|last1=Qi|first2=DEFENG|last2=Sun|volume=28|issue=2|pages=360–385|doi=10.1137/050624509}}</ref>）结果。

=='''随机过程的不相关性和独立性'''==
同样对于两个随机过程[math]\left\{ X_t \right\}_{t\in\mathcal{T}}[/math]和[math]\left\{ Y_t \right\}_{t\in\mathcal{T}}[/math]：如果它们是独立的，那么它们是不相关的。<ref name=KunIlPark>{{cite book | author=Park, Kun Il| title=概率论与随机过程基础及其在通信中的应用| publisher=Springer | year=2018 | isbn=978-3-319-68074-3}}</ref>{{rp|p. 151}}这个陈述的反面可能不成立。即使两个变量是不相关的，它们也可能不是彼此独立的。

=='''常见误解'''==

===相关性与因果关系===
{{Main|相关性不意味着因果关系}} {{See also|正态分布且不相关不意味着独立}}
传统的格言“[[相关性不意味着因果关系]]”意味着相关性本身不能用来推断变量之间的因果关系。<ref>{{cite journal | last=Aldrich | first=John | journal=统计科学 | volume=10 | issue=4 | year=1995 | pages=364–376 | title=皮尔森和尤尔的真实与伪造的相关性 | jstor=2246135 | doi=10.1214/ss/1177009870| doi-access=free }}</ref> 这一格言不应被理解为相关性不能指示因果关系的潜在存在。然而，如果有的话，相关性背后的原因可能是间接的和未知的，且高相关性也与[[身份(数学)|身份]]关系（[[重言式(逻辑)|重言式]]）重叠，在那里不存在因果过程。因此，两个变量之间的相关性不是建立因果关系（无论哪个方向）的充分条件。

儿童的年龄和身高之间的相关性相当因果透明，但人们的心情和健康之间的相关性就不那么明显了。是改善心情导致健康改善，还是良好的健康导致心情好，或者两者都有？或者是某些其他因素同时影响两者？换句话说，相关性可以作为可能因果关系的证据，但不能指示因果关系（如果有的话）可能是什么。

=== 简单线性相关性 ===

[[File:Anscombe's quartet 3.svg|thumb|325px|right|[[Anscombe四重奏]]：四组数据具有相同的相关性0.816]]
皮尔森相关系数指示两个变量之间“线性”关系的强度，但其值通常不完全表征它们的关系。<ref>{{cite journal |first=Babak |last=Mahdavi Damghani |year=2012|title=测量相关性的误导性价值 |journal=[[Wilmott (magazine)|Wilmott 杂志]] |volume=2012 |issue=1 |pages=64–73 |doi=10.1002/wilm.10167|s2cid=154550363 }}</ref> 特别是，如果给定[math]X[/math]的[math]Y[/math]的[[条件期望|条件平均值]]，表示为[math]\operatorname{E}(Y \mid X)[/math]，不是[math]X[/math]的线性，则相关系数将无法完全确定[math]\operatorname{E}(Y \mid X)[/math]的形式。

相邻图像显示了[[散点图]]中的[[Anscombe四重奏]]，一组由[[Francis Anscombe]]创建的四对不同变量。<ref>{{cite journal | last=Anscombe | first=Francis J. | year=1973 | title=统计分析中的图表 | journal=美国统计学家 | volume=27 | issue=1 | pages=17–21 | jstor=2682899 | doi=10.2307/2682899}}</ref> 这四个[math]y[/math]变量具有相同的平均值（7.5），方差（4.12），相关性（0.816）和回归线（[math display="inline"]y=3+0.5x[/math]）。然而，如图所示，变量的分布非常不同。第一个（左上）似乎正态分布，符合考虑两个变量相关且假设正态性时的预期。第二个（右上）不是正态分布；尽管可以观察到两个变量之间明显的关系，但它不是线性的。在这种情况下，皮尔森相关系数不表明存在确切的函数关系：只是该关系可以被线性关系近似的程度。在第三种情况（左下），线性关系是完美的，除了一个[[离群值]]足以将相关系数从1降低到0.816。最后，第四个例子（右下）显示了另一个例子，当一个离群值足以产生高相关系数时，尽管两个变量之间的关系不是线性的。

这些例子表明，作为[[汇总统计量]]的相关系数不能替代数据的视觉检查。有时候这些例子被认为证明了皮尔森相关假设数据遵循[[正态分布]]，但这只是部分正确。<ref name="thirteenways"/> 皮尔森相关可以准确地计算任何具有有限[[协方差矩阵]]的分布，这包括实践中遇到的大多数分布。然而，如果数据来自[[多变量正态分布]]，皮尔森相关系数（连同样本均值和方差）才是一个[[充分统计量]]。因此，只有当数据来源于多变量正态分布时，皮尔逊相关系数才能完全表征变量之间的关系。

==双变量正态分布==
如果一对随机变量[math]\ (X,Y)\ [/math]遵循[[bivariate normal distribution|双变量正态分布]]，则条件均值[math]\mathcal{E}(X \mid Y)[/math]是[math]Y[/math]的线性函数，而条件均值[math]\mathcal{E}(Y \mid X)[/math]是[math]\ X\ [/math]的线性函数。变量[math]\ X\ [/math]和[math]\ Y\ [/math]之间的相关系数[math]\ \rho_{X,Y}\ [/math]，以及[math]\ X\ [/math]和[math]\ Y\ [/math]的[[Marginal distribution|边际]]均值和方差决定了这种线性关系：

:[math]\mathcal{E}(Y \mid X ) = \mathcal{E}(Y) + \rho_{X,Y} \cdot \sigma_Y \cdot \frac{\ X-\mathcal{E}(X)\ }{ \sigma_X }\ ,[/math]

其中，[math]\mathcal{E}(X)[/math]和[math]\mathcal{E}(Y)[/math]分别是[math]\ X\ [/math]和[math]\ Y\ [/math]的期望值，[math]\ \sigma_X\ [/math]和[math]\ \sigma_Y\ [/math]分别是[math]\ X\ [/math]和[math]\ Y\ [/math]的标准差。

经验相关系数[math]r[/math]是相关系数[math]\ \rho\ [/math]的[[Estimation|估计]]。对[math]\ \rho\ [/math]的分布估计由下式给出：

[math]\pi(\rho \mid r)=\frac{\Gamma(N)}{\sqrt{2 \pi} \cdot \Gamma\left(N-\frac{1}{2}\right)} \cdot\left(1-r^{2}\right)^{\frac{N-2}{2}} \cdot\left(1-\rho^{2}\right)^{\frac{N-3}{2}} \cdot(1-r \rho)^{-N+\frac{3}{2}} \cdot F_{\text {Hyp }}\left(\frac{3}{2},-\frac{1}{2} ; N-\frac{1}{2} ; \frac{1+r \rho}{2}\right)[/math]

其中[math]\ F_\mathsf{Hyp} \ [/math]是[[Gaussian hypergeometric function|高斯超几何函数]]。

这个密度既是贝叶斯[[posterior probability|后验]]密度，也是一个精确的最优[[confidence distribution|置信分布]]密度。<ref>{{cite journal |last=Taraldsen |first=Gunnar |date=2021 |title=The confidence density for correlation |journal=Sankhya A |volume=85 |pages=600–616 |lang=en |s2cid=244594067 |issn=0976-8378 |doi=10.1007/s13171-021-00267-y |doi-access=free}}</ref><ref>{{cite report |last=Taraldsen |first=Gunnar |date=2020 |title=Confidence in correlation |lang=en |type=preprint |doi=10.13140/RG.2.2.23673.49769 |website=researchgate.net |url=http://rgdoi.net/10.13140/RG.2.2.23673.49769}}</ref>

== '''节点使用的R语言示例代码''' ==
=== 一般线性相关分析 ===
<syntaxhighlight lang="R">

cor.test(x, ...)

</syntaxhighlight>

== '''节点使用指南''' ==
* 研究两个或多个变量之间的线性关系的程度
* 计算相关系数
* 相关系数的值介于-1（完全负相关）和+1（完全正相关）之间，0表示没有线性关系

=== 方法选择 ===
* Pearson：评估两个定量变量之间的线性关系程度，数据应为连续的，服从正态分布，线性关系，变量之间的关系应具有相同的方差（即同方差性）
* Spearman：评估两个变量之间的单调关系，用于定序数据或不满足皮尔逊相关系数正态分布的连续数据，不要求数据服从正态分布，不要求变量之间的关系是线性
* Kendall：评估两组等级数据之间关系的强度和方向，适用于小样本大小或定序数据，不要求数据服从正态分布，测量变量之间的相关性，但不一定是线性的

=== 参数配置 ===
* 统计变量1：选择数值变量，必须是continue类型变量。如果不是，需要进行变量类型转换
* 统计变量2：选择一个或多个数值变量，必须是continue类型变量。如果不是，需要进行变量类型转换。每个变量将与变量1做一次线性相关分析
* 选择方法：Pearson，Spearman，Kendall
* 置信区间百分比：输入百分比，95%置信区间就是0.95
* 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 相关不等于因果。即使两个变量之间存在强相关，也不能推断出一个变量导致另一个变量变化
* 相关系数仅测量变量之间的线性关系。如果关系是非线性的，相关系数可能低估或高估其关系的强度

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:相关分析]]

一般线性相关分析

2024-02-09T08:35:21Z

RainW：

{{Infobox nodebasic
|nodename=一般线性相关分析
|nodeimage=Linear Correlation Analysis.png
|icon=Linear Correlation Analysis.svg
|simpleicon=Linear Correlation Analysis_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Linear Correlation Analysis
|abbreviation=LinCA
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::相关分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=一般线性相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。变量之间的关系可以分为确定关系和非确定性关系。确定性关系，可以说是函数关系，也就是说对于某一变量的每个数值都有另一变量的完全确定的值与之对应。非确定性关系，即这里所说的相关关系，变量之间存在一定的依存关系，但不是一一对应的关系，即相随变动关系。此相关分析使用的方法有: pearson, spearman, 和kendall。用途：用于衡量两个或多个变量间的线性关系强度和方向。检测两个连续变量之间是否存在线性关系的常用方法。参数：选择数值变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=NotSplittingPointPlot
|nodeavailabletablelist=t-Value;df;P-Value;CI;Cor-Value
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/一般线性相关分析
|previousnode=[[Two_Way_ANCOVA]]
|nextnode=[[典型相关分析]]
}}

在[[统计学]]中，'''相关性'''或'''依赖性'''是指两个[[随机变量]]或[[双变量数据]]之间，无论是否具有[[因果性|因果关系]]，存在的任何统计关系。尽管在最广泛的意义上，“相关性”可能表示任何类型的关联，在统计学中它通常指的是一对变量“[[线性几何|线性地]]”相关的程度。

熟悉的依赖现象示例包括[[人类身高|父母身高]]与其后代之间的相关性，以及商品价格与消费者愿意购买的数量之间的相关性，正如所谓的[[需求曲线]]所描绘的。

相关性之所以有用，是因为它们可以指示一种可以在实践中利用的预测关系。例如，一个电力公司可能会根据电力需求与天气之间的相关性，在温和的日子里生产较少的电力。在这个例子中，存在一个[[因果性|因果关系]]，因为[[极端天气]]导致人们使用更多的电力进行加热或冷却。然而，一般来说，相关性的存在不足以推断出因果关系的存在（即[[相关性不等于因果性]]）。

从正式的角度来说，如果随机变量不满足[[独立性（概率论）|概率独立性]]的数学属性，则它们是“依赖”的。在非正式用语中，“相关性”与“依赖性”同义。然而，当在技术意义上使用时，相关性指的是[[条件期望|被测试变量及其各自的预期值]]之间的几种特定类型的数学操作之一。本质上，相关性是衡量两个或多个变量之间关系的度量。有几种[[相关系数]]，通常用[math]\rho[/math]或[math]r[/math]表示，用于测量相关程度。其中最常见的是“[[皮尔逊积矩相关系数|皮尔逊相关系数]]”，它只对两个变量之间的线性关系敏感（即使当其中一个变量是另一个变量的非线性函数时也可能存在）。其他的相关系数——如“[[斯皮尔曼等级相关系数|斯皮尔曼等级相关]]”——已被开发出来，比皮尔逊的更[[稳健统计|稳健]]，即对非线性关系更敏感。<ref>Croxton, Frederick Emory; Cowden, Dudley Johnstone; Klein, Sidney (1968) ''Applied General Statistics'', Pitman. {{ISBN|9780273403159}} (page 625)</ref><ref>Dietrich, Cornelius Frank (1991) ''Uncertainty, Calibration and Probability: The Statistics of Scientific and Industrial Measurement'' 2nd Edition, A. Higler. {{ISBN|9780750300605}} (Page 331)</ref><ref>Aitken, Alexander Craig (1957) ''Statistical Mathematics'' 8th Edition. Oliver & Boyd. {{ISBN|9780050013007}} (Page 95)</ref> [[互信息]]也可以用来衡量两个变量之间的依赖性。

=='''皮尔逊积矩系数'''==
{{Main|皮尔逊积矩相关系数}}
[[File:Pearson Correlation Coefficient and associated scatterplots.png|thumb|各种数据集与各种相关系数的示例散点图。]]

两个数量之间依赖性的最熟悉度量是[[皮尔逊积矩相关系数]]（PPMCC），或称“皮尔逊相关系数”，通常简称为“相关系数”。它是通过取我们数值数据集中两个变量的协方差与它们方差的平方根的比值得到的。数学上，简单地将两个变量的[[协方差]]除以它们的[[标准差]]的乘积。[[卡尔·皮尔逊]]根据[[弗朗西斯·高尔顿]]的一个类似但略有不同的想法开发了这个系数。<ref name="thirteenways">{{cite journal | last1 = Rodgers | first1 = J. L. | last2 = Nicewander | first2 = W. A. | year = 1988 | title = Thirteen ways to look at the correlation coefficient | journal = The American Statistician | volume = 42 | issue = 1| pages = 59–66 | jstor=2685263 | doi=10.1080/00031305.1988.10475524}}</ref>

皮尔逊积矩相关系数试图通过基本上布置预期值并通过数据集的两个变量建立一条最佳拟合线，而得出的皮尔逊相关系数指示实际数据集与预期值的偏离程度。根据我们的皮尔逊相关系数的符号，如果数据集的变量之间存在任何类型的关系，我们可以得到负相关或正相关。{{cn|date=2023年11月}}

两个[[随机变量]][math]X[/math]和[math]Y[/math]之间的总体相关系数[math]\rho_{X,Y}[/math]，它们的[[期望值]]分别为[math]\mu_X[/math]和[math]\mu_Y[/math]，[[标准差]]分别为[math]\sigma_X[/math]和[math]\sigma_Y[/math]，定义为：

[math display=block]\rho_{X,Y} = \operatorname{corr}(X,Y) = {\operatorname{cov}(X,Y) \over \sigma_X \sigma_Y} = {\operatorname{E}[(X-\mu_X)(Y-\mu_Y)] \over \sigma_X\sigma_Y}, \quad \text{if}\ \sigma_{X}\sigma_{Y}>0.[/math]

其中[math]\operatorname{E}[/math]是[[期望值]]运算符，[math]\operatorname{cov}[/math]表示[[协方差]]，而[math]\operatorname{corr}[/math]是相关系数的广泛使用的替代符号。只有当两个标准差都是有限且正的，皮尔逊相关才有定义。纯粹用[[矩（数学）|矩]]的术语表示的另一公式是：

[math display=block]\rho_{X,Y} = {\operatorname{E}(XY)-\operatorname{E}(X)\operatorname{E}(Y)\over \sqrt{\operatorname{E}(X^2)-\operatorname{E}(X)^2}\cdot \sqrt{\operatorname{E}(Y^2)-\operatorname{E}(Y)^2} }[/math]

===相关性与独立性===
[[Cauchy–Schwarz不等式]]的一个推论是，皮尔逊相关系数的[[绝对值]]不大于1。因此，相关系数的值在-1和+1之间变化。在完美直接（增加）线性关系（相关性）的情况下，相关系数为+1，在完美逆（减少）线性关系（'''反相关'''）的情况下，相关系数为-1<ref>Dowdy, S. 和 Wearden, S. (1983). "Statistics for Research", Wiley. {{ISBN|0-471-08602-9}} 页 230</ref>，在所有其他情况下，其值在[math](-1,1)[/math]的[[开区间]]内，指示变量之间的[[线性依赖]]程度。当它接近零时，关系较小（更接近于不相关）。系数越接近-1或1，变量之间的相关性越强。

如果变量是[[统计独立|独立的]]，皮尔逊相关系数为0，但反之则不成立，因为相关系数只能检测两个变量之间的线性依赖。简单来说，如果两个随机变量X和Y是独立的，则它们是不相关的，但如果两个随机变量是不相关的，那么它们可能是独立的，也可能不是独立的。

[math display=block]\begin{align}
X,Y \text{ 独立} \quad & \Rightarrow \quad \rho_{X,Y} = 0 \quad (X,Y \text{ 不相关})\\
\rho_{X,Y} = 0 \quad (X,Y \text{ 不相关})\quad & \nRightarrow \quad X,Y \text{ 独立}
\end{align}[/math]

例如，假设随机变量[math]X[/math]关于零对称分布，且[math]Y=X^2[/math]。那么[math]Y[/math]完全由[math]X[/math]决定，因此[math]X[/math]和[math]Y[/math]是完全依赖的，但它们的相关性为零；它们是[[不相关]]的。然而，在特殊情况下，当[math]X[/math]和[math]Y[/math]是[[联合正态|联合正态分布]]时，不相关性等同于独立性。

尽管不相关数据不一定意味着独立性，但如果随机变量的[[互信息]]为0，可以检查随机变量是否独立。

===样本相关系数===
给定一系列[math]n[/math]次对[math](X_i,Y_i)[/math]的测量，由[math]i=1,\ldots,n[/math]索引，''样本相关系数''可用于估计[math]X[/math]和[math]Y[/math]之间的群体皮尔逊相关[math]\rho_{X,Y}[/math]。样本相关系数定义为

:[math]
r_{xy} \quad \overset{\underset{\mathrm{def}}{}}{=} \quad \frac{\sum\limits_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{(n-1)s_x s_y}
=\frac{\sum\limits_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}
{\sqrt{\sum\limits_{i=1}^n (x_i-\bar{x})^2 \sum\limits_{i=1}^n (y_i-\bar{y})^2}},
[/math]

其中[math]\overline{x}[/math]和[math]\overline{y}[/math]是[math]X[/math]和[math]Y[/math]的样本[[算术平均|平均值]]，[math]s_x[/math]和[math]s_y[/math]是[math]X[/math]和[math]Y[/math]的[[标准差#校正样本标准差|校正样本标准差]]。

[math]r_{xy}[/math]的等价表达式是
:[math]
\begin{align}
r_{xy} &=\frac{\sum x_iy_i-n \bar{x} \bar{y}}{n s'_x s'_y} \\[5pt]
&=\frac{n\sum x_iy_i-\sum x_i\sum y_i}{\sqrt{n\sum x_i^2-(\sum x_i)^2}~\sqrt{n\sum y_i^2-(\sum y_i)^2}}.
\end{align}
[/math]
其中[math]s'_x[/math]和[math]s'_y[/math]是[math]X[/math]和[math]Y[/math]的[[标准差#未校正样本标准差|''未校正''样本标准差]]。

如果[math]x[/math]和[math]y[/math]是包含测量误差的测量结果，则相关系数的实际限制不是-1到+1，而是一个更小的范围。<ref>{{cite journal|last=Francis|first=DP|author2=Coats AJ|author3=Gibson D|title=How high can a correlation coefficient be?|journal=Int J Cardiol|year=1999|volume=69|pages=185–199|doi=10.1016/S0167-5273(99)00028-5|issue=2|pmid=10549842}}</ref> 对于具有单一独立变量的线性模型情况，[[决定系数|决定系数（R平方）]]是[math]r_{xy}[/math]，皮尔逊乘积矩系数的平方。

=='''例子'''==
考虑下表中给出的{{mvar|X}}和{{mvar|Y}}的[[联合概率分布]]。

:{| class="wikitable" style="text-align:center;"
|+ [math]\mathrm{P}(X=x,Y=y)[/math]
! {{diagonal split header|{{mvar|x}}|{{mvar|y}}}}
!−1
!0
!1
|-
!0
|0
|{{sfrac|1|3}}
|0
|-
!1
|{{sfrac|1|3}}
|0
|{{sfrac|1|3}}
|}

对于这个联合分布，[[边缘分布]]是：
:[math]\mathrm{P}(X=x)=
\begin{cases}
\frac 1 3 & \quad \text{对 } x=0 \\
\frac 2 3 & \quad \text{对 } x=1
\end{cases}
[/math]

:[math]\mathrm{P}(Y=y)=
\begin{cases}
\frac 1 3 & \quad \text{对 } y=-1 \\
\frac 1 3 & \quad \text{对 } y=0 \\
\frac 1 3 & \quad \text{对 } y=1
\end{cases}
[/math]

这产生了以下期望和方差：
:[math]\mu_X = \frac 2 3[/math]
:[math]\mu_Y = 0[/math]
:[math]\sigma_X^2 = \frac 2 9[/math]
:[math]\sigma_Y^2 = \frac 2 3[/math]

因此：

: [math]
\begin{align}
\rho_{X,Y} & = \frac{1}{\sigma_X \sigma_Y} \mathrm{E}[(X-\mu_X)(Y-\mu_Y)] \\[5pt]
& = \frac{1}{\sigma_X \sigma_Y} \sum_{x,y}{(x-\mu_X)(y-\mu_Y) \mathrm{P}(X=x,Y=y)} \\[5pt]
& = \left(1-\frac 2 3\right)(-1-0)\frac{1}{3} + \left(0-\frac 2 3\right)(0-0)\frac{1}{3} + \left(1-\frac 2 3\right)(1-0)\frac{1}{3} = 0.
\end{align}
[/math]

=='''等级相关系数'''==
{{Main|Spearman's rank correlation coefficient|Kendall tau rank correlation coefficient}}

[[Rank correlation]]系数，如[[Spearman's rank correlation coefficient]]和[[Kendall's tau|Kendall等级相关系数(τ)]]，衡量的是随着一个变量的增加，另一个变量倾向于增加的程度，而不要求这种增加必须通过线性关系来表示。如果随着一个变量的增加，另一个变量''减少''，那么等级相关系数将是负数。通常认为这些等级相关系数是Pearson系数的替代品，用来减少计算量或使系数对分布的非正态性不那么敏感。然而，这种观点在数学上几乎没有依据，因为等级相关系数衡量的是与[[Pearson product-moment correlation coefficient]]不同类型的关系，并且最好被视为不同类型的关联度量，而不是人口相关系数的另一种度量。<ref name="Yule and Kendall">Yule, G.U和Kendall, M.G. (1950),《统计理论导论》，第14版（第5次印刷1968）。Charles Griffin & Co. 页258–270</ref><ref name="Kendall Rank Correlation Methods">Kendall, M. G. (1955) "Rank Correlation Methods", Charles Griffin & Co.</ref>

为了说明等级相关的性质及其与线性相关的区别，请考虑以下四对数字[math](x,y)[/math]：

:(0, 1), (10, 100), (101, 500), (102, 2000).

当我们从每一对数字过渡到下一对时，[math]x[/math]增加，[math]y[/math]也增加。这种关系是完美的，因为[math]x[/math]的增加''总是''伴随着[math]y[/math]的增加。这意味着我们有一个完美的等级相关，Spearman和Kendall的相关系数都是1，而在这个例子中Pearson乘积矩相关系数是0.7544，表明这些点远未落在一条直线上。同样地，如果[math]y[/math]在[math]x[/math]''增加''时总是''减少''，等级相关系数将是-1，而Pearson乘积矩相关系数可能接近于-1也可能不接近，这取决于这些点与直线的接近程度。尽管在完美等级相关的极端情况下，两个系数都是相等的（都是+1或都是-1），但通常情况并非如此，因此两个系数的值不能有意义地进行比较。<ref name="Yule and Kendall"/>例如，对于三对数字(1, 1) (2, 3) (3, 2)，Spearman系数是1/2，而Kendall系数是 1/3。

=='''随机变量间的其他依赖性度量'''==
{{See also|Pearson product-moment correlation coefficient#Variants}}

相关系数给出的信息不足以定义随机变量之间的依赖结构。<ref name="wilmottM.com">{{cite journal|author=Mahdavi Damghani B.|title=推断相关的非误导价值：对Cointelation模型的介绍|journal=Wilmott Magazine|volume=2013|issue=67|pages=50–61|year=2013|doi=10.1002/wilm.10252 }}</ref>在非常特殊的情况下，相关系数完全定义了依赖结构，例如当分布是[[multivariate normal distribution]]。（见上图。）在[[elliptical distribution]]的情况下，它描述了等密度的（超）椭圆；然而，它并未完全描述依赖结构（例如，[[multivariate t-distribution]]的自由度决定了尾部依赖的级别）。

[[Distance correlation]]<ref>{{cite journal | last1 = Székely | first1 = G. J. Rizzo | last2 = Bakirov | first2 = N. K. | year = 2007 | title = 通过距离的相关性测量和测试独立性 | journal = [[Annals of Statistics]] | volume = 35 | issue = 6| pages = 2769–2794 | doi = 10.1214/009053607000000505 | arxiv = 0803.4101 | s2cid = 5661488 }}</ref><ref>{{cite journal | last1 = Székely | first1 = G. J. | last2 = Rizzo | first2 = M. L. | year = 2009 | title = 布朗距离协方差 | journal = Annals of Applied Statistics | volume = 3 | issue = 4| pages = 1233–1303 | doi = 10.1214/09-AOAS312 | pmid = 20574547 | pmc = 2889501 | arxiv = 1010.0297 }}</ref>被引入是为了解决Pearson相关性的不足，即它对于依赖的随机变量可能为零；零距离相关意味着独立性。

随机依赖系数<ref>Lopez-Paz D.和Hennig P.以及Schölkopf B. (2013)。"随机依赖系数"，"[[Conference on Neural Information Processing Systems]]" [重印]</ref>是一种基于[[Copula (probability theory)|copula]]的多变量随机变量之间的依赖度量，计算效率高。RDC对随机变量的非线性缩放是不变的，能够发现广泛的功能关联模式，并在独立时取值为零。

对于两个[[binary data|二进制变量]]，[[odds ratio]]测量它们的依赖性，并取非负数范围，可能为无穷大：{{tmath|[0, +\infty]}}。相关的统计量如[[Yule's Y|Yule的''Y'']]和[[Yule's Q|Yule的''Q'']]将这个规范化到类似相关性的范围{{tmath|[-1, 1]}}。几率比通过[[logistic regression|逻辑模型]]被推广，以模拟依赖变量是离散的情况，并且可能有一个或多个独立变量。

[[correlation ratio]]，基于[[Entropy (information theory)|熵]]的[[mutual information]]，[[total correlation]]，[[dual total correlation]]和[[polychoric correlation]]都能够检测更一般的依赖性，考虑它们之间的[[copula (statistics)|copula]]也是如此，而[[coefficient of determination]]将相关系数推广到[[multiple regression]]。

=='''对数据分布的敏感性'''==
{{Further|Pearson product-moment correlation coefficient#Sensitivity to the data distribution}}

变量{{mvar|X}}与{{mvar|Y}}之间的依赖程度并不取决于变量表达的尺度。也就是说，如果我们正在分析{{mvar|X}}与{{mvar|Y}}之间的关系，大多数相关性测量不受将{{mvar|X}}转换为[math]a + bX[/math]和将{{mvar|Y}}转换为[math]c + dY[/math]的影响，其中a、b、c和d是常数（b和d为正）。这一点对于一些相关性[[statistic]]以及它们的[[Population (statistics)|population]]类比都是成立的。某些相关统计量，如秩相关系数，也对{{mvar|X}}和/或{{mvar|Y}}的边缘分布的[[monotone function|单调变换]]保持不变。

[[File:correlation range dependence.svg|300px|right|thumb|[[Pearson product moment correlation coefficient|Pearson]]/[[Spearman's rank correlation coefficient|Spearman]] 关于{{mvar|X}}与{{mvar|Y}}的相关系数，展示了当两个变量的范围不受限制时，以及{{mvar|X}}的范围限制在（0,1）区间时的情况。]]大多数相关度量对于{{mvar|X}}和{{mvar|Y}}的采样方式都是敏感的。如果在更广范围的值上观察，依赖性往往会更强。因此，如果我们考虑所有成年男性中父亲和他们儿子的身高之间的相关系数，并将其与仅选择身高在165厘米到170厘米之间的父亲计算的同一相关系数比较，后一种情况下的相关性会更弱。已经开发了几种技术试图纠正一个或两个变量的范围限制，并且这些技术通常用于元分析；最常见的是Thorndike的第二种情形和第三种情形方程。<ref>{{cite book|last=Thorndike|first=Robert Ladd|title=Research problems and techniques (Report No. 3)|year=1947|publisher=US Govt. print. off.|location=Washington DC}}</ref>

某些相关度量在特定的{{mvar|X}}和{{mvar|Y}}的联合分布下可能是未定义的。例如，Pearson相关系数是基于[[moment (mathematics)|矩]]定义的，因此如果矩未定义，则该相关系数将是未定义的。基于[[quantile]]的依赖度量总是有定义的。旨在估计人口依赖度量的基于样本的统计量可能具有也可能不具有诸如无偏或[[consistent estimator|渐近一致]]等理想的统计属性，这取决于数据样本的空间结构。

对数据分布的敏感性可以被用作优势。例如，[[scaled correlation]]旨在利用对范围的敏感性来挑选出时间序列快速组成部分之间的相关性。<ref name = "Nikolicetal">{{cite journal | last1 = Nikolić | first1 = D | last2 = Muresan | first2 = RC | last3 = Feng | first3 = W | last4 = Singer | first4 = W | year = 2012 | title = Scaled correlation analysis: a better way to compute a cross-correlogram | journal = European Journal of Neuroscience | volume = 35| issue = 5| pages = 1–21 | doi = 10.1111/j.1460-9568.2011.07987.x | pmid = 22324876 | s2cid = 4694570 }}</ref>通过以受控方式减少值的范围，过滤掉长时间尺度上的相关性，仅揭示短时间尺度上的相关性。

=='''相关性矩阵'''==

[math]n[/math]个随机变量[math]X_1,\ldots,X_n[/math]的相关性矩阵是[math]n \times n[/math]矩阵[math]C[/math]，其[math](i,j)[/math]项为
:[math]c_{ij}:=\operatorname{corr}(X_i,X_j)=\frac{\operatorname{cov}(X_i,X_j)}{\sigma_{X_i}\sigma_{X_j}},\quad \text{if}\ \sigma_{X_i}\sigma_{X_j}>0.[/math]
因此，对角线项全都是[[unity (number)|一]]。如果使用的相关度量是乘积矩相关系数，那么相关性矩阵与[[standardized variable|标准化随机变量]][math]X_i / \sigma(X_i)[/math]的[[covariance matrix|协方差矩阵]]相同，适用于人口相关矩阵（在这种情况下[math]\sigma[/math]是人口标准差）和样本相关矩阵（在这种情况下[math]\sigma[/math]表示样本标准差）。因此，每一个都必然是[[positive-semidefinite matrix|半正定矩阵]]。此外，如果没有任何变量可以完全通过其他变量的值的线性函数生成其所有值，则相关矩阵严格是[[positive definite matrix|正定矩阵]]。

相关性矩阵是对称的，因为[math]X_i[/math]与[math]X_j[/math]之间的相关性与[math]X_j[/math]与[math]X_i[/math]之间的相关性相同。

相关性矩阵出现在多个公式中，例如，在[[coefficient of multiple determination#Computation|多重决定系数]]的一个公式中，这是一个衡量[[multiple regression|多元回归]]拟合优度的指标。

在[[statistical modelling|统计建模]]中，代表变量之间关系的相关性矩阵被分类为不同的相关结构，这些结构通过估计它们所需的参数数量等因素进行区分。例如，在一个[[Exchangeability|可交换性]]相关矩阵中，所有变量对被建模为具有相同的相关性，因此矩阵的所有非对角线元素彼此相等。另一方面，当变量代表时间序列时，通常使用[[Autoregressive model|自回归]]矩阵，因为测量值时间上越接近，它们的相关性可能越大。其他例子包括独立、无结构、M-依赖和Toeplitz结构。

在[[exploratory data analysis|探索性数据分析]]中，[[iconography of correlations|相关性图标法]]包括用图表替换相关性矩阵，其中“显著”的相关性用实线（正相关）或虚线（负相关）表示。

===最接近的有效相关矩阵===
在一些应用中（例如，仅从部分观测数据构建数据模型），人们希望找到一个“最接近”的相关矩阵到一个“近似”的相关矩阵（例如，一个通常因计算方式而缺乏半正定性的矩阵）。

2002年，Higham<ref>{{cite journal|title=计算最接近的相关矩阵——来自金融的问题|journal=IMA数值分析杂志|date=2002|first=Nicholas J.|last=Higham|volume=22|issue=3|pages=329–343|doi=10.1093/imanum/22.3.329|citeseerx=10.1.1.661.2180}}</ref>使用[[Frobenius范数]]明确了近似的概念，并提供了一种使用[[Dykstra的投影算法]]计算最接近的相关矩阵的方法，该方法的实现可作为在线Web API使用。<ref>{{Cite web|url=https://portfoliooptimizer.io/|title=投资组合优化器|website=portfoliooptimizer.io|access-date=2021-01-30}}</ref>

这激发了对该主题的兴趣，随后几年中获得了新的理论（例如，计算具有因子结构的最接近的相关矩阵<ref>{{cite journal|title=计算具有因子结构的最接近的相关矩阵。|journal= SIAM J.矩阵分析及应用。|date=2010|first1=Rudiger|last1=Borsdorf|first2=Nicholas J.|last2=Higham|first3=Marcos|last3=Raydan|volume=31|issue=5|pages=2603–2622|doi=10.1137/090776718|url= http://eprints.maths.manchester.ac.uk/1523/1/SML002603.pdf}}</ref>）和数值（例如，使用[[牛顿法]]计算最接近的相关矩阵<ref>{{cite journal|title=一种用于计算最接近相关矩阵的二次收敛牛顿方法。|journal= SIAM J.矩阵分析及应用。|date=2006|first1=HOUDUO|last1=Qi|first2=DEFENG|last2=Sun|volume=28|issue=2|pages=360–385|doi=10.1137/050624509}}</ref>）结果。

=='''随机过程的不相关性和独立性'''==
同样对于两个随机过程[math]\left\{ X_t \right\}_{t\in\mathcal{T}}[/math]和[math]\left\{ Y_t \right\}_{t\in\mathcal{T}}[/math]：如果它们是独立的，那么它们是不相关的。<ref name=KunIlPark>{{cite book | author=Park, Kun Il| title=概率论与随机过程基础及其在通信中的应用| publisher=Springer | year=2018 | isbn=978-3-319-68074-3}}</ref>{{rp|p. 151}}这个陈述的反面可能不成立。即使两个变量是不相关的，它们也可能不是彼此独立的。

=='''常见误解'''==

===相关性与因果关系===
{{Main|相关性不意味着因果关系}} {{See also|正态分布且不相关不意味着独立}}
传统的格言“[[相关性不意味着因果关系]]”意味着相关性本身不能用来推断变量之间的因果关系。<ref>{{cite journal | last=Aldrich | first=John | journal=统计科学 | volume=10 | issue=4 | year=1995 | pages=364–376 | title=皮尔森和尤尔的真实与伪造的相关性 | jstor=2246135 | doi=10.1214/ss/1177009870| doi-access=free }}</ref> 这一格言不应被理解为相关性不能指示因果关系的潜在存在。然而，如果有的话，相关性背后的原因可能是间接的和未知的，且高相关性也与[[身份(数学)|身份]]关系（[[重言式(逻辑)|重言式]]）重叠，在那里不存在因果过程。因此，两个变量之间的相关性不是建立因果关系（无论哪个方向）的充分条件。

儿童的年龄和身高之间的相关性相当因果透明，但人们的心情和健康之间的相关性就不那么明显了。是改善心情导致健康改善，还是良好的健康导致心情好，或者两者都有？或者是某些其他因素同时影响两者？换句话说，相关性可以作为可能因果关系的证据，但不能指示因果关系（如果有的话）可能是什么。

=== 简单线性相关性 ===

[[File:Anscombe's quartet 3.svg|thumb|325px|right|[[Anscombe四重奏]]：四组数据具有相同的相关性0.816]]
皮尔森相关系数指示两个变量之间“线性”关系的强度，但其值通常不完全表征它们的关系。<ref>{{cite journal |first=Babak |last=Mahdavi Damghani |year=2012|title=测量相关性的误导性价值 |journal=[[Wilmott (magazine)|Wilmott 杂志]] |volume=2012 |issue=1 |pages=64–73 |doi=10.1002/wilm.10167|s2cid=154550363 }}</ref> 特别是，如果给定[math]X[/math]的[math]Y[/math]的[[条件期望|条件平均值]]，表示为[math]\operatorname{E}(Y \mid X)[/math]，不是[math]X[/math]的线性，则相关系数将无法完全确定[math]\operatorname{E}(Y \mid X)[/math]的形式。

相邻图像显示了[[散点图]]中的[[Anscombe四重奏]]，一组由[[Francis Anscombe]]创建的四对不同变量。<ref>{{cite journal | last=Anscombe | first=Francis J. | year=1973 | title=统计分析中的图表 | journal=美国统计学家 | volume=27 | issue=1 | pages=17–21 | jstor=2682899 | doi=10.2307/2682899}}</ref> 这四个[math]y[/math]变量具有相同的平均值（7.5），方差（4.12），相关性（0.816）和回归线（[math display="inline"]y=3+0.5x[/math]）。然而，如图所示，变量的分布非常不同。第一个（左上）似乎正态分布，符合考虑两个变量相关且假设正态性时的预期。第二个（右上）不是正态分布；尽管可以观察到两个变量之间明显的关系，但它不是线性的。在这种情况下，皮尔森相关系数不表明存在确切的函数关系：只是该关系可以被线性关系近似的程度。在第三种情况（左下），线性关系是完美的，除了一个[[离群值]]足以将相关系数从1降低到0.816。最后，第四个例子（右下）显示了另一个例子，当一个离群值足以产生高相关系数时，尽管两个变量之间的关系不是线性的。

这些例子表明，作为[[汇总统计量]]的相关系数不能替代数据的视觉检查。有时候这些例子被认为证明了皮尔森相关假设数据遵循[[正态分布]]，但这只是部分正确。<ref name="thirteenways"/> 皮尔森相关可以准确地计算任何具有有限[[协方差矩阵]]的分布，这包括实践中遇到的大多数分布。然而，如果数据来自[[多变量正态分布]]，皮尔森相关系数（连同样本均值和方差）才是一个[[充分统计量]]。因此，只有当数据来源于多变量正态分布时，皮尔逊相关系数才能完全表征变量之间的关系。

==双变量正态分布==
如果一对随机变量[math]\ (X,Y)\ [/math]遵循[[bivariate normal distribution|双变量正态分布]]，则条件均值[math]\operatorname{\boldsymbol\mathcal E}(X \mid Y)[/math]是[math]Y[/math]的线性函数，而条件均值[math]\operatorname{\boldsymbol\mathcal E}(Y \mid X)[/math]是[math]\ X\ [/math]的线性函数。变量[math]\ X\ [/math]和[math]\ Y\ [/math]之间的相关系数[math]\ \rho_{X,Y}\ [/math]，以及[math]\ X\ [/math]和[math]\ Y\ [/math]的[[Marginal distribution|边际]]均值和方差决定了这种线性关系：

:[math]\operatorname{\boldsymbol\mathcal E}(Y \mid X ) = \operatorname{\boldsymbol\mathcal E}(Y) + \rho_{X,Y} \cdot \sigma_Y \cdot \frac{\ X-\operatorname{\boldsymbol\mathcal E}(X)\ }{ \sigma_X }\ ,[/math]

其中，[math]\operatorname{\boldsymbol\mathcal E}(X)[/math]和[math]\operatorname{\boldsymbol\mathcal E}(Y)[/math]分别是[math]\ X\ [/math]和[math]\ Y\ [/math]的期望值，[math]\ \sigma_X\ [/math]和[math]\ \sigma_Y\ [/math]分别是[math]\ X\ [/math]和[math]\ Y\ [/math]的标准差。

经验相关系数[math]r[/math]是相关系数[math]\ \rho\ [/math]的[[Estimation|估计]]。对[math]\ \rho\ [/math]的分布估计由下式给出：

:[math]\pi ( \rho \mid r ) =
\frac{\ \Gamma(N)\ }{\ \sqrt{ 2\pi\ } \cdot
\Gamma( N - \tfrac{\ 1\ }{ 2 } )\ } \cdot
\bigl( 1 - r^2 \bigr)^{ \frac{\ N\ - 2\ }{ 2 } } \cdot
\bigl( 1 - \rho^2 \bigr)^{ \frac{\ N - 3\ }{ 2 } } \cdot
\bigl( 1 - r \rho \bigr)^{ - N + \frac{\ 3 \ }{ 2 } } \cdot F_\mathsf{Hyp} \left(\ \tfrac{\ 3\ }{ 2 } , -\tfrac{\ 1\ }{ 2 } ; N - \tfrac{\ 1\ }{ 2 } ; \frac{\ 1 + r \rho\ }{ 2 }\ \right)\ [/math]

其中[math]\ F_\mathsf{Hyp} \ [/math]是[[Gaussian hypergeometric function|高斯超几何函数]]。

这个密度既是贝叶斯[[posterior probability|后验]]密度，也是一个精确的最优[[confidence distribution|置信分布]]密度。<ref>{{cite journal |last=Taraldsen |first=Gunnar |date=2021 |title=The confidence density for correlation |journal=Sankhya A |volume=85 |pages=600–616 |lang=en |s2cid=244594067 |issn=0976-8378 |doi=10.1007/s13171-021-00267-y |doi-access=free}}</ref><ref>{{cite report |last=Taraldsen |first=Gunnar |date=2020 |title=Confidence in correlation |lang=en |type=preprint |doi=10.13140/RG.2.2.23673.49769 |website=researchgate.net |url=http://rgdoi.net/10.13140/RG.2.2.23673.49769}}</ref>

== '''节点使用的R语言示例代码''' ==
=== 一般线性相关分析 ===
<syntaxhighlight lang="R">

cor.test(x, ...)

</syntaxhighlight>

== '''节点使用指南''' ==
* 研究两个或多个变量之间的线性关系的程度
* 计算相关系数
* 相关系数的值介于-1（完全负相关）和+1（完全正相关）之间，0表示没有线性关系

=== 方法选择 ===
* Pearson：评估两个定量变量之间的线性关系程度，数据应为连续的，服从正态分布，线性关系，变量之间的关系应具有相同的方差（即同方差性）
* Spearman：评估两个变量之间的单调关系，用于定序数据或不满足皮尔逊相关系数正态分布的连续数据，不要求数据服从正态分布，不要求变量之间的关系是线性
* Kendall：评估两组等级数据之间关系的强度和方向，适用于小样本大小或定序数据，不要求数据服从正态分布，测量变量之间的相关性，但不一定是线性的

=== 参数配置 ===
* 统计变量1：选择数值变量，必须是continue类型变量。如果不是，需要进行变量类型转换
* 统计变量2：选择一个或多个数值变量，必须是continue类型变量。如果不是，需要进行变量类型转换。每个变量将与变量1做一次线性相关分析
* 选择方法：Pearson，Spearman，Kendall
* 置信区间百分比：输入百分比，95%置信区间就是0.95
* 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 相关不等于因果。即使两个变量之间存在强相关，也不能推断出一个变量导致另一个变量变化
* 相关系数仅测量变量之间的线性关系。如果关系是非线性的，相关系数可能低估或高估其关系的强度

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:相关分析]]

球形检验

2024-02-09T07:19:17Z

RainW：

{{Infobox nodebasic
|nodename=球形检验
|nodeimage=Sphericity Test.png
|icon=Sphericity Test.svg
|simpleicon=Sphericity Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Sphericity Test
|abbreviation=SphcTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=球形检验用于检验多元正态总体协方差矩阵是否为球形的检验，也就是各元素之间是否相互独立且具有相同的方差。用途：要求所有配对观察之间的方差（也称为协方差）相等。在重复测量ANOVA中，通常假设数据满足球形条件。参数：选择连续型数值变量，方法Mauchly需要导入长表
|nodeinputnumber=3
|nodeoutputnumber=2
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Chi-Square;df;P-Value
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/球形检验
|previousnode=[[Welch检验]]
|nextnode=[[多元方差分析]]
}}

'''毛克利的球形性检验'''或'''毛克利的''W'''''是一种[[Statistics|统计检验]]，用于验证[[repeated measures design|重复测量方差分析（ANOVA）]]。它由[[John Mauchly]]于1940年开发。

=='''球形性'''==
球形性是重复测量ANOVA的一个重要假设。它是指所有可能的被试内条件（即[[independent variable|自变量]]的水平）之间差异的[[variance|方差]]相等的条件。如果违反了球形性（即，如果所有条件组合之间的差异的方差不相等），那么方差计算可能会被扭曲，从而导致[[F-test|F比]]膨胀。<ref name=Hinton>{{cite book|last=Hinton, P. R., Brownlow, C., & McMurray, I. |title=SPSS Explained |year=2004|publisher=Routledge}}</ref> 当有三个或更多水平的重复测量因子时，可以评估球形性，并且，随着重复测量因子的增加，违反球形性的风险也增加。如果违反了球形性，必须决定是选择[[univariate|单变量]]分析还是[[multivariate analysis |多变量]]分析。如果选择了单变量方法，则必须根据球形性被违反的程度适当地纠正重复测量ANOVA。<ref name=Field>{{cite book|last=Field, A. P.|title=Discovering Statistics Using SPSS |year=2005|publisher=Sage Publications}}</ref>

=='''球形性的测量'''==

{| class="wikitable" style="float: right"
|+ 图1
|- align="center"
! 病人 !! Tx A !! Tx B !! Tx C !! style="border-left: 3px solid;" | Tx A − Tx B !! Tx A − Tx C !! Tx B − Tx C
|- align="center"
| 1 || 30 || 27 || 20 || style="border-left: 3px solid;" | 3 || 10 || 7
|- align="center"
| 2 || 35 || 30 || 28 || style="border-left: 3px solid;" | 5 || 7 || 2
|- align="center"
| 3 || 25 || 30 || 20 || style="border-left: 3px solid;" | −5 || 5 || 10
|- align="center"
| 4 || 15 || 15 || 12 || style="border-left: 3px solid;" | 0 || 3 || 3
|- align="center"
| 5 || 9 || 12 || 7 || style="border-left: 3px solid;" | −3 || 2 || 5
|- align="center"
| colspan="4" align="right" | 方差: || 17 || 10.3 || 10.3
|}

为了进一步阐述球形性的概念，考虑一个矩阵，表示接受三种不同药物治疗的患者的数据，如图 1所示'''莫奇利的球形性检验'''或'''莫奇利的''W'''''是一种用于验证[[重复测量设计|重复测量方差分析（ANOVA）]]的[[统计学|统计检验]]。它由[[John Mauchly]]于1940年开发。

=='''球形性'''==
球形性是重复测量ANOVA的一个重要假设。它是指所有可能的受试条件对（即，[[自变量]]的水平）之间差异的[[方差|方差]]相等的条件。如果违反了球形性（即，如果所有条件组合之间差异的方差不相等），那么方差计算可能会被扭曲，这将导致[[F-检验|F比]]膨胀。<ref name=Hinton>{{cite book|last=Hinton, P. R., Brownlow, C., & McMurray, I. |title=SPSS Explained |year=2004|publisher=Routledge}}</ref> 当有三个或更多层次的重复测量因素时，可以评估球形性，并且，随着额外的重复测量因素的增加，违反球形性的风险也增加。如果违反了球形性，必须决定是选择[[单变量]]还是[[多变量分析|多变量]]分析。如果选择了单变量方法，则必须根据球形性被违反的程度适当修正重复测量ANOVA。<ref name=Field>{{cite book|last=Field, A. P.|title=Discovering Statistics Using SPSS |year=2005|publisher=Sage Publications}}</ref>

=='''球形性的测量'''==

{| class="wikitable" style="float: right"
|+ 图1
|- align="center"
! 病人 !! Tx A !! Tx B !! Tx C !! style="border-left: 3px solid;" | Tx A − Tx B !! Tx A − Tx C !! Tx B − Tx C
|- align="center"
| 1 || 30 || 27 || 20 || style="border-left: 3px solid;" | 3 || 10 || 7
|- align="center"
| 2 || 35 || 30 || 28 || style="border-left: 3px solid;" | 5 || 7 || 2
|- align="center"
| 3 || 25 || 30 || 20 || style="border-left: 3px solid;" | −5 || 5 || 10
|- align="center"
| 4 || 15 || 15 || 12 || style="border-left: 3px solid;" | 0 || 3 || 3
|- align="center"
| 5 || 9 || 12 || 7 || style="border-left: 3px solid;" | −3 || 2 || 5
|- align="center"
| colspan="4" align="right" | 方差： || 17 || 10.3 || 10.3
|}

为了进一步阐释球形性的概念，考虑一个代表在图1中接受三种不同药物治疗的患者数据的矩阵。他们的结果在矩阵的左侧表示，而每种治疗的结果之间的差异在右侧表示。获取所有可能的组对的差异分数后，可以对比每组差异的方差。从图1中的例子来看，治疗A和B之间差异的方差（17）似乎比治疗A和C（10.3）以及治疗B和C（10.3）之间差异的方差要大得多。这表明数据可能违反了球形性的假设。为了确定差异的方差之间是否存在统计学上的显著差异，可以进行莫奇利的球形性检验。

=='''解读'''==
由[[John Mauchly|约翰·W·莫奇利]]于1940年开发的莫奇利球形性检验，<ref>{{cite journal | title=Significance Test for Sphericity of a Normal ''n''-Variate Distribution | last=Mauchly, J. W.| journal=The Annals of Mathematical Statistics | volume=11 | issue=2 | year=1940 | pages=204–209 | doi=10.1214/aoms/1177731915 | jstor=2235878| doi-access=free }}</ref> 是一种流行的检验，用于评估是否违反了球形性假设。上述例子中的球形性零假设和非球形性备择假设可以用差异分数在数学上表达如下：

:[math]H_0 : \sigma_{\text{Tx A}-\text{Tx B} }^2 = \sigma_{\text{Tx A}-\text{Tx C} }^2 = \sigma_{\text{Tx B}-\text{Tx C} }^2[/math]
:[math]H_1 : \text{方差并不全相等}。[/math]

解读莫奇利的球形性检验相对直接。当莫奇利检验统计量的概率大于或等于[math]\alpha[/math]时（即，''p'' > [math]\alpha[/math]，[math]\alpha[/math]通常设定为.05），我们不能拒绝方差相等的零假设。因此，我们可以得出结论，假设没有被违反。然而，当莫奇利检验统计量的概率小于或等于[math]\alpha[/math]时（即，''p'' < [math]\alpha[/math]），不能假设球形性，因此我们会得出结论，差异的方差之间存在显著差异。<ref name=Laerd>{{cite web|title=球形性|url=https://statistics.laerd.com/statistical-guides/sphericity-statistical-guide.php|publisher=Laerd Statistics}}</ref> 对于两个水平的重复测量因素，总是满足球形性，因此，无需评估。<ref name=Hinton />

统计软件不应为两个水平的重复测量因素提供球形性检验的输出；然而，一些[[SPSS]]版本会产生一个自由度等于0的输出表，并在数值''p''值的位置放置一个句点。

=='''球面性的违反'''==
[[File:Violation of Sphericity.png|thumb|球面性的违反]]
当球面性得到确认时，F比值是有效的，因此是可解释的。然而，如果Mauchly检验显著，则产生的F比值必须谨慎解释，因为这一假设的违反可能会导致[[Type I error]]率增加，并影响从分析中得出的结论。<ref name="Laerd" />在Mauchly检验显著的情况下，需要对[[degrees of freedom]]进行修改，以获得有效的F比值。

在SPSS中，生成了三种校正：[[Greenhouse–Geisser correction]]（1959年）、Huynh–Feldt校正（1976年）和下限校正。这些校正都是为了改变自由度并产生一个减少了Type I错误率的F比值而开发的。应用这些校正的结果，并不会改变实际的F比值；只是自由度发生了变化。<ref name=Laerd />

这些估计的检验统计量由[[epsilon]]（''ε''）表示，并可以在SPSS中Mauchly检验的输出中找到。Epsilon提供了一个偏离球面性的度量。通过评估epsilon，我们可以确定球面性被违反的程度。如果所有可能的成对组合之间的差异方差相等且完全满足球面性，那么epsilon将恰好为1，表示没有偏离球面性。如果这些差异的方差不等且违反了球面性，那么epsilon将小于1。epsilon离1越远，违反程度越严重。<ref name=OAK>{{cite web|title=重复测量方差分析中的球面性|url=http://oak.ucc.nau.edu/rh232/courses/EPS625/Handouts/RM-ANOVA/Sphericity.pdf}}</ref>

在这三种校正中，Huynh-Feldt被认为是最不保守的，而Greenhouse–Geisser被认为更保守，下限校正是最保守的。当epsilon大于 .75时，Greenhouse–Geisser校正被认为过于保守，会导致错误地拒绝球面性成立的零假设。Collier及其同事<ref>{{cite journal|last=Collier, R. O., Jr., Baker, F. B., Mandeville, G. K., & Hayes, T. F.|title=基于传统方差比的重复测量设计中几种检验程序的测试大小估计|journal=Psychometrika|year=1967|volume=32|issue=3 |pages=339–353|doi=10.1007/bf02289596|pmid=5234710 |s2cid=42325937 }}</ref>表明，当epsilon扩展到高达.90时，这一点是成立的。然而，Huynh–Feldt校正被认为过于宽松，过高估计了球面性。这将导致错误地拒绝球面性不成立的替代假设，当它实际上成立时。<ref>{{cite book|author1=Maxwell, S.E. |author2=Delaney, H.D. |name-list-style=amp |title=设计实验和分析数据：一个模型比较视角|year=1990|publisher=Wadsworth|location=Belmont}}</ref> Girden<ref>{{cite book|last=Girden, E.|title=ANOVA：重复测量|year=1992|publisher=Sage|location=Newbury Park, CA}}</ref>推荐了解决这个问题的方法：当epsilon大于 .75时，应用Huynh–Feldt校正；当epsilon小于 .75或关于球面性无任何了解时，应用Greenhouse–Geisser校正。

另一种替代程序是使用[[MANOVA|多变量检验统计量（MANOVA）]]，因为它们不需要球面性的假设。<ref>{{cite book|last=Howell, D. C.|title=心理学统计方法|year=2009|publisher=Wadsworth Publishing}}</ref>然而，与使用重复测量ANOVA相比，当球面性违反不大或样本量小时，这种程序可能较弱。<ref>{{cite web|title=Mauchly检验|url=http://www.wjh.harvard.edu/~moulton/mauchly_test.pdf|access-date=2012-04-29|archive-url=https://web.archive.org/web/20130511104920/http://www.wjh.harvard.edu/~moulton/mauchly_test.pdf|archive-date=2013-05-11|url-status=dead}}</ref> O’Brien和Kaiser<ref>{{cite journal|author1=O'Brien, R. G. |author2=Kaiser, M. K. |name-list-style=amp |title=分析重复测量设计的MANOVA方法：一个广泛的入门|journal=Psychological Bulletin|year=1985|volume=97|pages=316–333|doi=10.1037/0033-2909.97.2.316}}</ref>建议，当你有一个大的球面性违反（即，epsilon < .70）和你的样本量大于''k'' + 10（即，重复测量因素的水平数 + 10）时，MANOVA更有力；在其他情况下，应选择重复测量设计。<ref name=OAK />此外，MANOVA的力量取决于因变量之间的相关性，因此还必须考虑不同条件之间的关系。<ref name=Field />

SPSS提供了四种不同方法的F比值：Pillai's trace, Wilks’ lambda, Hotelling's trace, 和 Roy's largest root。一般来说，Wilks’ lambda被推荐为最适当的多变量检验统计量。

=='''批评'''==
虽然Mauchly检验是评估球面性最常用的方法之一，但该检验在小样本中未能检测到球面性的偏离，在大样本中过度检测到球面性的偏离。因此，样本大小对结果的解释有影响。<ref name=Laerd />在实践中，球面性的假设极不可能完全满足，因此在实际未进行违反检测的情况下，纠正可能的违反是明智的。

== '''节点使用的R语言示例代码''' ==
=== 球形检验 ===
<syntaxhighlight lang="R">

cortest.bartlett(R, n = NULL,diag=TRUE)

ezANOVA(data, dv, wid, within = NULL, within_full = NULL, within_covariates = NULL)

</syntaxhighlight>
方法参见'''R package: ez，psych'''的官方文档

== '''节点使用指南''' ==
* 在重复测量ANOVA（Analysis of Variance for repeated measures）中使用的一种统计检验
* 用于检查数据是否满足球形假设，即所有成对差异的方差（每对条件之间的方差）和成对差异之间的协方差是相同的
* 当数据不满足球形假设时，传统的F统计可能会产生误导性的结果

=== 方法选择 ===
* Bartlett：用于检验两个或多个样本组的方差是否相同。对数据的正态性假设比较敏感。如果数据远离正态分布，Bartlett检验可能不准确。
* Mauchly's Test：用于检验重复测量ANOVA中，所有成对的差异（各个时间点或条件的测量差异）具有相同的方差。即当同一组受试者在不同的时间点或条件下被测量多次时的重复测量

=== 参数配置 ===
* 统计变量：选择连续型数值变量，方法Bartlett可以多选，Mauchly's Test只能选择一个
* ID变量：当选择Mauchly's Test时，选择ID变量，检验的主题变量
* 条件变量：当选择Mauchly's Test时，选择不同条件或处理的变量，比如时间
* 检验方法：Bartlett，Mauchly's Test，Bartlett可以选择多个变量，是宽表。Mauchly's Test只能选择一个变量，是长表
* 统计变量，ID变量和条件变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 小样本可能导致球形检验的力度不足，不能可靠地检测出球形假设的违背
* 除了球形假设，重复测量ANOVA还假设数据满足正态分布和方差齐性
* 如果数据远离正态分布，球形检验的结果可能会受到影响

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:方差分析]]

方差齐性检验

2024-02-09T06:04:05Z

RainW：

{{Infobox nodebasic
|nodename=方差齐性检验
|nodeimage=Test for Homogeneity of Variances.png
|icon=Test for Homogeneity of Variances.svg
|simpleicon=Test for Homogeneity of Variances_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Test for Homogeneity of Variances
|abbreviation=THomVar
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=方差齐性检验是一种统计检验方法，用于检验两个或多个样本的方差是否相等。这种检验通常用于分析方差（ANOVA）之前，以确定数据是否满足方差齐性的假设。方差齐性是许多统计方法（如t检验和ANOVA）的一个重要假设。如果数据不满足方差齐性的假设，那么这些方法的结果可能会不准确。因此，在使用这些方法之前，通常需要进行方差齐性检验来确定数据是否满足这一假设。该模块整合了Levene检验、Bartlett检验和Fligner-Killeen检验三种方法如果方差齐性检验表明数据不满足方差齐性的假设，那么您可以使用一些方法来纠正这一问题。例如，您可以对数据进行变换，或者使用不需要方差齐性假设的非参数方法来分析数据。用途：用于检验两个或更多的样本组的方差是否相等。如ANOVA（方差分析），需要样本组之间的方差齐性作为预设条件。如果这个条件不满足，那么方差分析的结果可能会出现偏差。参数：选择分组变量，和连续型数值变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=SplittingNephelogram
|nodeavailabletablelist=Stats-Value;P-Value
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/方差齐性检验
|previousnode=[[多重比较方差分析]]
|nextnode=[[Welch检验]]
}}

在[[统计学]]中，如果一系列[[随机变量]]的所有随机变量都具有相同的有限[[方差]]，则称为'''同方差性'''（{{IPAc-en|ˌ|h|oʊ|m|oʊ|s|k|ə|ˈ|d|æ|s|t|ɪ|k}}），这也被称为'''方差齐性'''。相对应的概念被称为'''异方差性'''，也称为'''方差异质性'''。''同'''k'''方差性''和''异'''k'''方差性''的拼写也经常被使用。<ref>关于术语的希腊语词源，请见{{cite journal |first=J. Huston |last=McCulloch |year=1985 |title=On Heteros*edasticity |journal=[[Econometrica]] |volume=53 |issue=2 |page=483 |jstor=1911250 }}</ref><ref name=White>
{{cite journal
| doi = 10.2307/1912934
| title = A heteroskedasticity-consistent covariance matrix estimator and a direct test for heteroskedasticity
| year = 1980
| author = White, Halbert
| journal = Econometrica
| volume = 48 | issue = 4 | pages = 817–838
| jstor = 1912934
| citeseerx = 10.1.1.11.7646
}}</ref><ref name=Gujarati>
{{cite book
| last1=Gujarati | first1=D. N.
| last2=Porter | first2=D. C.|author2-link=Dawn C. Porter
| year=2009
| title=Basic Econometrics
| edition=Fifth
| publisher=McGraw-Hill Irwin
| location=Boston
| isbn=9780073375779
| page=400
}}</ref>
假设一个变量是同方差性的，而实际上它是异方差性的（{{IPAc-en|ˌ|h|ɛ|t|ər|oʊ|s|k|ə|ˈ|d|æ|s|t|ɪ|k}}），将导致[[有偏估计器|无偏]]但[[效率 (统计学)|低效]]的[[点估计]]以及有偏的[[标准误差]]估计，并可能导致过高估计[[拟合优度]]，如通过[[皮尔逊积矩相关系数|皮尔逊系数]]测量的。

异方差性的存在是[[回归分析]]和[[方差分析]]中的一个主要关注点，因为它使得假设[[模型错误]]都具有相同方差的[[统计假设检验]]失效。尽管在异方差性存在的情况下，[[普通最小二乘]]估计量仍然是无偏的，但它是低效的，基于同方差性假设的推断是误导的。在那种情况下，过去常常使用[[广义最小二乘]]（GLS）。<ref>{{cite book |last=Goldberger |first=Arthur S. |url=https://archive.org/details/econometrictheor0000gold |title=Econometric Theory |publisher=John Wiley & Sons |year=1964 |location=New York |pages=[https://archive.org/details/econometrictheor0000gold/page/238 238–243] |isbn=9780471311010 |author-link=Arthur Goldberger |url-access=registration}}</ref><ref>{{cite book |last=Johnston |first=J. |title=Econometric Methods |publisher=McGraw-Hill |year=1972 |location=New York |pages=214–221 |author-link=John Johnston (econometrician)}}</ref> 现在，计量经济学中的标准做法是包括[[异方差性一致标准误差]]而不是使用GLS，因为如果实际的[[Skedastic函数]]未知，GLS在小样本中可能表现出强烈的偏差。<ref name=":0">{{Cite book |last=Angrist |first=Joshua D. |url=https://www.degruyter.com/document/doi/10.1515/9781400829828/html |title=Mostly Harmless Econometrics: An Empiricist's Companion |last2=Pischke |first2=Jörn-Steffen |date=2009-12-31 |publisher=Princeton University Press |isbn=978-1-4008-2982-8 |doi=10.1515/9781400829828}}</ref>

因为异方差性关注错误的第二[[矩 (数学)|矩]]的[[期望值|期望]]，其存在被称为第二顺序的[[统计模型规范|规范误差]]。<ref>{{cite book |last1=Long |first1=J. Scott |title=Testing Structural Equation Models |last2=Trivedi |first2=Pravin K. |publisher=Sage |year=1993 |isbn=978-0-8039-4506-7 |editor-last=Bollen |editor-first=Kenneth A. |location=London |pages=66–110 |chapter=Some Specification Tests for the Linear Regression Model |author1-link=J. Scott Long |editor2-last=Long |editor2-first=J. Scott}}</ref>

[[计量经济学家]][[Robert Engle]]因其在异方差性存在的情况下对[[回归分析]]的研究，并因此提出[[自回归条件异方差性]]（ARCH）建模技术，被授予2003年[[诺贝尔经济学奖]]。<ref>{{Cite journal |last=Engle |first=Robert F. |date=July 1982 |title=Autoregressive Conditional Heteroscedasticity with Estimates of the Variance of United Kingdom Inflation |journal=Econometrica |volume=50 |issue=4 |pages=987–1007 |doi=10.2307/1912773 |issn=0012-9682 |jstor=1912773}}</ref>

== '''定义''' ==
考虑[[简单线性回归|线性回归]]方程[math]y_i= x_i \beta_i + \varepsilon_i,\ i = 1,\ldots, N,[/math]，其中依赖随机变量[math]y_i[/math]等于确定性变量[math]x_i[/math]乘以系数[math]\beta_i[/math]加上一个平均值为零的随机干扰项[math]\varepsilon_i[/math]。如果[math]\varepsilon_i[/math]的方差是一个常数[math]\sigma^2[/math]，则干扰项是同方差的；否则，它们是异方差的。特别地，如果[math]\varepsilon_i[/math]的方差依赖于[math]i[/math]或[math]x_i[/math]的值，则干扰项是异方差的。一种可能的异方差性是如果[math]\sigma_i^2= x_i \sigma^2[/math]（一个[[scedastic函数]]的例子），因此方差与[math]x[/math]的值成比例。

更一般地，如果干扰项[math]\varepsilon_i[/math]在[math]i[/math]上的方差-协方差矩阵的对角线非常数，则干扰项是异方差的。<ref>Peter Kennedy, ''A Guide to Econometrics'', 第五版, p. 137.</ref> 下面的矩阵是当只有三个观察值跨越时间时的协方差。矩阵A中的干扰项是同方差的；这是OLS是最佳线性无偏估计器的简单情况。矩阵B和C中的干扰项是异方差的。在矩阵B中，方差随时间变化，随时间稳定增加；在矩阵C中，方差依赖于[math]x[/math]的值。矩阵D中的干扰项是同方差的，因为对角线方差是常数，即使非对角线协方差非零且由于不同的原因普通最小二乘法是低效的：序列相关。

[math]A=\sigma^{2}\left[\begin{array}{lll}1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1\end{array}\right] \quad B=\sigma^{2}\left[\begin{array}{lll}1 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 3\end{array}\right] \quad C=\sigma^{2}\left[\begin{array}{ccc}x_{1} & 0 & 0 \\ 0 & x_{2} & 0 \\ 0 & 0 & x_{3}\end{array}\right] \quad D=\sigma^{2}\left[\begin{array}{ccc}1 & \rho & \rho^{2} \\ \rho & 1 & \rho \\ \rho^{2} & \rho & 1\end{array}\right][/math]

== '''示例''' ==
异方差性通常发生在观察值的大小之间存在较大差异时。

异方差性的一个典型例子是收入与餐饮支出之间的关系。一个富有的人有时可能会吃便宜的食物，而其他时候则吃昂贵的食物。一个贫穷的人几乎总是吃便宜的食物。因此，高收入者在食物支出上显示出更大的变异性。

在一次火箭发射中，观察者每秒测量一次火箭行进的距离。在最初的几秒钟内，测量结果可能精确到最近的厘米。五分钟后，由于距离增加、大气扭曲和其他各种因素，测量的准确性可能仅好到100 m。所以，距离的测量可能表现出异方差性。

=='''后果'''==
经典线性回归模型的一个假设是不存在异方差性。打破这一假设意味着[[高斯-马尔科夫定理]]不适用，这意味着[[普通最小二乘法|OLS]]估计量不是[[最佳线性无偏估计器|最佳线性无偏估计器(BLUE)]]，其方差也不是所有其他无偏估计器中最低的。
异方差性不会导致普通最小二乘法系数估计值有偏，尽管它可以导致普通最小二乘法估计的方差（因此，系数的标准误差）有偏，可能高于或低于真实的人口方差。因此，使用异方差数据进行回归分析仍将提供预测变量和结果之间关系的无偏估计，但标准误差和因此从数据分析获得的推断是可疑的。有偏的标准误差导致有偏的推断，所以假设检验的结果可能是错误的。例如，如果对一个异方差数据集进行OLS，产生有偏的标准误差估计，研究人员可能在给定的[[统计显著性|显著性]]水平下未能拒绝原假设，而实际上这个原假设与实际人群的特征不符（犯了[[第一类和第二类错误|第二类错误]]）。

在某些假设下，即使数据不来自[[正态分布]]，OLS估计量在适当的标准化和中心化后也具有正态[[渐进分布]]。这一结果用于在进行[[假设检验]]时，就算在异方差性下，也使用正态分布或[[卡方分布]]（取决于[[检验统计量]]的计算方式）。更确切地说，存在异方差性时，OLS估计量在适当的标准化和中心化后是渐进正态的，其方差-协方差[[矩阵(数学)|矩阵]]与同方差情况下不同。1980年，White提出了OLS估计量的渐进分布的方差-协方差矩阵的[[一致估计量]]。<ref name="White" />这验证了在异方差性下使用OLS估计量和White的方差-协方差估计量进行假设测试的有效性。

异方差性也是[[方差分析|ANOVA]]问题中遇到的一个主要实际问题。<ref>{{cite journal |last1=Jinadasa |first1=Gamage |last2=Weerahandi |first2=Sam |year=1998 |title=一些在单因素方差分析中的测试的尺寸性能 |journal=统计学通信 - 模拟与计算 |volume=27 |issue=3 |pages=625 |doi=10.1080/03610919808813500}}</ref>
在某些情况下，[[F检验]]仍可使用。<ref>{{cite journal |author=Bathke, A |year=2004 |title=在某些不等方差和非正态数据的平衡设计中，ANOVA F检验仍可使用 |journal=统计计划与推断杂志 |volume=126 |issue=2 |pages=413–422 |doi=10.1016/j.jspi.2003.09.010}}</ref>

然而，有人说，[[计量经济学]]中的学生不应对异方差性反应过度。<ref name="Gujarati" />一位作者写道，“只有当问题严重时，才值得纠正不等误差方差。”<ref>{{cite book |last=Fox |first=J. |title=应用回归分析、线性模型及相关方法 |publisher=Sage Publications |year=1997 |location=California |page=306}}（引用自Gujarati等，2009年，第400页）</ref>此外，另一个警告是，“异方差性从来都不是抛弃一个否则良好的模型的理由。”<ref name="Gujarati" /><ref>{{cite journal |last=Mankiw |first=N. G. |author-link=N. Gregory Mankiw |year=1990 |title=宏观经济学快速复习课程 |journal=[[经济文献杂志]] |volume=28 |issue=4 |pages=1645–1660 [p. 1648] |doi=10.3386/w3256 |jstor=2727441 |doi-access=free}}</ref>随着[[异方差性一致标准误差]]的出现，允许在不指定误差项的条件二阶矩的情况下进行推断，测试条件同方差性不再像过去那样重要。<ref name=":0" />

然而，对于任何非线性模型（例如[[Logit]]和[[Probit]]模型），异方差性有更严重的后果：参数的[[最大似然估计|最大似然估计]]（MLE）通常会有偏且不一致（除非似然函数被修改以正确考虑异方差性的确切形式或分布是[[指数族|线性指数族]]的成员且条件期望函数被正确指定）。<ref>{{cite web |last=Giles |first=Dave |date=2013年5月8日 |title=非线性模型的稳健标准误差 |url=http://davegiles.blogspot.com/2013/05/robust-standard-errors-for-nonlinear.html |work=计量经济学拍子}}</ref><ref>{{Cite journal |last=Gourieroux |first=C. |last2=Monfort |first2=A. |last3=Trognon |first3=A. |date=1984 |title=伪最大似然方法：理论 |url=https://www.jstor.org/stable/1913471 |journal=计量经济学 |volume=52 |issue=3 |pages=681–700 |doi=10.2307/1913471 |issn=0012-9682}}</ref>然而，在二元选择模型（[[Logit]]或[[Probit]]）的背景下，异方差性只会对错误指定的MLE的渐进均值产生正向缩放效应（即忽略异方差性的模型）。<ref>{{cite journal |last1=Ginker |first1=T. |last2=Lieberman |first2=O. |year=2017 |title=对条件异方差性的二元选择模型的鲁棒性 |journal=经济学信函 |volume=150 |pages=130–134 |doi=10.1016/j.econlet.2016.11.024}}</ref>因此，基于错误指定的MLE的预测将保持正确。此外，错误指定的Probit和Logit MLE将是渐进正态分布的，这允许进行通常的显著性测试（使用适当的方差-协方差矩阵）。然而，关于一般假设测试，正如[[William Greene (economist)|Greene]]所指出的，“仅仅计算一个鲁棒的协方差矩阵对于一个否则不一致的估计器并不赋予它救赎。因此，在这种设置下鲁棒协方差矩阵的优点是不明确的。”<ref>{{cite book |last=Greene |first=William H. |title=计量经济分析 |publisher=Pearson Education |year=2012 |isbn=978-0-273-75356-8 |edition=第七版 |location=Boston |pages=730–755 [p. 733] |chapter=二元选择模型中的估计与推断 |author-link=William Greene (economist) |chapter-url=https://books.google.com/books?id=-WFPYgEACAAJ&pg=PA733}}</ref>

== '''修正''' ==
针对异方差性，存在几种常见的修正方法。它们包括：
* 数据的稳定化转换，例如[[Logarithmic scale|对数化]]数据。未对数化且呈指数增长的序列随着时间的推移往往表现出越来越大的变异性。然而，按百分比计算的变异性可能相对稳定。
* 使用不同的模型规格（不同的''X''变量，或者可能是''X''变量的非线性转换）。
* 应用[[weighted least squares|加权最小二乘]]估计方法，在该方法中，将OLS应用于''X''和''Y''的转换值或加权值。权重随观察值变化，通常取决于错误方差的变化。在一种变体中，权重直接与因变量的大小相关，这对应于最小二乘百分比回归。<ref>{{cite journal |author=Tofallis, C |year=2008 |title=Least Squares Percentage Regression |journal=Journal of Modern Applied Statistical Methods |volume=7 |pages=526–534 |doi=10.2139/ssrn.1406472 |ssrn=1406472|url=https://digitalcommons.wayne.edu/jmasm/vol7/iss2/18 }}</ref>
* [[Heteroscedasticity-consistent standard errors|异方差一致标准误差]]（HCSE），尽管仍有偏差，但改善了OLS估计。<ref name="White" /> HCSE是具有异方差的回归模型中标准误差的一致估计量。该方法在不改变系数值的情况下纠正异方差。如果存在异方差，此方法可能优于常规OLS，因为它可以进行纠正，然而，如果数据是同方差的，标准误差等同于OLS估计的常规标准误差。已经提出了几种改进White方法计算异方差一致标准误差的修正，具有更好的有限样本性质。
* [[Wild bootstrapping|野生自助法]]可以作为一种[[Resampling (statistics)|重采样方法]]，该方法尊重误差项条件方差的差异。另一种选择是重采样观察值而不是误差。注意，不考虑观察值相关值的重采样误差会强制同方差性，因此产生错误的推断。
* 使用[[MINQUE]]或即使是常用的估计量[math]s_i^2 = (n_i - 1)^{-1} \sum_j \left(y_{ij} - \bar{y}_i\right)^2[/math]（对于[math]i=1,2,...,k[/math]个独立样本，每个样本有[math]j=1, 2, ..., n_i[/math]个观察值），当每个样本的观察值数量较大（[math]n_i > 5[/math]）时，其效率损失不大，尤其是对于小数量的独立样本。<ref>{{cite journal |author=J. N. K. Rao |date=March 1973 |title=On the Estimation of Heteroscedastic Variances |journal=Biometrics |volume=29 |pages=11–24 |doi=10.2307/2529672 |jstor=2529672 |number=1}}</ref>

== '''测试''' ==
[[File:Hsked residual compare.svg|thumb|right|模拟的一阶异方差数据残差的绝对值]]
可以使用[[Breusch–Pagan test|布鲁施-帕根检验]]来测试残差的同方差性，<ref>{{Cite journal|last1=Breusch|first1=T. S.|last2=Pagan|first2=A. R.|date=1979|title=A Simple Test for Heteroscedasticity and Random Coefficient Variation|url=https://www.jstor.org/stable/1911963|journal=Econometrica|volume=47|issue=5|pages=1287–1294|doi=10.2307/1911963|jstor=1911963|issn=0012-9682}}</ref>该检验对独立变量进行残差平方的辅助回归。从这个辅助回归中，保留解释的平方和，除以二，然后成为卡方分布的检验统计量，自由度等于独立变量的数量。<ref>{{Cite web|last=Ullah|first=Muhammad Imdad|date=2012-07-26|title=Breusch Pagan Test for Heteroscedasticity|url=https://itfeature.com/correlation-and-regression-analysis/ols-assumptions/breusch-pagan-test|access-date=2020-11-28|website=Basic Statistics and Data Analysis|language=en-US}}</ref> 这个卡方检验的零假设是同方差性，备择假设则表明异方差性。由于布鲁施-帕根检验对于正态性的偏离或小样本尺寸敏感，因此通常使用Koenker–Bassett或“广义布鲁施-帕根”检验代替。<ref name=":1" />{{Additional citation needed|date=November 2020}} 从辅助回归中，保留R平方值，然后乘以样本大小，成为卡方分布的检验统计量（并使用相同的自由度）。尽管对于Koenker–Bassett检验不是必需的，但布鲁施-帕根检验要求将残差平方也除以样本大小除以残差平方和。<ref name=":1">{{cite web|last1=Pryce|first1=Gwilym|title=Heteroscedasticity: Testing and Correcting in SPSS|url=http://reocities.com/Heartland/4205/SPSS/HeteroscedasticityTestingAndCorrectingInSPSS1.pdf|url-status=live|archive-url=https://web.archive.org/web/20170327080250/http://www.reocities.com/Heartland/4205/SPSS/HeteroscedasticityTestingAndCorrectingInSPSS1.pdf|archive-date=2017-03-27|access-date=26 March 2017|pages=12–18}}</ref> 可以使用[[Goldfeld–Quandt test|戈尔德菲尔德-昆特检验]]对组间异方差性进行测试。<ref>{{Cite journal |last=Baum |first=Christopher F. |date=2006 |title=Stata Tip 38: Testing for Groupwise Heteroskedasticity |journal=The Stata Journal: Promoting Communications on Statistics and Stata |language=en |volume=6 |issue=4 |pages=590–592 |doi=10.1177/1536867X0600600412 |s2cid=117349246 |issn=1536-867X|doi-access=free }}</ref>

由于异方差一致标准误差的标准使用和[[Pre-test|预检验]]问题，计量经济学家如今很少使用条件异方差性的检验。<ref name=":0" />

=== 测试列表 ===
尽管可以将组间异方差性的检验正式视为回归模型内部测试的一种特殊情况，但某些检验具有特定于此情况的结构。

{{Columns-start}}
; 回归中的测试
*[[Levene's test|莱文检验]]
*[[Goldfeld–Quandt test|戈尔德菲尔德-昆特检验]]
*[[Park test|帕克检验]]<ref>{{cite journal |author=R. E. Park |year=1966 |title=Estimation with Heteroscedastic Error Terms |journal=Econometrica |volume=34 |issue=4 |pages=888 |doi=10.2307/1910108 |jstor=1910108}}</ref>
*[[Glejser test|格雷瑟检验]]<ref>{{cite journal |last=Glejser |first=H. |year=1969 |title=A new test for heteroscedasticity |journal=[[Journal of the American Statistical Association]] |volume=64 |issue=325 |pages=316–323 |doi=10.1080/01621459.1969.10500976}}</ref><ref>{{Cite journal |last1=Machado |first1=José A. F. |last2=Silva |first2=J. M. C. Santos |year=2000 |title=Glejser's test revisited |journal=[[Journal of Econometrics]] |volume=97 |issue=1 |pages=189–202 |doi=10.1016/S0304-4076(00)00016-6}}</ref>
*[[Brown–Forsythe test|布朗-福赛斯检验]]
*[[Harrison–McCabe test|哈里森-麦卡布检验]]
*[[Breusch–Pagan test|布鲁施-帕根检验]]
*[[White test|怀特检验]]<ref name="White" />
*[[Cook–Weisberg test|库克-韦斯伯格检验]]
{{column}}
; 分组数据的测试
*[[F-test of equality of variances|方差齐性F检验]]
*[[Cochran's C test|科克兰C检验]]
*[[Hartley's test|哈特利检验]]
*[[Bartlett's test|巴特利检验]]
{{columns-end}}

=='''广义'''==

===同方差分布===

两个或更多的[[正态分布]]，[math]N(\mu_1,\Sigma_1), N(\mu_2,\Sigma_2), [/math]如果它们在[[协方差矩阵|协方差]]矩阵中共享相同的对角线，[math]\Sigma_1{ii} = \Sigma_2{jj},\ \forall i=j.[/math]且它们的非对角线条目为零，则它们既是同方差的，也缺乏[[序列相关性]]。同方差分布在衍生统计[[模式识别]]和[[机器学习]]算法中特别有用。一个假设同方差性的流行算法示例是费舍尔的[[线性判别分析]]。
同方差性的概念可以应用于球面上的分布。<ref>Hamsici, Onur C.; Martinez, Aleix M. (2007) [ "Spherical-Homoscedastic Distributions: The Equivalency of Spherical and Normal Distributions in Classification"], ''Journal of Machine Learning Research'', 8, 1583-1623</ref>

===多变量数据===
同方差性和异方差性的研究已经推广到了多变量情况，它处理的是向量观测值的协方差而不是标量观测值的方差。其中一个版本是使用协方差矩阵作为多变量离散度的衡量。几位作者在此背景下考虑了测试，包括回归和分组数据情形。<ref>{{Cite journal | last1 = Holgersson | first1 = H. E. T. | last2 = Shukur | first2 = G. | doi = 10.1080/00949650410001646979 | title = Testing for multivariate heteroscedasticity | journal = Journal of Statistical Computation and Simulation | volume = 74 | issue = 12 | pages = 879 | year = 2004 | hdl = 2077/24416 | s2cid = 121576769 | hdl-access = free }}</ref><ref>{{Cite journal
| last1 = Gupta | first1 = A. K.
| last2 = Tang | first2 = J.
| doi = 10.1093/biomet/71.3.555
| title = Distribution of likelihood ratio statistic for testing equality of covariance matrices of multivariate Gaussian models
| journal = Biometrika
| volume = 71
| issue = 3
| pages = 555–559
| year = 1984
| jstor=2336564
}}</ref> [[Bartlett's test]]用于分组数据之间的异方差性，在单变量情况下最为常见，也已被扩展到多变量情况，但可行的解决方案仅存在于2个组之间。<ref>{{Cite book | last1 = d'Agostino | first1 = R. B. | last2 = Russell | first2 = H. K. | doi = 10.1002/0470011815.b2a13048 | chapter = Multivariate Bartlett Test | title = Encyclopedia of Biostatistics | year = 2005 | isbn = 978-0470849071 }}</ref> 对于两个以上的组存在近似方法，它们都称为[[Box's M test]]。

== '''节点使用的R语言示例代码''' ==
=== 方差齐性检验 ===
<syntaxhighlight lang="R">

bartlett.test(x, ...)

leveneTest(y, ...)

fligner.test(x, ...)

</syntaxhighlight>
方法参见'''R package: car'''的官方文档

== '''节点使用指南''' ==
* 用来检验两个或多个独立样本的变量方差是否相等的统计方法
* 在进行方差分析（ANOVA）或其他需要假设各组方差相等的统计检验前，常常需要先进行方差齐性检验

=== 方法选择 ===
* Bartlett：对于数据的正态性要求比较高，因为它基于数据分布是正态的假设。最好用于各样本量相等且数据接近正态分布的情况
* Levene：对数据的正态性要求不如Bartlett检验那么严格，因此相对来说更加稳健。可以用于数据不满足正态分布的情况，比如有偏态或峰态的数据。
* Fligner-Killeen：一种非参数检验，对数据的分布形态没有特定要求，因此非常稳健。适合用于非正态分布数据或顺序数据的方差齐性检验。

=== 参数配置 ===
* 统计变量：选择一个或多个连续型数值变量，每个变量与分组变量做一次方差齐性检验
* 分组变量：选择一个分类分组变量
* 检验方法：Bartlett，Levene，Fligner-Killeen
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量和分组变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 不同组别的样本量差异过大可能会影响检验的准确性
* 当数据违反方差齐性假设时，可以考虑对数据进行转换（如对数转换、平方根转换等）来减少方差不一致的问题

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:方差分析]]

方差齐性检验

2024-02-09T05:59:14Z

RainW：

{{Infobox nodebasic
|nodename=方差齐性检验
|nodeimage=Test for Homogeneity of Variances.png
|icon=Test for Homogeneity of Variances.svg
|simpleicon=Test for Homogeneity of Variances_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Test for Homogeneity of Variances
|abbreviation=THomVar
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=方差齐性检验是一种统计检验方法，用于检验两个或多个样本的方差是否相等。这种检验通常用于分析方差（ANOVA）之前，以确定数据是否满足方差齐性的假设。方差齐性是许多统计方法（如t检验和ANOVA）的一个重要假设。如果数据不满足方差齐性的假设，那么这些方法的结果可能会不准确。因此，在使用这些方法之前，通常需要进行方差齐性检验来确定数据是否满足这一假设。该模块整合了Levene检验、Bartlett检验和Fligner-Killeen检验三种方法如果方差齐性检验表明数据不满足方差齐性的假设，那么您可以使用一些方法来纠正这一问题。例如，您可以对数据进行变换，或者使用不需要方差齐性假设的非参数方法来分析数据。用途：用于检验两个或更多的样本组的方差是否相等。如ANOVA（方差分析），需要样本组之间的方差齐性作为预设条件。如果这个条件不满足，那么方差分析的结果可能会出现偏差。参数：选择分组变量，和连续型数值变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=SplittingNephelogram
|nodeavailabletablelist=Stats-Value;P-Value
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/方差齐性检验
|previousnode=[[多重比较方差分析]]
|nextnode=[[Welch检验]]
}}

在[[统计学]]中，如果一系列[[随机变量]]的所有随机变量都具有相同的有限[[方差]]，则称为'''同方差性'''（{{IPAc-en|ˌ|h|oʊ|m|oʊ|s|k|ə|ˈ|d|æ|s|t|ɪ|k}}），这也被称为'''方差齐性'''。相对应的概念被称为'''异方差性'''，也称为'''方差异质性'''。''同'''k'''方差性''和''异'''k'''方差性''的拼写也经常被使用。<ref>关于术语的希腊语词源，请见{{cite journal |first=J. Huston |last=McCulloch |year=1985 |title=On Heteros*edasticity |journal=[[Econometrica]] |volume=53 |issue=2 |page=483 |jstor=1911250 }}</ref><ref name=White>
{{cite journal
| doi = 10.2307/1912934
| title = A heteroskedasticity-consistent covariance matrix estimator and a direct test for heteroskedasticity
| year = 1980
| author = White, Halbert
| journal = Econometrica
| volume = 48 | issue = 4 | pages = 817–838
| jstor = 1912934
| citeseerx = 10.1.1.11.7646
}}</ref><ref name=Gujarati>
{{cite book
| last1=Gujarati | first1=D. N.
| last2=Porter | first2=D. C.|author2-link=Dawn C. Porter
| year=2009
| title=Basic Econometrics
| edition=Fifth
| publisher=McGraw-Hill Irwin
| location=Boston
| isbn=9780073375779
| page=400
}}</ref>
假设一个变量是同方差性的，而实际上它是异方差性的（{{IPAc-en|ˌ|h|ɛ|t|ər|oʊ|s|k|ə|ˈ|d|æ|s|t|ɪ|k}}），将导致[[有偏估计器|无偏]]但[[效率 (统计学)|低效]]的[[点估计]]以及有偏的[[标准误差]]估计，并可能导致过高估计[[拟合优度]]，如通过[[皮尔逊积矩相关系数|皮尔逊系数]]测量的。

异方差性的存在是[[回归分析]]和[[方差分析]]中的一个主要关注点，因为它使得假设[[模型错误]]都具有相同方差的[[统计假设检验]]失效。尽管在异方差性存在的情况下，[[普通最小二乘]]估计量仍然是无偏的，但它是低效的，基于同方差性假设的推断是误导的。在那种情况下，过去常常使用[[广义最小二乘]]（GLS）。<ref>{{cite book |last=Goldberger |first=Arthur S. |url=https://archive.org/details/econometrictheor0000gold |title=Econometric Theory |publisher=John Wiley & Sons |year=1964 |location=New York |pages=[https://archive.org/details/econometrictheor0000gold/page/238 238–243] |isbn=9780471311010 |author-link=Arthur Goldberger |url-access=registration}}</ref><ref>{{cite book |last=Johnston |first=J. |title=Econometric Methods |publisher=McGraw-Hill |year=1972 |location=New York |pages=214–221 |author-link=John Johnston (econometrician)}}</ref> 现在，计量经济学中的标准做法是包括[[异方差性一致标准误差]]而不是使用GLS，因为如果实际的[[Skedastic函数]]未知，GLS在小样本中可能表现出强烈的偏差。<ref name=":0">{{Cite book |last=Angrist |first=Joshua D. |url=https://www.degruyter.com/document/doi/10.1515/9781400829828/html |title=Mostly Harmless Econometrics: An Empiricist's Companion |last2=Pischke |first2=Jörn-Steffen |date=2009-12-31 |publisher=Princeton University Press |isbn=978-1-4008-2982-8 |doi=10.1515/9781400829828}}</ref>

因为异方差性关注错误的第二[[矩 (数学)|矩]]的[[期望值|期望]]，其存在被称为第二顺序的[[统计模型规范|规范误差]]。<ref>{{cite book |last1=Long |first1=J. Scott |title=Testing Structural Equation Models |last2=Trivedi |first2=Pravin K. |publisher=Sage |year=1993 |isbn=978-0-8039-4506-7 |editor-last=Bollen |editor-first=Kenneth A. |location=London |pages=66–110 |chapter=Some Specification Tests for the Linear Regression Model |author1-link=J. Scott Long |editor2-last=Long |editor2-first=J. Scott}}</ref>

[[计量经济学家]][[Robert Engle]]因其在异方差性存在的情况下对[[回归分析]]的研究，并因此提出[[自回归条件异方差性]]（ARCH）建模技术，被授予2003年[[诺贝尔经济学奖]]。<ref>{{Cite journal |last=Engle |first=Robert F. |date=July 1982 |title=Autoregressive Conditional Heteroscedasticity with Estimates of the Variance of United Kingdom Inflation |journal=Econometrica |volume=50 |issue=4 |pages=987–1007 |doi=10.2307/1912773 |issn=0012-9682 |jstor=1912773}}</ref>

== '''定义''' ==
考虑[[简单线性回归|线性回归]]方程[math]y_i= x_i \beta_i + \varepsilon_i,\ i = 1,\ldots, N,[/math]，其中依赖随机变量[math]y_i[/math]等于确定性变量[math]x_i[/math]乘以系数[math]\beta_i[/math]加上一个平均值为零的随机干扰项[math]\varepsilon_i[/math]。如果[math]\varepsilon_i[/math]的方差是一个常数[math]\sigma^2[/math]，则干扰项是同方差的；否则，它们是异方差的。特别地，如果[math]\varepsilon_i[/math]的方差依赖于[math]i[/math]或[math]x_i[/math]的值，则干扰项是异方差的。一种可能的异方差性是如果[math]\sigma_i^2= x_i \sigma^2[/math]（一个[[scedastic函数]]的例子），因此方差与[math]x[/math]的值成比例。

更一般地，如果干扰项[math]\varepsilon_i[/math]在[math]i[/math]上的方差-协方差矩阵的对角线非常数，则干扰项是异方差的。<ref>Peter Kennedy, ''A Guide to Econometrics'', 第五版, p. 137.</ref> 下面的矩阵是当只有三个观察值跨越时间时的协方差。矩阵A中的干扰项是同方差的；这是OLS是最佳线性无偏估计器的简单情况。矩阵B和C中的干扰项是异方差的。在矩阵B中，方差随时间变化，随时间稳定增加；在矩阵C中，方差依赖于[math]x[/math]的值。矩阵D中的干扰项是同方差的，因为对角线方差是常数，即使非对角线协方差非零且由于不同的原因普通最小二乘法是低效的：序列相关。

[math]\begin{align}
A &= \sigma^2\begin{bmatrix}
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1 \\
\end{bmatrix} &
B &= \sigma^2\begin{bmatrix}
1 & 0 & 0 \\
0 & 2 & 0 \\
0 & 0 & 3 \\
\end{bmatrix} &
C &= \sigma^2\begin{bmatrix}
x_1 & 0 & 0 \\
0 & x_2 & 0 \\
0 & 0 & x_3 \\
\end{bmatrix} &
D &= \sigma^2\begin{bmatrix}
1 & \rho & \rho^2 \\
\rho & 1 & \rho \\
\rho^2 & \rho & 1 \\
\end{bmatrix}
\end{align}[/math]

== '''示例''' ==
异方差性通常发生在观察值的大小之间存在较大差异时。

异方差性的一个典型例子是收入与餐饮支出之间的关系。一个富有的人有时可能会吃便宜的食物，而其他时候则吃昂贵的食物。一个贫穷的人几乎总是吃便宜的食物。因此，高收入者在食物支出上显示出更大的变异性。

在一次火箭发射中，观察者每秒测量一次火箭行进的距离。在最初的几秒钟内，测量结果可能精确到最近的厘米。五分钟后，由于距离增加、大气扭曲和其他各种因素，测量的准确性可能仅好到100 m。所以，距离的测量可能表现出异方差性。

=='''后果'''==
经典线性回归模型的一个假设是不存在异方差性。打破这一假设意味着[[高斯-马尔科夫定理]]不适用，这意味着[[普通最小二乘法|OLS]]估计量不是[[最佳线性无偏估计器|最佳线性无偏估计器(BLUE)]]，其方差也不是所有其他无偏估计器中最低的。
异方差性不会导致普通最小二乘法系数估计值有偏，尽管它可以导致普通最小二乘法估计的方差（因此，系数的标准误差）有偏，可能高于或低于真实的人口方差。因此，使用异方差数据进行回归分析仍将提供预测变量和结果之间关系的无偏估计，但标准误差和因此从数据分析获得的推断是可疑的。有偏的标准误差导致有偏的推断，所以假设检验的结果可能是错误的。例如，如果对一个异方差数据集进行OLS，产生有偏的标准误差估计，研究人员可能在给定的[[统计显著性|显著性]]水平下未能拒绝原假设，而实际上这个原假设与实际人群的特征不符（犯了[[第一类和第二类错误|第二类错误]]）。

在某些假设下，即使数据不来自[[正态分布]]，OLS估计量在适当的标准化和中心化后也具有正态[[渐进分布]]。这一结果用于在进行[[假设检验]]时，就算在异方差性下，也使用正态分布或[[卡方分布]]（取决于[[检验统计量]]的计算方式）。更确切地说，存在异方差性时，OLS估计量在适当的标准化和中心化后是渐进正态的，其方差-协方差[[矩阵(数学)|矩阵]]与同方差情况下不同。1980年，White提出了OLS估计量的渐进分布的方差-协方差矩阵的[[一致估计量]]。<ref name="White" />这验证了在异方差性下使用OLS估计量和White的方差-协方差估计量进行假设测试的有效性。

异方差性也是[[方差分析|ANOVA]]问题中遇到的一个主要实际问题。<ref>{{cite journal |last1=Jinadasa |first1=Gamage |last2=Weerahandi |first2=Sam |year=1998 |title=一些在单因素方差分析中的测试的尺寸性能 |journal=统计学通信 - 模拟与计算 |volume=27 |issue=3 |pages=625 |doi=10.1080/03610919808813500}}</ref>
在某些情况下，[[F检验]]仍可使用。<ref>{{cite journal |author=Bathke, A |year=2004 |title=在某些不等方差和非正态数据的平衡设计中，ANOVA F检验仍可使用 |journal=统计计划与推断杂志 |volume=126 |issue=2 |pages=413–422 |doi=10.1016/j.jspi.2003.09.010}}</ref>

然而，有人说，[[计量经济学]]中的学生不应对异方差性反应过度。<ref name="Gujarati" />一位作者写道，“只有当问题严重时，才值得纠正不等误差方差。”<ref>{{cite book |last=Fox |first=J. |title=应用回归分析、线性模型及相关方法 |publisher=Sage Publications |year=1997 |location=California |page=306}}（引用自Gujarati等，2009年，第400页）</ref>此外，另一个警告是，“异方差性从来都不是抛弃一个否则良好的模型的理由。”<ref name="Gujarati" /><ref>{{cite journal |last=Mankiw |first=N. G. |author-link=N. Gregory Mankiw |year=1990 |title=宏观经济学快速复习课程 |journal=[[经济文献杂志]] |volume=28 |issue=4 |pages=1645–1660 [p. 1648] |doi=10.3386/w3256 |jstor=2727441 |doi-access=free}}</ref>随着[[异方差性一致标准误差]]的出现，允许在不指定误差项的条件二阶矩的情况下进行推断，测试条件同方差性不再像过去那样重要。<ref name=":0" />

然而，对于任何非线性模型（例如[[Logit]]和[[Probit]]模型），异方差性有更严重的后果：参数的[[最大似然估计|最大似然估计]]（MLE）通常会有偏且不一致（除非似然函数被修改以正确考虑异方差性的确切形式或分布是[[指数族|线性指数族]]的成员且条件期望函数被正确指定）。<ref>{{cite web |last=Giles |first=Dave |date=2013年5月8日 |title=非线性模型的稳健标准误差 |url=http://davegiles.blogspot.com/2013/05/robust-standard-errors-for-nonlinear.html |work=计量经济学拍子}}</ref><ref>{{Cite journal |last=Gourieroux |first=C. |last2=Monfort |first2=A. |last3=Trognon |first3=A. |date=1984 |title=伪最大似然方法：理论 |url=https://www.jstor.org/stable/1913471 |journal=计量经济学 |volume=52 |issue=3 |pages=681–700 |doi=10.2307/1913471 |issn=0012-9682}}</ref>然而，在二元选择模型（[[Logit]]或[[Probit]]）的背景下，异方差性只会对错误指定的MLE的渐进均值产生正向缩放效应（即忽略异方差性的模型）。<ref>{{cite journal |last1=Ginker |first1=T. |last2=Lieberman |first2=O. |year=2017 |title=对条件异方差性的二元选择模型的鲁棒性 |journal=经济学信函 |volume=150 |pages=130–134 |doi=10.1016/j.econlet.2016.11.024}}</ref>因此，基于错误指定的MLE的预测将保持正确。此外，错误指定的Probit和Logit MLE将是渐进正态分布的，这允许进行通常的显著性测试（使用适当的方差-协方差矩阵）。然而，关于一般假设测试，正如[[William Greene (economist)|Greene]]所指出的，“仅仅计算一个鲁棒的协方差矩阵对于一个否则不一致的估计器并不赋予它救赎。因此，在这种设置下鲁棒协方差矩阵的优点是不明确的。”<ref>{{cite book |last=Greene |first=William H. |title=计量经济分析 |publisher=Pearson Education |year=2012 |isbn=978-0-273-75356-8 |edition=第七版 |location=Boston |pages=730–755 [p. 733] |chapter=二元选择模型中的估计与推断 |author-link=William Greene (economist) |chapter-url=https://books.google.com/books?id=-WFPYgEACAAJ&pg=PA733}}</ref>

== '''修正''' ==
针对异方差性，存在几种常见的修正方法。它们包括：
* 数据的稳定化转换，例如[[Logarithmic scale|对数化]]数据。未对数化且呈指数增长的序列随着时间的推移往往表现出越来越大的变异性。然而，按百分比计算的变异性可能相对稳定。
* 使用不同的模型规格（不同的''X''变量，或者可能是''X''变量的非线性转换）。
* 应用[[weighted least squares|加权最小二乘]]估计方法，在该方法中，将OLS应用于''X''和''Y''的转换值或加权值。权重随观察值变化，通常取决于错误方差的变化。在一种变体中，权重直接与因变量的大小相关，这对应于最小二乘百分比回归。<ref>{{cite journal |author=Tofallis, C |year=2008 |title=Least Squares Percentage Regression |journal=Journal of Modern Applied Statistical Methods |volume=7 |pages=526–534 |doi=10.2139/ssrn.1406472 |ssrn=1406472|url=https://digitalcommons.wayne.edu/jmasm/vol7/iss2/18 }}</ref>
* [[Heteroscedasticity-consistent standard errors|异方差一致标准误差]]（HCSE），尽管仍有偏差，但改善了OLS估计。<ref name="White" /> HCSE是具有异方差的回归模型中标准误差的一致估计量。该方法在不改变系数值的情况下纠正异方差。如果存在异方差，此方法可能优于常规OLS，因为它可以进行纠正，然而，如果数据是同方差的，标准误差等同于OLS估计的常规标准误差。已经提出了几种改进White方法计算异方差一致标准误差的修正，具有更好的有限样本性质。
* [[Wild bootstrapping|野生自助法]]可以作为一种[[Resampling (statistics)|重采样方法]]，该方法尊重误差项条件方差的差异。另一种选择是重采样观察值而不是误差。注意，不考虑观察值相关值的重采样误差会强制同方差性，因此产生错误的推断。
* 使用[[MINQUE]]或即使是常用的估计量[math display="inline"]s_i^2 = (n_i - 1)^{-1} \sum_j \left(y_{ij} - \bar{y}_i\right)^2[/math]（对于[math]i=1,2,...,k[/math]个独立样本，每个样本有[math]j=1, 2, ..., n_i[/math]个观察值），当每个样本的观察值数量较大（[math]n_i > 5[/math]）时，其效率损失不大，尤其是对于小数量的独立样本。<ref>{{cite journal |author=J. N. K. Rao |date=March 1973 |title=On the Estimation of Heteroscedastic Variances |journal=Biometrics |volume=29 |pages=11–24 |doi=10.2307/2529672 |jstor=2529672 |number=1}}</ref>

== '''测试''' ==
[[File:Hsked residual compare.svg|thumb|right|模拟的一阶异方差数据残差的绝对值]]
可以使用[[Breusch–Pagan test|布鲁施-帕根检验]]来测试残差的同方差性，<ref>{{Cite journal|last1=Breusch|first1=T. S.|last2=Pagan|first2=A. R.|date=1979|title=A Simple Test for Heteroscedasticity and Random Coefficient Variation|url=https://www.jstor.org/stable/1911963|journal=Econometrica|volume=47|issue=5|pages=1287–1294|doi=10.2307/1911963|jstor=1911963|issn=0012-9682}}</ref>该检验对独立变量进行残差平方的辅助回归。从这个辅助回归中，保留解释的平方和，除以二，然后成为卡方分布的检验统计量，自由度等于独立变量的数量。<ref>{{Cite web|last=Ullah|first=Muhammad Imdad|date=2012-07-26|title=Breusch Pagan Test for Heteroscedasticity|url=https://itfeature.com/correlation-and-regression-analysis/ols-assumptions/breusch-pagan-test|access-date=2020-11-28|website=Basic Statistics and Data Analysis|language=en-US}}</ref> 这个卡方检验的零假设是同方差性，备择假设则表明异方差性。由于布鲁施-帕根检验对于正态性的偏离或小样本尺寸敏感，因此通常使用Koenker–Bassett或“广义布鲁施-帕根”检验代替。<ref name=":1" />{{Additional citation needed|date=November 2020}} 从辅助回归中，保留R平方值，然后乘以样本大小，成为卡方分布的检验统计量（并使用相同的自由度）。尽管对于Koenker–Bassett检验不是必需的，但布鲁施-帕根检验要求将残差平方也除以样本大小除以残差平方和。<ref name=":1">{{cite web|last1=Pryce|first1=Gwilym|title=Heteroscedasticity: Testing and Correcting in SPSS|url=http://reocities.com/Heartland/4205/SPSS/HeteroscedasticityTestingAndCorrectingInSPSS1.pdf|url-status=live|archive-url=https://web.archive.org/web/20170327080250/http://www.reocities.com/Heartland/4205/SPSS/HeteroscedasticityTestingAndCorrectingInSPSS1.pdf|archive-date=2017-03-27|access-date=26 March 2017|pages=12–18}}</ref> 可以使用[[Goldfeld–Quandt test|戈尔德菲尔德-昆特检验]]对组间异方差性进行测试。<ref>{{Cite journal |last=Baum |first=Christopher F. |date=2006 |title=Stata Tip 38: Testing for Groupwise Heteroskedasticity |journal=The Stata Journal: Promoting Communications on Statistics and Stata |language=en |volume=6 |issue=4 |pages=590–592 |doi=10.1177/1536867X0600600412 |s2cid=117349246 |issn=1536-867X|doi-access=free }}</ref>

由于异方差一致标准误差的标准使用和[[Pre-test|预检验]]问题，计量经济学家如今很少使用条件异方差性的检验。<ref name=":0" />

=== 测试列表 ===
尽管可以将组间异方差性的检验正式视为回归模型内部测试的一种特殊情况，但某些检验具有特定于此情况的结构。

{{Columns-start}}
; 回归中的测试
*[[Levene's test|莱文检验]]
*[[Goldfeld–Quandt test|戈尔德菲尔德-昆特检验]]
*[[Park test|帕克检验]]<ref>{{cite journal |author=R. E. Park |year=1966 |title=Estimation with Heteroscedastic Error Terms |journal=Econometrica |volume=34 |issue=4 |pages=888 |doi=10.2307/1910108 |jstor=1910108}}</ref>
*[[Glejser test|格雷瑟检验]]<ref>{{cite journal |last=Glejser |first=H. |year=1969 |title=A new test for heteroscedasticity |journal=[[Journal of the American Statistical Association]] |volume=64 |issue=325 |pages=316–323 |doi=10.1080/01621459.1969.10500976}}</ref><ref>{{Cite journal |last1=Machado |first1=José A. F. |last2=Silva |first2=J. M. C. Santos |year=2000 |title=Glejser's test revisited |journal=[[Journal of Econometrics]] |volume=97 |issue=1 |pages=189–202 |doi=10.1016/S0304-4076(00)00016-6}}</ref>
*[[Brown–Forsythe test|布朗-福赛斯检验]]
*[[Harrison–McCabe test|哈里森-麦卡布检验]]
*[[Breusch–Pagan test|布鲁施-帕根检验]]
*[[White test|怀特检验]]<ref name="White" />
*[[Cook–Weisberg test|库克-韦斯伯格检验]]
{{column}}
; 分组数据的测试
*[[F-test of equality of variances|方差齐性F检验]]
*[[Cochran's C test|科克兰C检验]]
*[[Hartley's test|哈特利检验]]
*[[Bartlett's test|巴特利检验]]
{{columns-end}}

=='''广义'''==

===同方差分布===

两个或更多的[[正态分布]]，[math]N(\mu_1,\Sigma_1), N(\mu_2,\Sigma_2), [/math]如果它们在[[协方差矩阵|协方差]]矩阵中共享相同的对角线，[math]\Sigma_1{ii} = \Sigma_2{jj},\ \forall i=j.[/math]且它们的非对角线条目为零，则它们既是同方差的，也缺乏[[序列相关性]]。同方差分布在衍生统计[[模式识别]]和[[机器学习]]算法中特别有用。一个假设同方差性的流行算法示例是费舍尔的[[线性判别分析]]。
同方差性的概念可以应用于球面上的分布。<ref>Hamsici, Onur C.; Martinez, Aleix M. (2007) [ "Spherical-Homoscedastic Distributions: The Equivalency of Spherical and Normal Distributions in Classification"], ''Journal of Machine Learning Research'', 8, 1583-1623</ref>

===多变量数据===
同方差性和异方差性的研究已经推广到了多变量情况，它处理的是向量观测值的协方差而不是标量观测值的方差。其中一个版本是使用协方差矩阵作为多变量离散度的衡量。几位作者在此背景下考虑了测试，包括回归和分组数据情形。<ref>{{Cite journal | last1 = Holgersson | first1 = H. E. T. | last2 = Shukur | first2 = G. | doi = 10.1080/00949650410001646979 | title = Testing for multivariate heteroscedasticity | journal = Journal of Statistical Computation and Simulation | volume = 74 | issue = 12 | pages = 879 | year = 2004 | hdl = 2077/24416 | s2cid = 121576769 | hdl-access = free }}</ref><ref>{{Cite journal
| last1 = Gupta | first1 = A. K.
| last2 = Tang | first2 = J.
| doi = 10.1093/biomet/71.3.555
| title = Distribution of likelihood ratio statistic for testing equality of covariance matrices of multivariate Gaussian models
| journal = Biometrika
| volume = 71
| issue = 3
| pages = 555–559
| year = 1984
| jstor=2336564
}}</ref> [[Bartlett's test]]用于分组数据之间的异方差性，在单变量情况下最为常见，也已被扩展到多变量情况，但可行的解决方案仅存在于2个组之间。<ref>{{Cite book | last1 = d'Agostino | first1 = R. B. | last2 = Russell | first2 = H. K. | doi = 10.1002/0470011815.b2a13048 | chapter = Multivariate Bartlett Test | title = Encyclopedia of Biostatistics | year = 2005 | isbn = 978-0470849071 }}</ref> 对于两个以上的组存在近似方法，它们都称为[[Box's M test]]。

== '''节点使用的R语言示例代码''' ==
=== 方差齐性检验 ===
<syntaxhighlight lang="R">

bartlett.test(x, ...)

leveneTest(y, ...)

fligner.test(x, ...)

</syntaxhighlight>
方法参见'''R package: car'''的官方文档

== '''节点使用指南''' ==
* 用来检验两个或多个独立样本的变量方差是否相等的统计方法
* 在进行方差分析（ANOVA）或其他需要假设各组方差相等的统计检验前，常常需要先进行方差齐性检验

=== 方法选择 ===
* Bartlett：对于数据的正态性要求比较高，因为它基于数据分布是正态的假设。最好用于各样本量相等且数据接近正态分布的情况
* Levene：对数据的正态性要求不如Bartlett检验那么严格，因此相对来说更加稳健。可以用于数据不满足正态分布的情况，比如有偏态或峰态的数据。
* Fligner-Killeen：一种非参数检验，对数据的分布形态没有特定要求，因此非常稳健。适合用于非正态分布数据或顺序数据的方差齐性检验。

=== 参数配置 ===
* 统计变量：选择一个或多个连续型数值变量，每个变量与分组变量做一次方差齐性检验
* 分组变量：选择一个分类分组变量
* 检验方法：Bartlett，Levene，Fligner-Killeen
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量和分组变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 不同组别的样本量差异过大可能会影响检验的准确性
* 当数据违反方差齐性假设时，可以考虑对数据进行转换（如对数转换、平方根转换等）来减少方差不一致的问题

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:方差分析]]

Welch检验

2024-02-09T01:52:56Z

RainW：

{{Infobox nodebasic
|nodename=Welch检验
|nodeimage=Welch Test.png
|icon=Welch Test.svg
|simpleicon=Welch Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Welch Test
|abbreviation=WlcTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=Welch检验是指采用Welch分布的统计量检验各组均值是否相等。Welch分布近似于F分布，采用Welch检验对方差齐性没有要求，所以当数据的分布不满足方差齐性的要求时，采用Welch检验比F检验更稳妥。用途：假设各组方差不等的情况下，用于检验两个或多个总体均值是否存在显著差异。参数：选择连续型数值变量和分类分组变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=SplittingNephelogram
|nodeavailabletablelist=F-Value;df;P-Value
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/Welch检验
|previousnode=[[方差齐性检验]]
|nextnode=[[球形检验]]
}}

在[[statistics|统计学]]中，'''韦尔奇的''t''检验'''，或称'''不等方差''t''检验'''，是一种两样本[[location test|位置检验]]，用于检验两个[[population (statistics)|总体]]均值是否相等的（零）假设。它以其创造者[[Bernard Lewis Welch|伯纳德·刘易斯·韦尔奇]]的名字命名，是[[Student's t-test|学生''t''检验]]的一个适应性改进<ref name=Welch1947>{{Cite journal | last = Welch | first = B. L. | title = 当涉及到几个不同的总体方差时，“学生”的问题的推广 | journal = [[Biometrika]] | volume = 34 |issue=1–2 | pages = 28–35 | year = 1947 |doi =10.1093/biomet/34.1-2.28 | pmid = 20287819 | mr = 19277 }}</ref>，当两个样本具有不等方差甚至可能不等样本量时更为可靠。<ref name=Ruxton2006>{{Cite journal | last = Ruxton | first = G. D. | title = 不等方差t检验是学生t检验和Mann–Whitney U检验的一种未被充分利用的替代方案 |journal = [[Behavioral Ecology (journal)|行为生态学]] | volume = 17 | issue = 4 | pages = 688–690 | year = 2006 | doi = 10.1093/beheco/ark016| doi-access = free }}</ref><ref name="WhyWelch">{{cite journal|last1=Derrick|first1=B|last2=Toher|first2=D|last3=White|first3=P|title=为什么韦尔奇检验在I型错误上是健壮的|journal=心理学的定量方法|date=2016|volume=12|issue=1|pages=30–38|doi=10.20982/tqmp.12.1.p030|url=http://eprints.uwe.ac.uk/27232/27/p030.pdf|doi-access=free}}</ref> 这些检验通常被称为“非配对的”或“独立样本的”''t''检验，因为它们通常应用于两个被比较样本的统计单位不重叠的情况。鉴于韦尔奇的''t''检验不如学生的''t''检验流行<ref name=Ruxton2006/>，且可能对读者来说不太熟悉，一个更具信息性的名称是“韦尔奇的不等方差''t''检验”——或简称“不等方差''t''检验”。<ref name=WhyWelch/>

=='''假设'''==

学生的''t''检验假设两个总体的样本均值呈正态分布，并且这些总体具有相等的方差。韦尔奇的''t''检验则是为不等总体方差设计的，但仍维持正态分布的假设。<ref name=Welch1947/> 韦尔奇的''t''检验是[[Behrens–Fisher problem|贝伦斯-费舍尔问题]]的一个近似解决方案。

=='''计算'''==

韦尔奇的''t''检验通过以下公式定义统计量''t''：

:[math]t = \frac{\Delta\overline{X}}{s_{\Delta\bar{X}}} = \frac{\overline{X}_1 - \overline{X}_2}{\sqrt{ {s_{\bar{X}_1}^2} + {s_{\bar{X}_2}^2} }}\,[/math]

:[math]s_{\bar{X}_i} = {s_i \over \sqrt{N_i}} \,[/math]

其中[math]\overline{X}_i[/math]和[math]s_{\bar{X}_i}[/math]分别是第[math]i^\text{th}[/math]个[[mean|样本均值]]及其[[standard error|标准误差]]，[math]s_i[/math]表示[[Standard deviation#Corrected sample standard deviation|校正的样本标准差]]，[[sample size|样本量]]为[math]N_i[/math]。与[[Student's t test|学生的''t''检验]]不同，分母并非基于[[pooled variance|合并方差]]估计。

与这种方差估计相关的[[degrees of freedom (statistics)|自由度]][math]\nu[/math] 是使用[[Welch–Satterthwaite equation|韦尔奇-萨特思韦特方程]]近似计算的：<ref>[ 7.3.1. Do two processes have the same mean?], 工程统计手册, [[NIST]]. (2021-07-30访问的在线资源。)</ref>

[math]\nu \approx \frac{\left(\frac{s_{1}^{2}}{N_{1}}+\frac{s_{2}^{2}}{N_{2}}\right)^{2}}{\frac{s_{1}^{4}}{N_{1}^{2} \nu_{1}}+\frac{s_{2}^{4}}{N_{2}^{2} \nu_{2}}} .[/math]

当[math]N_1 = N_2[/math]时，这个表达式可以简化为：

[math]\nu \approx \frac{s_{\Delta \bar{X}}^{4}}{\nu_{1}^{-1} s_{\bar{X}_{1}}^{4}+\nu_{2}^{-1} s_{\bar{X}_{2}}^{4}}[/math]

此处，[math]\nu_i = N_i-1[/math]是与第''i''个方差估计相关的自由度。

由于我们有[[chi-square distribution|卡方分布]]的近似，所以该统计量大致符合[[Student's t-distribution|''t''分布]]。当[math]N_1[/math]和[math]N_2[/math]都大于5时，这种近似更为准确。<ref>{{cite web |url=https://secure-media.collegeboard.org/apc/ap05_stats_allwood_fin4prod.pdf#page=7 |title=双样本t检验中自由度的萨特思韦特公式 |page=6 |first=Michael |last=Allwood |date=2008 }}</ref><ref>{{cite book |last1=Yates |last2=Moore |last3=Starnes |title=统计实践 |edition=第3版 |page=792 |year=2008 |publisher=W.H. Freeman and Company |location=纽约 |isbn=9780716773092 }}</ref>

=='''统计检验'''==

一旦计算出''t''和''[math]\nu[/math]''，这些统计量可以与[[Student's t-distribution|''t''分布]]一起使用来检验两种可能的[[null hypothesis|零假设]]之一：
* 两个总体均值相等，此时应用[[two-tailed test|双尾检验]]；或
* 其中一个总体均值大于或等于另一个，此时应用[[one-tailed test|单尾检验]]。
这些近似自由度是[[real number|实数]][math]\left(\nu\in\mathbb{R}^+\right)[/math]，在面向统计的软件中就是这样使用的，而在电子表格中则向下舍入到最接近的整数。

=='''优势与局限性'''==

韦尔奇的''t''检验比学生''t''检验更为稳健，能够在方差不等和样本量不等的情况下，保持[[Type I and type II errors|第一类和第二类错误率]]接近名义水平。此外，即使在总体方差相等且样本量均衡的情况下，韦尔奇的''t''检验的[[Power (statistics)|功效]]也接近学生''t''检验的功效。<ref name=Ruxton2006/> 韦尔奇的''t''检验可以推广到2个以上的样本，<ref name="Welch1951">{{cite journal|last1=Welch|first1=B. L.|title=On the Comparison of Several Mean Values: An Alternative Approach|journal=Biometrika|date=1951|volume=38|issue=3/4|pages=330–336|doi=10.2307/2332579|jstor=2332579}}</ref> 这比[[one-way analysis of variance]] (ANOVA)更为稳健。

''不推荐''先进行方差相等的预检验，然后在学生''t''检验和韦尔奇''t''检验之间选择。<ref name=Zimmerman2004>{{Cite journal | last = Zimmerman | first = D. W. | title = A note on preliminary tests of equality of variances | journal = [[British Journal of Mathematical and Statistical Psychology]] | volume = 57 | pages = 173–181 | year = 2004 | issue = Pt 1 | doi = 10.1348/000711004849222| pmid = 15171807 }}</ref> 相反，如上所述，可以直接应用韦尔奇的''t''检验，而没有对学生''t''检验的任何实质性不利影响。韦尔奇的''t''检验对于偏态分布和大样本量仍然稳健。<ref name=Fagerland2012>{{Cite journal | last = Fagerland | first = M. W. | title = t-tests, non-parametric tests, and large studies—a paradox of statistical practice? | journal = BMC Medical Research Methodology| volume = 12 | page = 78 | year = 2012 | doi = 10.1186/1471-2288-12-78| pmc = 3445820 | pmid=22697476 | doi-access = free }}</ref> 对于偏态分布和较小的样本量，其可靠性会降低，在这种情况下可以考虑执行韦尔奇的''t''检验。<ref name=Fagerland2009>{{Cite journal | last1 = Fagerland | first1 = M. W. | last2 = Sandvik | first2 = L. | title = Performance of five two-sample location tests for skewed distributions with unequal variances | journal = [[Contemporary Clinical Trials]] | volume = 30 | issue = 5 | pages = 490–496 | year = 2009 | doi=10.1016/j.cct.2009.06.007| pmid = 19577012 }}</ref>

=='''示例'''==

以下三个示例比较了韦尔奇的''t''检验和学生''t''检验。样本来自使用[[R (programming language)|R编程语言]]的随机正态分布。

对于所有三个示例，总体均值为[math]\mu_1 = 20[/math]和[math]\mu_2 = 22[/math]。

第一个示例是对于不等但接近的方差([math]\sigma_1^2 = 7.9[/math]，[math]\sigma_2^2 = 3.8[/math])和相等的样本量([math]N_1 = N_2 = 15[/math])。让A1和A2表示两个随机样本：

: [math]A_1 = \{27.5, 21.0, 19.0, 23.6, 17.0, 17.9, 16.9, 20.1, 21.9, 22.6, 23.1, 19.6, 19.0, 21.7, 21.4\}[/math]
: [math]A_2 = \{27.1, 22.0, 20.8, 23.4, 23.4, 23.5, 25.8, 22.0, 24.8, 20.2, 21.9, 22.1, 22.9, 20.5, 24.4\}[/math]

第二个示例是对于不等的方差([math]\sigma_1^2 = 9.0[/math]，[math]\sigma_2^2 = 0.9[/math])和不等的样本量([math]N_1 = 10[/math]，[math]N_2 = 20[/math])。较小的样本具有更大的方差：

[math]\begin{align}
A_1 &= \{17.2, 20.9, 22.6, 18.1, 21.7, 21.4, 23.5, 24.2, 14.7, 21.8\}
\\
A_2 &= \{21.5, 22.8, 21.0, 23.0, 21.6, 23.6, 22.5, 20.7, 23.4, 21.8, 20.7, 21.7, 21.5, 22.5, 23.6, 21.5, 22.5, 23.5, 21.5, 21.8\}
\end{align}[/math]

第三个示例是对于不等的方差([math]\sigma_1^2 = 1.4[/math]，[math]\sigma_2^2 = 17.1[/math])和不等的样本量([math]N_1 = 10[/math]，[math]N_2 = 20[/math])。较大的样本具有更大的方差：

[math]\begin{align}
A_1 &= \{19.8, 20.4, 19.6, 17.8, 18.5, 18.9, 18.3, 18.9, 19.5, 22.0\}
\\
A_2 &= \{28.2, 26.6, 20.1, 23.3, 25.2, 22.1, 17.7, 27.6, 20.6, 13.7, 23.2, 17.5, 20.6, 18.0, 23.9, 21.6, 24.3, 20.4, 24.0, 13.2\}
\end{align}[/math]

通过模拟''t''统计量的分布来获得参考p值，用于检验总体均值相等的零假设([math]\mu_1 - \mu_2 =0[/math])。结果在下表中总结，显示了双尾p值：

{| cellpadding="5" style="margin:auto;" class="wikitable"
|-
!|
! colspan="3" style="text-align:center;"| Sample A1
! colspan="3" style="text-align:center;"| Sample A2
! colspan="4" style="text-align:center;"| Student's ''t''-test
! colspan="4" style="text-align:center;"| Welch's ''t''-test
|-
! style="text-align:center;"| Example
! style="text-align:center;"| [math]N_1[/math] || style="text-align:center;"| [math]\overline{X}_1[/math] || style="text-align:center;"| [math]s_1^2[/math]
! style="text-align:center;"| [math]N_2[/math] || style="text-align:center;"| [math]\overline{X}_2[/math] || style="text-align:center;"| [math]s_2^2[/math]
! style="text-align:center;"| {{tmath|t}} || style="text-align:center;"| {{tmath|\nu}} || style="text-align:center;"| {{tmath|P}} || style="text-align:center;"| [math]P_\mathrm{sim}[/math]
! style="text-align:center;"| {{tmath|t}} || style="text-align:center;"| {{tmath|\nu}} || style="text-align:center;"| {{tmath|P}} || style="text-align:center;"| [math]P_\mathrm{sim}[/math]
|-
| 1 || 15 || 20.8 || 7.9 || 15 || 23.0 || 3.8 || −2.46 || 28 || 0.021 || 0.021 || −2.46 || 24.9 || 0.021 || 0.017
|-
| 2 || 10 || 20.6 || 9.0 || 20 || 22.1 || 0.9 || −2.10 || 28 || 0.045 || 0.150 || −1.57 || 9.9 || 0.149 || 0.144
|-
| 3 || 10 || 19.4 || 1.4 || 20 || 21.6 || 17.1 || −1.64 || 28 || 0.110 || 0.036 || −2.22 || 24.5 || 0.036 || 0.042
|}

当两个样本具有相似的方差和样本量时（示例1），韦尔奇的''t''检验和学生''t''检验给出了相同的结果。但请注意，即使您从具有相同方差的总体中采样，样本方差也会不同，两个t检验的结果也会有所不同。因此，使用实际数据时，两个检验几乎总是会给出略有不同的结果。

对于不等方差，当较小样本具有较大方差时（示例2），学生''t''检验给出了低p值；当较大样本具有较大方差时（示例3），学生''t''检验给出了高p值。对于不等方差，韦尔奇''t''检验给出的p值接近模拟p值。

== '''节点使用的R语言示例代码''' ==
=== Welch检验 ===
<syntaxhighlight lang="R">

oneway.test(formula, data, subset, na.action, var.equal = FALSE)

</syntaxhighlight>

== '''节点使用指南''' ==
* 用于确定两个独立样本是否有显著差异的统计检验
* 适用于当两个群体的方差不相等或样本大小不同的情况
* Welch检验不要求两个总体具有相同的方差

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量：选择连续型数值变量，每个变量会做一次Welch检验
* 分组变量：选择一个分类分组变量
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量和分组变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 确保两个样本是独立的，即一个样本中的观测并不影响另一个样本中的观测
* 对于极小的样本量，检验的效力会下降，这意味着检验发现实际差异的能力降低

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:方差分析]]

Welch检验

2024-02-09T01:43:03Z

RainW：

{{Infobox nodebasic
|nodename=Welch检验
|nodeimage=Welch Test.png
|icon=Welch Test.svg
|simpleicon=Welch Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Welch Test
|abbreviation=WlcTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=Welch检验是指采用Welch分布的统计量检验各组均值是否相等。Welch分布近似于F分布，采用Welch检验对方差齐性没有要求，所以当数据的分布不满足方差齐性的要求时，采用Welch检验比F检验更稳妥。用途：假设各组方差不等的情况下，用于检验两个或多个总体均值是否存在显著差异。参数：选择连续型数值变量和分类分组变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=SplittingNephelogram
|nodeavailabletablelist=F-Value;df;P-Value
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/Welch检验
|previousnode=[[方差齐性检验]]
|nextnode=[[球形检验]]
}}

在[[statistics|统计学]]中，'''韦尔奇的''t''检验'''，或称'''不等方差''t''检验'''，是一种两样本[[location test|位置检验]]，用于检验两个[[population (statistics)|总体]]均值是否相等的（零）假设。它以其创造者[[Bernard Lewis Welch|伯纳德·刘易斯·韦尔奇]]的名字命名，是[[Student's t-test|学生''t''检验]]的一个适应性改进<ref name=Welch1947>{{Cite journal | last = Welch | first = B. L. | title = 当涉及到几个不同的总体方差时，“学生”的问题的推广 | journal = [[Biometrika]] | volume = 34 |issue=1–2 | pages = 28–35 | year = 1947 |doi =10.1093/biomet/34.1-2.28 | pmid = 20287819 | mr = 19277 }}</ref>，当两个样本具有不等方差甚至可能不等样本量时更为可靠。<ref name=Ruxton2006>{{Cite journal | last = Ruxton | first = G. D. | title = 不等方差t检验是学生t检验和Mann–Whitney U检验的一种未被充分利用的替代方案 |journal = [[Behavioral Ecology (journal)|行为生态学]] | volume = 17 | issue = 4 | pages = 688–690 | year = 2006 | doi = 10.1093/beheco/ark016| doi-access = free }}</ref><ref name="WhyWelch">{{cite journal|last1=Derrick|first1=B|last2=Toher|first2=D|last3=White|first3=P|title=为什么韦尔奇检验在I型错误上是健壮的|journal=心理学的定量方法|date=2016|volume=12|issue=1|pages=30–38|doi=10.20982/tqmp.12.1.p030|url=http://eprints.uwe.ac.uk/27232/27/p030.pdf|doi-access=free}}</ref> 这些检验通常被称为“非配对的”或“独立样本的”''t''检验，因为它们通常应用于两个被比较样本的统计单位不重叠的情况。鉴于韦尔奇的''t''检验不如学生的''t''检验流行<ref name=Ruxton2006/>，且可能对读者来说不太熟悉，一个更具信息性的名称是“韦尔奇的不等方差''t''检验”——或简称“不等方差''t''检验”。<ref name=WhyWelch/>

=='''假设'''==

学生的''t''检验假设两个总体的样本均值呈正态分布，并且这些总体具有相等的方差。韦尔奇的''t''检验则是为不等总体方差设计的，但仍维持正态分布的假设。<ref name=Welch1947/> 韦尔奇的''t''检验是[[Behrens–Fisher problem|贝伦斯-费舍尔问题]]的一个近似解决方案。

=='''计算'''==

韦尔奇的''t''检验通过以下公式定义统计量''t''：

:[math]t = \frac{\Delta\overline{X}}{s_{\Delta\bar{X}}} = \frac{\overline{X}_1 - \overline{X}_2}{\sqrt{ {s_{\bar{X}_1}^2} + {s_{\bar{X}_2}^2} }}\,[/math]

:[math]s_{\bar{X}_i} = {s_i \over \sqrt{N_i}} \,[/math]

其中[math]\overline{X}_i[/math]和[math]s_{\bar{X}_i}[/math]分别是第[math]i^\text{th}[/math]个[[mean|样本均值]]及其[[standard error|标准误差]]，[math]s_i[/math]表示[[Standard deviation#Corrected sample standard deviation|校正的样本标准差]]，[[sample size|样本量]]为[math]N_i[/math]。与[[Student's t test|学生的''t''检验]]不同，分母并非基于[[pooled variance|合并方差]]估计。

与这种方差估计相关的[[degrees of freedom (statistics)|自由度]][math]\nu[/math] 是使用[[Welch–Satterthwaite equation|韦尔奇-萨特思韦特方程]]近似计算的：<ref>[ 7.3.1. Do two processes have the same mean?], 工程统计手册, [[NIST]]. (2021-07-30访问的在线资源。)</ref>

[math]\nu \approx \frac{\left(\frac{s_{1}^{2}}{N_{1}}+\frac{s_{2}^{2}}{N_{2}}\right)^{2}}{\frac{s_{1}^{4}}{N_{1}^{2} \nu_{1}}+\frac{s_{2}^{4}}{N_{2}^{2} \nu_{2}}} .[/math]

当[math]N_1 = N_2[/math]时，这个表达式可以简化为：

[math]\nu \approx \frac{s_{\Delta \bar{X}}^{4}}{\nu_{1}^{-1} s_{\bar{X}_{1}}^{4}+\nu_{2}^{-1} s_{\bar{X}_{2}}^{4}}[/math]

此处，[math]\nu_i = N_i-1[/math]是与第''i''个方差估计相关的自由度。

由于我们有[[chi-square distribution|卡方分布]]的近似，所以该统计量大致符合[[Student's t-distribution|''t''分布]]。当[math]N_1[/math]和[math]N_2[/math]都大于5时，这种近似更为准确。<ref>{{cite web |url=https://secure-media.collegeboard.org/apc/ap05_stats_allwood_fin4prod.pdf#page=7 |title=双样本t检验中自由度的萨特思韦特公式 |page=6 |first=Michael |last=Allwood |date=2008 }}</ref><ref>{{cite book |last1=Yates |last2=Moore |last3=Starnes |title=统计实践 |edition=第3版 |page=792 |year=2008 |publisher=W.H. Freeman and Company |location=纽约 |isbn=9780716773092 }}</ref>

=='''统计检验'''==

一旦计算出''t''和''[math]\nu[/math]''，这些统计量可以与[[Student's t-distribution|''t''分布]]一起使用来检验两种可能的[[null hypothesis|零假设]]之一：
* 两个总体均值相等，此时应用[[two-tailed test|双尾检验]]；或
* 其中一个总体均值大于或等于另一个，此时应用[[one-tailed test|单尾检验]]。
这些近似自由度是[[real number|实数]][math]\left(\nu\in\mathbb{R}^+\right)[/math]，在面向统计的软件中就是这样使用的，而在电子表格中则向下舍入到最接近的整数。

=='''优势与局限性'''==

韦尔奇的''t''检验比学生''t''检验更为稳健，能够在方差不等和样本量不等的情况下，保持[[Type I and type II errors|第一类和第二类错误率]]接近名义水平。此外，即使在总体方差相等且样本量均衡的情况下，韦尔奇的''t''检验的[[Power (statistics)|功效]]也接近学生''t''检验的功效。<ref name=Ruxton2006/> 韦尔奇的''t''检验可以推广到2个以上的样本，<ref name="Welch1951">{{cite journal|last1=Welch|first1=B. L.|title=On the Comparison of Several Mean Values: An Alternative Approach|journal=Biometrika|date=1951|volume=38|issue=3/4|pages=330–336|doi=10.2307/2332579|jstor=2332579}}</ref> 这比[[one-way analysis of variance]] (ANOVA)更为稳健。

''不推荐''先进行方差相等的预检验，然后在学生''t''检验和韦尔奇''t''检验之间选择。<ref name=Zimmerman2004>{{Cite journal | last = Zimmerman | first = D. W. | title = A note on preliminary tests of equality of variances | journal = [[British Journal of Mathematical and Statistical Psychology]] | volume = 57 | pages = 173–181 | year = 2004 | issue = Pt 1 | doi = 10.1348/000711004849222| pmid = 15171807 }}</ref> 相反，如上所述，可以直接应用韦尔奇的''t''检验，而没有对学生''t''检验的任何实质性不利影响。韦尔奇的''t''检验对于偏态分布和大样本量仍然稳健。<ref name=Fagerland2012>{{Cite journal | last = Fagerland | first = M. W. | title = t-tests, non-parametric tests, and large studies—a paradox of statistical practice? | journal = BMC Medical Research Methodology| volume = 12 | page = 78 | year = 2012 | doi = 10.1186/1471-2288-12-78| pmc = 3445820 | pmid=22697476 | doi-access = free }}</ref> 对于偏态分布和较小的样本量，其可靠性会降低，在这种情况下可以考虑执行韦尔奇的''t''检验。<ref name=Fagerland2009>{{Cite journal | last1 = Fagerland | first1 = M. W. | last2 = Sandvik | first2 = L. | title = Performance of five two-sample location tests for skewed distributions with unequal variances | journal = [[Contemporary Clinical Trials]] | volume = 30 | issue = 5 | pages = 490–496 | year = 2009 | doi=10.1016/j.cct.2009.06.007| pmid = 19577012 }}</ref>

=='''示例'''==

以下三个示例比较了韦尔奇的''t''检验和学生''t''检验。样本来自使用[[R (programming language)|R编程语言]]的随机正态分布。

对于所有三个示例，总体均值为[math]\mu_1 = 20[/math]和[math]\mu_2 = 22[/math]。

第一个示例是对于不等但接近的方差([math]\sigma_1^2 = 7.9[/math]，[math]\sigma_2^2 = 3.8[/math])和相等的样本量([math]N_1 = N_2 = 15[/math])。让A1和A2表示两个随机样本：

: [math]A_1 = \{27.5, 21.0, 19.0, 23.6, 17.0, 17.9, 16.9, 20.1, 21.9, 22.6, 23.1, 19.6, 19.0, 21.7, 21.4\}[/math]
: [math]A_2 = \{27.1, 22.0, 20.8, 23.4, 23.4, 23.5, 25.8, 22.0, 24.8, 20.2, 21.9, 22.1, 22.9, 20.5, 24.4\}[/math]

第二个示例是对于不等的方差([math]\sigma_1^2 = 9.0[/math]，[math]\sigma_2^2 = 0.9[/math])和不等的样本量([math]N_1 = 10[/math]，[math]N_2 = 20[/math])。较小的样本具有更大的方差：

[math]\begin{align}
A_1 &= \{17.2, 20.9, 22.6, 18.1, 21.7, 21.4, 23.5, 24.2, 14.7, 21.8\}
\\
A_2 &= \{21.5, 22.8, 21.0, 23.0, 21.6, 23.6, 22.5, 20.7, 23.4, 21.8, 20.7, 21.7, 21.5, 22.5, 23.6, 21.5, 22.5, 23.5, 21.5, 21.8\}
\end{align}[/math]

第三个示例是对于不等的方差([math]\sigma_1^2 = 1.4[/math]，[math]\sigma_2^2 = 17.1[/math])和不等的样本量([math]N_1 = 10[/math]，[math]N_2 = 20[/math])。较大的样本具有更大的方差：

[math]\begin{align}
A_1 &= \{19.8, 20.4, 19.6, 17.8, 18.5, 18.9, 18.3, 18.9, 19.5, 22.0\}
\\
A_2 &= \{28.2, 26.6, 20.1, 23.3, 25.2, 22.1, 17.7, 27.6, 20.6, 13.7, 23.2, 17.5, 20.6, 18.0, 23.9, 21.6, 24.3, 20.4, 24.0, 13.2\}
\end{align}[/math]

通过模拟''t''统计量的分布来获得参考p值，用于检验总体均值相等的零假设([math]\mu_1 - \mu_2 =0[/math])。结果在下表中总结，显示了双尾p值：

{| cellpadding="5" style="margin:auto;" class="wikitable"
|-
!|
! colspan="3" style="text-align:center;"| Sample A1
! colspan="3" style="text-align:center;"| Sample A2
! colspan="4" style="text-align:center;"| Student's ''t''-test
! colspan="4" style="text-align:center;"| Welch's ''t''-test
|-
! style="text-align:center;"| Example
! style="text-align:center;"| [math]N_1[/math] || style="text-align:center;"| [math]\overline{X}_1[/math] || style="text-align:center;"| [math]s_1^2[/math]
! style="text-align:center;"| [math]N_2[/math] || style="text-align:center;"| [math]\overline{X}_2[/math] || style="text-align:center;"| [math]s_2^2[/math]
! style="text-align:center;"| {{tmath|t}} || style="text-align:center;"| {{tmath|\nu}} || style="text-align:center;"| {{tmath|P}} || style="text-align:center;"| [math]P_\mathrm{sim}[/math]
! style="text-align:center;"| {{tmath|t}} || style="text-align:center;"| {{tmath|\nu}} || style="text-align:center;"| {{tmath|P}} || style="text-align:center;"| [math]P_\mathrm{sim}[/math]
|-
| 1 || 15 || 20.8 || 7.9 || 15 || 23.0 || 3.8 || −2.46 || 28 || 0.021 || 0.021 || −2.46 || 24.9 || 0.021 || 0.017
|-
| 2 || 10 || 20.6 || 9.0 || 20 || 22.1 || 0.9 || −2.10 || 28 || 0.045 || 0.150 || −1.57 || 9.9 || 0.149 || 0.144
|-
| 3 || 10 || 19.4 || 1.4 || 20 || 21.6 || 17.1 || −1.64 || 28 || 0.110 || 0.036 || −2.22 || 24.5 || 0.036 || 0.042
|}

{| cellpadding="5" style="margin:auto;" class="wikitable"
|-
!|
! colspan="3" style="text-align:center;"| 样本A1
! colspan="3" style="text-align:center;"| 样本A2
! colspan="4" style="text-align:center;"| 学生''t''检验
! colspan="4" style="text-align:center;"| 韦尔奇''t''检验
|-
! style="text-align:center;"| 示例
! style="text-align:center;"| [math]N_1[/math] || style="text-align:center;"| [math]\overline{X}_1[/math] || style="text-align:center;"| [math]s_1^2[/math]
! style="text-align:center;"| [math]N_2[/math] || style="text-align:center;"| [math]\overline{X}_2[/math] || style="text-align:center;"| [math]s_2^2[/math]
! style="text-align:center;"| {{tmath|t}} || style="text-align:center;"| {{tmath|\nu}} || style="text-align:center;"| {{tmath|P}} || style="text-align:center;"| [math]P_\mathrm{sim}[/math]
! style="text-align:center;"| {{tmath|t}} || style="text-align:center;"| {{tmath|\nu}} || style="text-align:center;"| {{tmath|P}} || style="text-align:center;"| [math]P_\mathrm{sim}[/math]
|-
| 1 || 15 || 20.8 || 7.9 || 15 || 23.0 || 3.8 || −2.46 || 28 || 0.021 || 0.021 || −2.46 || 24.9 || 0.021 || 0.017
|-
| 2 || 10 || 20.6 || 9.0 || 20 || 22.1 || 0.9 || −2.10 || 28 || 0.045 || 0.150 || −1.57 || 9.9 || 0.149 || 0.144
|-
| 3 || 10 || 19.4 || 1.4 || 20 || 21.6 || 17.1 || −1.64 || 28 || 0.110 || 0.036 || −2.22 || 24.5 || 0.036 || 0.042
|}

当两个样本具有相似的方差和样本量时（示例1），韦尔奇的''t''检验和学生''t''检验给出了相同的结果。但请注意，即使您从具有相同方差的总体中采样，样本方差也会不同，两个t检验的结果也会有所不同。因此，使用实际数据时，两个检验几乎总是会给出略有不同的结果。

对于不等方差，当较小样本具有较大方差时（示例2），学生''t''检验给出了低p值；当较大样本具有较大方差时（示例3），学生''t''检验给出了高p值。对于不等方差，韦尔奇''t''检验给出的p值接近模拟p值。

== '''节点使用的R语言示例代码''' ==
=== Welch检验 ===
<syntaxhighlight lang="R">

oneway.test(formula, data, subset, na.action, var.equal = FALSE)

</syntaxhighlight>

== '''节点使用指南''' ==
* 用于确定两个独立样本是否有显著差异的统计检验
* 适用于当两个群体的方差不相等或样本大小不同的情况
* Welch检验不要求两个总体具有相同的方差

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量：选择连续型数值变量，每个变量会做一次Welch检验
* 分组变量：选择一个分类分组变量
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量和分组变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 确保两个样本是独立的，即一个样本中的观测并不影响另一个样本中的观测
* 对于极小的样本量，检验的效力会下降，这意味着检验发现实际差异的能力降低

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:方差分析]]

Welch检验

2024-02-09T01:37:11Z

RainW：

Welch检验

2024-02-09T01:33:16Z

RainW：

{{Infobox nodebasic
|nodename=Welch检验
|nodeimage=Welch Test.png
|icon=Welch Test.svg
|simpleicon=Welch Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Welch Test
|abbreviation=WlcTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=Welch检验是指采用Welch分布的统计量检验各组均值是否相等。Welch分布近似于F分布，采用Welch检验对方差齐性没有要求，所以当数据的分布不满足方差齐性的要求时，采用Welch检验比F检验更稳妥。用途：假设各组方差不等的情况下，用于检验两个或多个总体均值是否存在显著差异。参数：选择连续型数值变量和分类分组变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=SplittingNephelogram
|nodeavailabletablelist=F-Value;df;P-Value
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/Welch检验
|previousnode=[[方差齐性检验]]
|nextnode=[[球形检验]]
}}

在[[statistics|统计学]]中，'''韦尔奇的''t''检验'''，或称'''不等方差''t''检验'''，是一种两样本[[location test|位置检验]]，用于检验两个[[population (statistics)|总体]]均值是否相等的（零）假设。它以其创造者[[Bernard Lewis Welch|伯纳德·刘易斯·韦尔奇]]的名字命名，是[[Student's t-test|学生''t''检验]]的一个适应性改进<ref name=Welch1947>{{Cite journal | last = Welch | first = B. L. | title = 当涉及到几个不同的总体方差时，“学生”的问题的推广 | journal = [[Biometrika]] | volume = 34 |issue=1–2 | pages = 28–35 | year = 1947 |doi =10.1093/biomet/34.1-2.28 | pmid = 20287819 | mr = 19277 }}</ref>，当两个样本具有不等方差甚至可能不等样本量时更为可靠。<ref name=Ruxton2006>{{Cite journal | last = Ruxton | first = G. D. | title = 不等方差t检验是学生t检验和Mann–Whitney U检验的一种未被充分利用的替代方案 |journal = [[Behavioral Ecology (journal)|行为生态学]] | volume = 17 | issue = 4 | pages = 688–690 | year = 2006 | doi = 10.1093/beheco/ark016| doi-access = free }}</ref><ref name="WhyWelch">{{cite journal|last1=Derrick|first1=B|last2=Toher|first2=D|last3=White|first3=P|title=为什么韦尔奇检验在I型错误上是健壮的|journal=心理学的定量方法|date=2016|volume=12|issue=1|pages=30–38|doi=10.20982/tqmp.12.1.p030|url=http://eprints.uwe.ac.uk/27232/27/p030.pdf|doi-access=free}}</ref> 这些检验通常被称为“非配对的”或“独立样本的”''t''检验，因为它们通常应用于两个被比较样本的统计单位不重叠的情况。鉴于韦尔奇的''t''检验不如学生的''t''检验流行<ref name=Ruxton2006/>，且可能对读者来说不太熟悉，一个更具信息性的名称是“韦尔奇的不等方差''t''检验”——或简称“不等方差''t''检验”。<ref name=WhyWelch/>

=='''假设'''==

学生的''t''检验假设两个总体的样本均值呈正态分布，并且这些总体具有相等的方差。韦尔奇的''t''检验则是为不等总体方差设计的，但仍维持正态分布的假设。<ref name=Welch1947/> 韦尔奇的''t''检验是[[Behrens–Fisher problem|贝伦斯-费舍尔问题]]的一个近似解决方案。

=='''计算'''==

韦尔奇的''t''检验通过以下公式定义统计量''t''：

:[math]t = \frac{\Delta\overline{X}}{s_{\Delta\bar{X}}} = \frac{\overline{X}_1 - \overline{X}_2}{\sqrt{ {s_{\bar{X}_1}^2} + {s_{\bar{X}_2}^2} }}\,[/math]

:[math]s_{\bar{X}_i} = {s_i \over \sqrt{N_i}} \,[/math]

其中[math]\overline{X}_i[/math]和[math]s_{\bar{X}_i}[/math]分别是第[math]i^\text{th}[/math]个[[mean|样本均值]]及其[[standard error|标准误差]]，[math]s_i[/math]表示[[Standard deviation#Corrected sample standard deviation|校正的样本标准差]]，[[sample size|样本量]]为[math]N_i[/math]。与[[Student's t test|学生的''t''检验]]不同，分母并非基于[[pooled variance|合并方差]]估计。

与这种方差估计相关的[[degrees of freedom (statistics)|自由度]][math]\nu[/math] 是使用[[Welch–Satterthwaite equation|韦尔奇-萨特思韦特方程]]近似计算的：<ref>[ 7.3.1. Do two processes have the same mean?], 工程统计手册, [[NIST]]. (2021-07-30访问的在线资源。)</ref>

[math]\nu \approx \frac{\left(\frac{s_{1}^{2}}{N_{1}}+\frac{s_{2}^{2}}{N_{2}}\right)^{2}}{\frac{s_{1}^{4}}{N_{1}^{2} \nu_{1}}+\frac{s_{2}^{4}}{N_{2}^{2} \nu_{2}}} .[/math]

当[math]N_1 = N_2[/math]时，这个表达式可以简化为：

[math]\nu \approx \frac{s_{\Delta \bar{X}}^{4}}{\nu_{1}^{-1} s_{\bar{X}_{1}}^{4}+\nu_{2}^{-1} s_{\bar{X}_{2}}^{4}}[/math]

此处，[math]\nu_i = N_i-1[/math]是与第''i''个方差估计相关的自由度。

由于我们有[[chi-square distribution|卡方分布]]的近似，所以该统计量大致符合[[Student's t-distribution|''t''分布]]。当[math]N_1[/math]和[math]N_2[/math]都大于5时，这种近似更为准确。<ref>{{cite web |url=https://secure-media.collegeboard.org/apc/ap05_stats_allwood_fin4prod.pdf#page=7 |title=双样本t检验中自由度的萨特思韦特公式 |page=6 |first=Michael |last=Allwood |date=2008 }}</ref><ref>{{cite book |last1=Yates |last2=Moore |last3=Starnes |title=统计实践 |edition=第3版 |page=792 |year=2008 |publisher=W.H. Freeman and Company |location=纽约 |isbn=9780716773092 }}</ref>

=='''统计检验'''==

一旦计算出''t''和''[math]\nu[/math]''，这些统计量可以与[[Student's t-distribution|''t''分布]]一起使用来检验两种可能的[[null hypothesis|零假设]]之一：
* 两个总体均值相等，此时应用[[two-tailed test|双尾检验]]；或
* 其中一个总体均值大于或等于另一个，此时应用[[one-tailed test|单尾检验]]。
这些近似自由度是[[real number|实数]][math]\left(\nu\in\mathbb{R}^+\right)[/math]，在面向统计的软件中就是这样使用的，而在电子表格中则向下舍入到最接近的整数。

=='''优势与局限性'''==

韦尔奇的''t''检验比学生''t''检验更为稳健，能够在方差不等和样本量不等的情况下，保持[[Type I and type II errors|第一类和第二类错误率]]接近名义水平。此外，即使在总体方差相等且样本量均衡的情况下，韦尔奇的''t''检验的[[Power (statistics)|功效]]也接近学生''t''检验的功效。<ref name=Ruxton2006/> 韦尔奇的''t''检验可以推广到2个以上的样本，<ref name="Welch1951">{{cite journal|last1=Welch|first1=B. L.|title=On the Comparison of Several Mean Values: An Alternative Approach|journal=Biometrika|date=1951|volume=38|issue=3/4|pages=330–336|doi=10.2307/2332579|jstor=2332579}}</ref> 这比[[one-way analysis of variance]] (ANOVA)更为稳健。

''不推荐''先进行方差相等的预检验，然后在学生''t''检验和韦尔奇''t''检验之间选择。<ref name=Zimmerman2004>{{Cite journal | last = Zimmerman | first = D. W. | title = A note on preliminary tests of equality of variances | journal = [[British Journal of Mathematical and Statistical Psychology]] | volume = 57 | pages = 173–181 | year = 2004 | issue = Pt 1 | doi = 10.1348/000711004849222| pmid = 15171807 }}</ref> 相反，如上所述，可以直接应用韦尔奇的''t''检验，而没有对学生''t''检验的任何实质性不利影响。韦尔奇的''t''检验对于偏态分布和大样本量仍然稳健。<ref name=Fagerland2012>{{Cite journal | last = Fagerland | first = M. W. | title = t-tests, non-parametric tests, and large studies—a paradox of statistical practice? | journal = BMC Medical Research Methodology| volume = 12 | page = 78 | year = 2012 | doi = 10.1186/1471-2288-12-78| pmc = 3445820 | pmid=22697476 | doi-access = free }}</ref> 对于偏态分布和较小的样本量，其可靠性会降低，在这种情况下可以考虑执行韦尔奇的''t''检验。<ref name=Fagerland2009>{{Cite journal | last1 = Fagerland | first1 = M. W. | last2 = Sandvik | first2 = L. | title = Performance of five two-sample location tests for skewed distributions with unequal variances | journal = [[Contemporary Clinical Trials]] | volume = 30 | issue = 5 | pages = 490–496 | year = 2009 | doi=10.1016/j.cct.2009.06.007| pmid = 19577012 }}</ref>

=='''示例'''==

以下三个示例比较了韦尔奇的''t''检验和学生''t''检验。样本来自使用[[R (programming language)|R编程语言]]的随机正态分布。

对于所有三个示例，总体均值为[math]\mu_1 = 20[/math]和[math]\mu_2 = 22[/math]。

第一个示例是对于不等但接近的方差([math]\sigma_1^2 = 7.9[/math]，[math]\sigma_2^2 = 3.8[/math])和相等的样本量([math]N_1 = N_2 = 15[/math])。让A1和A2表示两个随机样本：

: [math]A_1 = \{27.5, 21.0, 19.0, 23.6, 17.0, 17.9, 16.9, 20.1, 21.9, 22.6, 23.1, 19.6, 19.0, 21.7, 21.4\}[/math]
: [math]A_2 = \{27.1, 22.0, 20.8, 23.4, 23.4, 23.5, 25.8, 22.0, 24.8, 20.2, 21.9, 22.1, 22.9, 20.5, 24.4\}[/math]

第二个示例是对于不等的方差([math]\sigma_1^2 = 9.0[/math]，[math]\sigma_2^2 = 0.9[/math])和不等的样本量([math]N_1 = 10[/math]，[math]N_2 = 20[/math])。较小的样本具有更大的方差：

[math]\begin{align}
A_1 &= \{17.2, 20.9, 22.6, 18.1, 21.7, 21.4, 23.5, 24.2, 14.7, 21.8\}
\\
A_2 &= \{21.5, 22.8, 21.0, 23.0, 21.6, 23.6, 22.5, 20.7, 23.4, 21.8, 20.7, 21.7, 21.5, 22.5, 23.6, 21.5, 22.5, 23.5, 21.5, 21.8\}
\end{align}[/math]

第三个示例是对于不等的方差([math]\sigma_1^2 = 1.4[/math]，[math]\sigma_2^2 = 17.1[/math])和不等的样本量([math]N_1 = 10[/math]，[math]N_2 = 20[/math])。较大的样本具有更大的方差：

[math]
A_1 &= \{19.8, 20.4, 19.6, 17.8, 18.5, 18.9, 18.3, 18.9, 19.5, 22.0\}
\\
A_2 &= \{28.2, 26.6, 20.1, 23.3, 25.2, 22.1, 17.7, 27.6, 20.6, 13.7, 23.2, 17.5, 20.6, 18.0, 23.9, 21.6, 24.3, 20.4, 24.0, 13.2\}
[/math]

通过模拟''t''统计量的分布来获得参考p值，用于检验总体均值相等的零假设([math]\mu_1 - \mu_2 =0[/math])。结果在下表中总结，显示了双尾p值：

{| cellpadding="5" style="margin:auto;" class="wikitable"
|-
!|
! colspan="3" style="text-align:center;"| 样本A1
! colspan="3" style="text-align:center;"| 样本A2
! colspan="4" style="text-align:center;"| 学生''t''检验
! colspan="4" style="text-align:center;"| 韦尔奇''t''检验
|-
! style="text-align:center;"| 示例
! style="text-align:center;"| [math]N_1[/math] || style="text-align:center;"| [math]\overline{X}_1[/math] || style="text-align:center;"| [math]s_1^2[/math]
! style="text-align:center;"| [math]N_2[/math] || style="text-align:center;"| [math]\overline{X}_2[/math] || style="text-align:center;"| [math]s_2^2[/math]
! style="text-align:center;"| {{tmath|t}} || style="text-align:center;"| {{tmath|\nu}} || style="text-align:center;"| {{tmath|P}} || style="text-align:center;"| [math]P_\mathrm{sim}[/math]
! style="text-align:center;"| {{tmath|t}} || style="text-align:center;"| {{tmath|\nu}} || style="text-align:center;"| {{tmath|P}} || style="text-align:center;"| [math]P_\mathrm{sim}[/math]
|-
| 1 || 15 || 20.8 || 7.9 || 15 || 23.0 || 3.8 || −2.46 || 28 || 0.021 || 0.021 || −2.46 || 24.9 || 0.021 || 0.017
|-
| 2 || 10 || 20.6 || 9.0 || 20 || 22.1 || 0.9 || −2.10 || 28 || 0.045 || 0.150 || −1.57 || 9.9 || 0.149 || 0.144
|-
| 3 || 10 || 19.4 || 1.4 || 20 || 21.6 || 17.1 || −1.64 || 28 || 0.110 || 0.036 || −2.22 || 24.5 || 0.036 || 0.042
|}

当两个样本具有相似的方差和样本量时（示例1），韦尔奇的''t''检验和学生''t''检验给出了相同的结果。但请注意，即使您从具有相同方差的总体中采样，样本方差也会不同，两个t检验的结果也会有所不同。因此，使用实际数据时，两个检验几乎总是会给出略有不同的结果。

对于不等方差，当较小样本具有较大方差时（示例2），学生''t''检验给出了低p值；当较大样本具有较大方差时（示例3），学生''t''检验给出了高p值。对于不等方差，韦尔奇''t''检验给出的p值接近模拟p值。

== '''节点使用的R语言示例代码''' ==
=== Welch检验 ===
<syntaxhighlight lang="R">

oneway.test(formula, data, subset, na.action, var.equal = FALSE)

</syntaxhighlight>

== '''节点使用指南''' ==
* 用于确定两个独立样本是否有显著差异的统计检验
* 适用于当两个群体的方差不相等或样本大小不同的情况
* Welch检验不要求两个总体具有相同的方差

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量：选择连续型数值变量，每个变量会做一次Welch检验
* 分组变量：选择一个分类分组变量
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量和分组变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 确保两个样本是独立的，即一个样本中的观测并不影响另一个样本中的观测
* 对于极小的样本量，检验的效力会下降，这意味着检验发现实际差异的能力降低

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:方差分析]]

多元方差分析

2024-02-08T09:56:10Z

RainW：

{{Infobox nodebasic
|nodename=多元方差分析
|nodeimage=MANOVA.png
|icon=MANOVA.svg
|simpleicon=MANOVA_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.2.0|V1.0.2]]部署
|nodeenglishname=MANOVA
|abbreviation=MANOVA
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=多元方差分析是一种多变量统计方法，用于比较两个或多个组之间的平均值是否显著不同。它是单因素方差分析的扩展，其中单个因素（例如治疗方案）有两个或多个水平（例如不同剂量或不同药物）且可能相互关联。在MANOVA中，可以同时考虑多个因变量及变量之间的相互关系，且减少了多个单独的方差分析所需的类型I错误率。用途：用于同时考察两个或更多的因变量，以及一个或多个自变量对这些因变量的影响。参数：选择多个数值因变量，和分组自变量。
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=PointPlot
|nodeavailabletablelist=Stats-Value;P-Value;df;Coeff-Value
|nodeconfiguration=VariableList
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/多元方差分析
|previousnode=[[球形检验]]
|nextnode=[[One_Way_ANCOVA]]
}}

在[[statistics|统计学]]中，'''多元方差分析'''('''MANOVA''')是一种比较[[multivariate random variable|多元]]样本均值的程序。作为一种多元程序，当存在两个或更多[[dependent variables|依赖变量]]时使用，<ref name="Warne2014">{{cite journal |last=Warne |first=R. T. |year=2014 |title=A primer on multivariate analysis of variance (MANOVA) for behavioral scientists |journal=Practical Assessment, Research & Evaluation |volume=19 |issue=17 |pages=1–10 |url=https://scholarworks.umass.edu/pare/vol19/iss1/17/ }}</ref>，通常会接着对涉及单独依赖变量的显著性测试。<ref>Stevens, J. P. (2002). ''Applied multivariate statistics for the social sciences.'' Mahwah, NJ: Lawrence Erblaum.</ref>

与图片无关，依赖变量可能是在连续时间点上测量的k个生活满意度得分和p个工作满意度得分。在这种情况下，有k+p个依赖变量，它们的线性组合遵循多元正态分布，多元方差-协方差矩阵的同质性，线性关系，无多重共线性，并且每个都没有离群值。

== '''模型''' ==

假设[math]n[/math][math]q[/math]-维观测值，其中第[math]i[/math]个观测值[math]y_i[/math]被分配到组[math]g(i)\in \{1,\dots,m\}[/math]中，并围绕组中心[math]\mu^{(g(i))}\in \mathbb R^q[/math]分布，带有[[Multivariate normal distribution|多元高斯]]噪声：[math]
y_i = \mu^{(g(i))} + \varepsilon_i\quad \varepsilon_i \overset{\text{i.i.d.}}{\sim} \mathcal N_q (0, \Sigma) \quad \text{ for } i=1,\dots, n,
[/math]其中[math]\Sigma[/math]是[[covariance matrix|协方差矩阵]]。然后我们将我们的[[null hypothesis|零假设]]表述为
[math]H_0\!:\;\mu^{(1)}=\mu^{(2)}=\dots =\mu^{(m)}.[/math]

=='''与ANOVA的关系'''==
MANOVA是单变量[[analysis of variance|方差分析]](ANOVA)的一种泛化形式，<ref name="Warne2014" />尽管与[[Analysis of variance|单变量ANOVA]]不同，它在测试均值差异的统计显著性时使用了结果变量之间的[[covariance|协方差]]。

在单变量方差分析中出现[[Partition of sums of squares|平方和分割]]的地方，在多元方差分析中出现了某些[[positive-definite matrix|正定矩阵]]。对角线条目是单变量ANOVA中出现的同种平方和。非对角线条目是相应的乘积和。在关于[[errors and residuals in statistics|误差]]分布的正态性假设下，由于误差的平方和的对应物具有[[Wishart distribution|Wishart分布]]。

== '''假设检验''' ==
首先，定义以下[math]n\times q[/math]矩阵：

* [math]Y[/math]：其中第[math]i[/math]行等于[math]y_i[/math]

* [math]\hat Y[/math]：其中第[math]i[/math]行是给定组成员[math]g(i)[/math]的最佳预测。即组[math]g(i)[/math]中所有观测值的均值：[math]\frac{1}{\text{size of group }g(i)}\sum_{k: g(k)=g(i)}y_k[/math]。

* [math]\bar Y[/math]：其中第[math]i[/math]行是给定无信息时的最佳预测。即所有[math]n[/math]观测值的[[Sample mean and covariance|经验均值]] [math]\frac{1}{n}\sum_{k=1}^n y_k[/math]

然后矩阵[math]S_{\text{model}} := (\hat Y - \bar Y)^T(\hat Y - \bar Y)[/math]是由组解释的平方和的概括，和[math]S_{\text{res}} := (Y - \hat Y)^T(Y - \hat Y)[/math]是[[residual sum of squares|残差平方和]]的概括。<ref name="Anderson1994">{{cite book |last=Anderson |first=T. W. |title=An Introduction to Multivariate Statistical Analysis |year=1994 |publisher=Wiley}}</ref> <ref name="Krzanowski1988">{{cite book |last=Krzanowski |first=W. J. |title=Principles of Multivariate Analysis. A User's Perspective |year=1988 |publisher=Oxford University Press}}</ref>
注意，另一种可能是，当上述矩阵以1/(n-1)缩放时，也可以讨论协方差，因为随后的检验统计量不会因为以相同的非零常数乘以[math]S_{\text{model}}[/math]和[math]S_{\text{res}}[/math]而改变。

最常见的<ref>{{cite web|last=Garson|first=G. David|title=Multivariate GLM, MANOVA, and MANCOVA|url=http://faculty.chass.ncsu.edu/garson/PA765/manova.htm|access-date=2011-03-22}}</ref><ref>{{cite web|last=UCLA: Academic Technology Services, Statistical Consulting Group.|title=Stata Annotated Output – MANOVA|url=http://www.ats.ucla.edu/stat/stata/output/Stata_MANOVA.htm|access-date=2011-03-22}}</ref>统计量是基于矩阵[math]A:= S_{\text{model}}S_{\text{res}}^{-1}[/math]的根（或特征值）[math]\lambda_p[/math]的摘要

* [[Samuel Stanley Wilks]]的[math]\Lambda_\text{Wilks} = \prod_{1,\ldots,p}(1/(1 + \lambda_{p})) = \det(I + A)^{-1} = \det(S_\text{res})/\det(S_\text{res} + S_\text{model})[/math]，遵循[[Wilks' lambda distribution|Wilks的λ分布]](Λ)
* [[K. C. Sreedharan Pillai]]–[[M. S. Bartlett]]的[[trace of a matrix|矩阵迹]]，[math]\Lambda_\text{Pillai} = \sum_{1,\ldots,p}(\lambda_p/(1 + \lambda_p)) = \operatorname{tr}(A(I + A)^{-1})[/math]<ref>{{cite web|url=http://www.real-statistics.com/multivariate-statistics/multivariate-analysis-of-variance-manova/manova-basic-concepts/|title=MANOVA Basic Concepts – Real Statistics Using Excel|website=www.real-statistics.com|access-date=5 April 2018}}</ref>
* Lawley–[[Harold Hotelling|Hotelling]]迹，[math]\Lambda_\text{LH} = \sum_{1,\ldots,p}(\lambda_{p}) = \operatorname{tr}(A)[/math]
* [[Roy's greatest root]]（也称为''Roy的最大根''），[math]\Lambda_\text{Roy} = \max_p(\lambda_p) [/math]

关于每种方法的优点的讨论仍在继续，<ref name="Warne2014" /> 尽管最大根仅导致对显著性的一个界限，这通常不是实际关注的焦点。另一个复杂之处在于，除了Roy的最大根外，这些统计量在[[零假设]]下的分布并不直接，除了少数低维情况外，只能通过近似得到。<ref>Camo http://www.camo.com/multivariate_analysis.html</ref> 在<ref>{{Citation
|last=Chiani | first=M.
|year=2016
|title = 分布矩阵中最大根的分布，用于Roy检验在多元方差分析中
|journal=[[多元分析杂志]]
|volume=143
|pages=467–471
|arxiv=1401.3987v3
| doi=10.1016/j.jmva.2015.10.007
| s2cid=37620291
}}</ref>中推导了Roy的最大根在[[零假设]]下的分布算法，而在<ref>I.M. Johnstone, B. Nadler "在单一等级替代下Roy最大根检验" arXiv预印本 arXiv:1310.6581 (2013)</ref>中研究了在替代假设下的分布。

[[C. R. Rao]]推导出了Wilks' lambda的最著名[[近似值]]。

在两组的情况下，所有统计数据都是等效的，测试简化为[[Hotelling的T平方]]。

== '''引入协变量 (MANCOVA)''' ==
{{main|多元协方差分析}}

人们也可以测试在调整协变量后是否存在组效应。为此，请按照上述程序，但是用[[一般线性模型]]的预测值替换[math]\hat Y[/math]，该模型包含组和协变量，并用只包含协变量（和截距）的一般线性模型的预测值替换[math]\bar Y[/math]。然后[math]S_{\text{model}}[/math]是通过添加分组信息而解释的额外平方和，[math]S_{\text{res}}[/math]是包含分组和协变量的模型的残差平方和。<ref name="Krzanowski1988" />

请注意，在不平衡数据的情况下，添加协变量的顺序很重要。

=='''因变量的相关性'''==
[[File:Outcome Variables.jpg|thumb|这是多元方差分析中所需结果变量间关系的图形描述。分析的一部分涉及创建一个复合变量，对照该变量分析独立变量的组别差异。复合变量可能有多个，是结果变量不同组合的结果。然后分析确定哪种组合显示出独立变量最大的组差异。然后使用描述性判别分析作为事后测试，以确定创建最大组差异的复合变量的构成。]]
[[File:MANOVAs and Highly Correlated Dependent Variables.png|thumb|这是MANOVA中两个高度相关因变量效应的简单视觉表示。如果两个（或更多）因变量高度相关，则发生类型I错误的可能性降低，但权衡是MANOVA测试的功效也降低了。]]
MANOVA的功效受因变量之间的相关性和与这些变量相关的效应大小的影响。例如，当有两组和两个因变量时，当相关性等于较小标准化效应大小与较大标准化效应大小的比率时，MANOVA的功效最低。<ref>{{cite journal|last1=Frane|first1=Andrew|title=在多元两组设计中单变量比较的功效和类型I错误控制|journal=多元行为研究|volume=50|issue=2|pages=233–247|date=2015|doi=10.1080/00273171.2014.968836|pmid=26609880|s2cid=1532673 }}</ref>

== '''节点使用的R语言示例代码''' ==
=== 多元方差分析 ===
<syntaxhighlight lang="R">

manova(...)

</syntaxhighlight>

== '''节点使用指南''' ==
* 用于判断多个因变量是否在两个或多个组之间存在差异
* 与单变量ANOVA（分析单个因变量）不同，MANOVA一次分析多个因变量
* 帮助研究者理解变量之间的交互作用以及不同组在多个维度上的表现

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 因变量：选择多个连续型数值变量
* 分组自变量：选择一个或多个分类变量
* 因变量和分组自变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 观察结果必须是独立的
* 因变量在每个组内应近似呈正态分布
* 各组的协方差矩阵应该相等
* 因变量之间应存在线性关系

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:方差分析]]

Welch检验

2024-02-08T09:54:36Z

RainW：

{{Infobox nodebasic
|nodename=Welch检验
|nodeimage=Welch Test.png
|icon=Welch Test.svg
|simpleicon=Welch Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Welch Test
|abbreviation=WlcTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=Welch检验是指采用Welch分布的统计量检验各组均值是否相等。Welch分布近似于F分布，采用Welch检验对方差齐性没有要求，所以当数据的分布不满足方差齐性的要求时，采用Welch检验比F检验更稳妥。用途：假设各组方差不等的情况下，用于检验两个或多个总体均值是否存在显著差异。参数：选择连续型数值变量和分类分组变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=SplittingNephelogram
|nodeavailabletablelist=F-Value;df;P-Value
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/Welch检验
|previousnode=[[方差齐性检验]]
|nextnode=[[球形检验]]
}}

在[[statistics|统计学]]中，'''韦尔奇的''t''检验'''，或称'''不等方差''t''检验'''，是一种两样本[[location test|位置检验]]，用于检验两个[[population (statistics)|总体]]均值是否相等的（零）假设。它以其创造者[[Bernard Lewis Welch|伯纳德·刘易斯·韦尔奇]]的名字命名，是[[Student's t-test|学生''t''检验]]的一个适应性改进<ref name=Welch1947>{{Cite journal | last = Welch | first = B. L. | title = 当涉及到几个不同的总体方差时，“学生”的问题的推广 | journal = [[Biometrika]] | volume = 34 |issue=1–2 | pages = 28–35 | year = 1947 |doi =10.1093/biomet/34.1-2.28 | pmid = 20287819 | mr = 19277 }}</ref>，当两个样本具有不等方差甚至可能不等样本量时更为可靠。<ref name=Ruxton2006>{{Cite journal | last = Ruxton | first = G. D. | title = 不等方差t检验是学生t检验和Mann–Whitney U检验的一种未被充分利用的替代方案 |journal = [[Behavioral Ecology (journal)|行为生态学]] | volume = 17 | issue = 4 | pages = 688–690 | year = 2006 | doi = 10.1093/beheco/ark016| doi-access = free }}</ref><ref name="WhyWelch">{{cite journal|last1=Derrick|first1=B|last2=Toher|first2=D|last3=White|first3=P|title=为什么韦尔奇检验在I型错误上是健壮的|journal=心理学的定量方法|date=2016|volume=12|issue=1|pages=30–38|doi=10.20982/tqmp.12.1.p030|url=http://eprints.uwe.ac.uk/27232/27/p030.pdf|doi-access=free}}</ref> 这些检验通常被称为“非配对的”或“独立样本的”''t''检验，因为它们通常应用于两个被比较样本的统计单位不重叠的情况。鉴于韦尔奇的''t''检验不如学生的''t''检验流行<ref name=Ruxton2006/>，且可能对读者来说不太熟悉，一个更具信息性的名称是“韦尔奇的不等方差''t''检验”——或简称“不等方差''t''检验”。<ref name=WhyWelch/>

=='''假设'''==

学生的''t''检验假设两个总体的样本均值呈正态分布，并且这些总体具有相等的方差。韦尔奇的''t''检验则是为不等总体方差设计的，但仍维持正态分布的假设。<ref name=Welch1947/> 韦尔奇的''t''检验是[[Behrens–Fisher problem|贝伦斯-费舍尔问题]]的一个近似解决方案。

=='''计算'''==

韦尔奇的''t''检验通过以下公式定义统计量''t''：

:[math]t = \frac{\Delta\overline{X}}{s_{\Delta\bar{X}}} = \frac{\overline{X}_1 - \overline{X}_2}{\sqrt{ {s_{\bar{X}_1}^2} + {s_{\bar{X}_2}^2} }}\,[/math]

:[math]s_{\bar{X}_i} = {s_i \over \sqrt{N_i}} \,[/math]

其中[math]\overline{X}_i[/math]和[math]s_{\bar{X}_i}[/math]分别是第[math]i^\text{th}[/math]个[[mean|样本均值]]及其[[standard error|标准误差]]，[math]s_i[/math]表示[[Standard deviation#Corrected sample standard deviation|校正的样本标准差]]，[[sample size|样本量]]为[math]N_i[/math]。与[[Student's t test|学生的''t''检验]]不同，分母并非基于[[pooled variance|合并方差]]估计。

与这种方差估计相关的[[degrees of freedom (statistics)|自由度]][math]\nu[/math] 是使用[[Welch–Satterthwaite equation|韦尔奇-萨特思韦特方程]]近似计算的：<ref>[ 7.3.1. Do two processes have the same mean?], 工程统计手册, [[NIST]]. (2021-07-30访问的在线资源。)</ref>

:[math]
\nu \quad \approx \quad
\frac{\left( \; \frac{s_1^2}{N_1} \; + \; \frac{s_2^2}{N_2} \; \right)^2 }
{ \quad \frac{s_1^4}{N_1^2 \nu_1} \; + \; \frac{s_2^4}{N_2^2 \nu_2 } \quad }.
[/math]

当[math]N_1 = N_2[/math]时，这个表达式可以简化为：
:[math]
\nu \approx \frac
{s_{\Delta\bar{X}}^4}
{\nu_1^{-1} s_{\bar{X}_1}^4 + \nu_2^{-1} s_{\bar{X}_2}^4}.
[/math]

此处，[math]\nu_i = N_i-1[/math]是与第''i''个方差估计相关的自由度。

由于我们有[[chi-square distribution|卡方分布]]的近似，所以该统计量大致符合[[Student's t-distribution|''t''分布]]。当[math]N_1[/math]和[math]N_2[/math]都大于5时，这种近似更为准确。<ref>{{cite web |url=https://secure-media.collegeboard.org/apc/ap05_stats_allwood_fin4prod.pdf#page=7 |title=双样本t检验中自由度的萨特思韦特公式 |page=6 |first=Michael |last=Allwood |date=2008 }}</ref><ref>{{cite book |last1=Yates |last2=Moore |last3=Starnes |title=统计实践 |edition=第3版 |page=792 |year=2008 |publisher=W.H. Freeman and Company |location=纽约 |isbn=9780716773092 }}</ref>

=='''统计检验'''==

一旦计算出''t''和''[math]\nu[/math]''，这些统计量可以与[[Student's t-distribution|''t''分布]]一起使用来检验两种可能的[[null hypothesis|零假设]]之一：
* 两个总体均值相等，此时应用[[two-tailed test|双尾检验]]；或
* 其中一个总体均值大于或等于另一个，此时应用[[one-tailed test|单尾检验]]。
这些近似自由度是[[real number|实数]][math]\left(\nu\in\mathbb{R}^+\right)[/math]，在面向统计的软件中就是这样使用的，而在电子表格中则向下舍入到最接近的整数。

=='''优势与局限性'''==

韦尔奇的''t''检验比学生''t''检验更为稳健，能够在方差不等和样本量不等的情况下，保持[[Type I and type II errors|第一类和第二类错误率]]接近名义水平。此外，即使在总体方差相等且样本量均衡的情况下，韦尔奇的''t''检验的[[Power (statistics)|功效]]也接近学生''t''检验的功效。<ref name=Ruxton2006/> 韦尔奇的''t''检验可以推广到2个以上的样本，<ref name="Welch1951">{{cite journal|last1=Welch|first1=B. L.|title=On the Comparison of Several Mean Values: An Alternative Approach|journal=Biometrika|date=1951|volume=38|issue=3/4|pages=330–336|doi=10.2307/2332579|jstor=2332579}}</ref> 这比[[one-way analysis of variance]] (ANOVA)更为稳健。

''不推荐''先进行方差相等的预检验，然后在学生''t''检验和韦尔奇''t''检验之间选择。<ref name=Zimmerman2004>{{Cite journal | last = Zimmerman | first = D. W. | title = A note on preliminary tests of equality of variances | journal = [[British Journal of Mathematical and Statistical Psychology]] | volume = 57 | pages = 173–181 | year = 2004 | issue = Pt 1 | doi = 10.1348/000711004849222| pmid = 15171807 }}</ref> 相反，如上所述，可以直接应用韦尔奇的''t''检验，而没有对学生''t''检验的任何实质性不利影响。韦尔奇的''t''检验对于偏态分布和大样本量仍然稳健。<ref name=Fagerland2012>{{Cite journal | last = Fagerland | first = M. W. | title = t-tests, non-parametric tests, and large studies—a paradox of statistical practice? | journal = BMC Medical Research Methodology| volume = 12 | page = 78 | year = 2012 | doi = 10.1186/1471-2288-12-78| pmc = 3445820 | pmid=22697476 | doi-access = free }}</ref> 对于偏态分布和较小的样本量，其可靠性会降低，在这种情况下可以考虑执行韦尔奇的''t''检验。<ref name=Fagerland2009>{{Cite journal | last1 = Fagerland | first1 = M. W. | last2 = Sandvik | first2 = L. | title = Performance of five two-sample location tests for skewed distributions with unequal variances | journal = [[Contemporary Clinical Trials]] | volume = 30 | issue = 5 | pages = 490–496 | year = 2009 | doi=10.1016/j.cct.2009.06.007| pmid = 19577012 }}</ref>

=='''示例'''==

以下三个示例比较了韦尔奇的''t''检验和学生''t''检验。样本来自使用[[R (programming language)|R编程语言]]的随机正态分布。

对于所有三个示例，总体均值为[math]\mu_1 = 20[/math]和[math]\mu_2 = 22[/math]。

第一个示例是对于不等但接近的方差([math]\sigma_1^2 = 7.9[/math]，[math]\sigma_2^2 = 3.8[/math])和相等的样本量([math]N_1 = N_2 = 15[/math])。让A1和A2表示两个随机样本：

: [math]A_1 = \{27.5, 21.0, 19.0, 23.6, 17.0, 17.9, 16.9, 20.1, 21.9, 22.6, 23.1, 19.6, 19.0, 21.7, 21.4\}[/math]
: [math]A_2 = \{27.1, 22.0, 20.8, 23.4, 23.4, 23.5, 25.8, 22.0, 24.8, 20.2, 21.9, 22.1, 22.9, 20.5, 24.4\}[/math]

第二个示例是对于不等的方差([math]\sigma_1^2 = 9.0[/math]，[math]\sigma_2^2 = 0.9[/math])和不等的样本量([math]N_1 = 10[/math]，[math]N_2 = 20[/math])。较小的样本具有更大的方差：

: [math]\begin{align}
A_1 &= \{17.2, 20.9, 22.6, 18.1, 21.7, 21.4, 23.5, 24.2, 14.7, 21.8\}
\\
A_2 &= \{21.5, 22.8, 21.0, 23.0, 21.6, 23.6, 22.5, 20.7, 23.4, 21.8, 20.7, 21.7, 21.5, 22.5, 23.6, 21.5, 22.5, 23.5, 21.5, 21.8\}
\end{align}[/math]

第三个示例是对于不等的方差([math]\sigma_1^2 = 1.4[/math]，[math]\sigma_2^2 = 17.1[/math])和不等的样本量([math]N_1 = 10[/math]，[math]N_2 = 20[/math])。较大的样本具有更大的方差：

: [math]\begin{align}
A_1 &= \{19.8, 20.4, 19.6, 17.8, 18.5, 18.9, 18.3, 18.9, 19.5, 22.0\}
\\
A_2 &= \{28.2, 26.6, 20.1, 23.3, 25.2, 22.1, 17.7, 27.6, 20.6, 13.7, 23.2, 17.5, 20.6, 18.0, 23.9, 21.6, 24.3, 20.4, 24.0, 13.2\}
\end{align}[/math]

通过模拟''t''统计量的分布来获得参考p值，用于检验总体均值相等的零假设([math]\mu_1 - \mu_2 =0[/math])。结果在下表中总结，显示了双尾p值：

{| cellpadding="5" style="margin:auto;" class="wikitable"
|-
!|
! colspan="3" style="text-align:center;"| 样本A1
! colspan="3" style="text-align:center;"| 样本A2
! colspan="4" style="text-align:center;"| 学生''t''检验
! colspan="4" style="text-align:center;"| 韦尔奇''t''检验
|-
! style="text-align:center;"| 示例
! style="text-align:center;"| [math]N_1[/math] || style="text-align:center;"| [math]\overline{X}_1[/math] || style="text-align:center;"| [math]s_1^2[/math]
! style="text-align:center;"| [math]N_2[/math] || style="text-align:center;"| [math]\overline{X}_2[/math] || style="text-align:center;"| [math]s_2^2[/math]
! style="text-align:center;"| {{tmath|t}} || style="text-align:center;"| {{tmath|\nu}} || style="text-align:center;"| {{tmath|P}} || style="text-align:center;"| [math]P_\mathrm{sim}[/math]
! style="text-align:center;"| {{tmath|t}} || style="text-align:center;"| {{tmath|\nu}} || style="text-align:center;"| {{tmath|P}} || style="text-align:center;"| [math]P_\mathrm{sim}[/math]
|-
| 1 || 15 || 20.8 || 7.9 || 15 || 23.0 || 3.8 || −2.46 || 28 || 0.021 || 0.021 || −2.46 || 24.9 || 0.021 || 0.017
|-
| 2 || 10 || 20.6 || 9.0 || 20 || 22.1 || 0.9 || −2.10 || 28 || 0.045 || 0.150 || −1.57 || 9.9 || 0.149 || 0.144
|-
| 3 || 10 || 19.4 || 1.4 || 20 || 21.6 || 17.1 || −1.64 || 28 || 0.110 || 0.036 || −2.22 || 24.5 || 0.036 || 0.042
|}

当两个样本具有相似的方差和样本量时（示例1），韦尔奇的''t''检验和学生''t''检验给出了相同的结果。但请注意，即使您从具有相同方差的总体中采样，样本方差也会不同，两个t检验的结果也会有所不同。因此，使用实际数据时，两个检验几乎总是会给出略有不同的结果。

对于不等方差，当较小样本具有较大方差时（示例2），学生''t''检验给出了低p值；当较大样本具有较大方差时（示例3），学生''t''检验给出了高p值。对于不等方差，韦尔奇''t''检验给出的p值接近模拟p值。

== '''节点使用的R语言示例代码''' ==
=== Welch检验 ===
<syntaxhighlight lang="R">

oneway.test(formula, data, subset, na.action, var.equal = FALSE)

</syntaxhighlight>

== '''节点使用指南''' ==
* 用于确定两个独立样本是否有显著差异的统计检验
* 适用于当两个群体的方差不相等或样本大小不同的情况
* Welch检验不要求两个总体具有相同的方差

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量：选择连续型数值变量，每个变量会做一次Welch检验
* 分组变量：选择一个分类分组变量
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量和分组变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 确保两个样本是独立的，即一个样本中的观测并不影响另一个样本中的观测
* 对于极小的样本量，检验的效力会下降，这意味着检验发现实际差异的能力降低

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:方差分析]]

多元方差分析

2024-02-08T09:51:49Z

RainW：

{{Infobox nodebasic
|nodename=多元方差分析
|nodeimage=MANOVA.png
|icon=MANOVA.svg
|simpleicon=MANOVA_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.2.0|V1.0.2]]部署
|nodeenglishname=MANOVA
|abbreviation=MANOVA
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=多元方差分析是一种多变量统计方法，用于比较两个或多个组之间的平均值是否显著不同。它是单因素方差分析的扩展，其中单个因素（例如治疗方案）有两个或多个水平（例如不同剂量或不同药物）且可能相互关联。在MANOVA中，可以同时考虑多个因变量及变量之间的相互关系，且减少了多个单独的方差分析所需的类型I错误率。用途：用于同时考察两个或更多的因变量，以及一个或多个自变量对这些因变量的影响。参数：选择多个数值因变量，和分组自变量。
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=PointPlot
|nodeavailabletablelist=Stats-Value;P-Value;df;Coeff-Value
|nodeconfiguration=VariableList
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/多元方差分析
|previousnode=[[球形检验]]
|nextnode=[[One_Way_ANCOVA]]
}}

在[[statistics|统计学]]中，'''多元方差分析'''('''MANOVA''')是一种比较[[multivariate random variable|多元]]样本均值的程序。作为一种多元程序，当存在两个或更多[[dependent variables|依赖变量]]时使用，<ref name="Warne2014">{{cite journal |last=Warne |first=R. T. |year=2014 |title=A primer on multivariate analysis of variance (MANOVA) for behavioral scientists |journal=Practical Assessment, Research & Evaluation |volume=19 |issue=17 |pages=1–10 |url=https://scholarworks.umass.edu/pare/vol19/iss1/17/ }}</ref>，通常会接着对涉及单独依赖变量的显著性测试。<ref>Stevens, J. P. (2002). ''Applied multivariate statistics for the social sciences.'' Mahwah, NJ: Lawrence Erblaum.</ref>

与图片无关，依赖变量可能是在连续时间点上测量的k个生活满意度得分和p个工作满意度得分。在这种情况下，有k+p个依赖变量，它们的线性组合遵循多元正态分布，多元方差-协方差矩阵的同质性，线性关系，无多重共线性，并且每个都没有离群值。

== '''模型''' ==

假设[math]n[/math][math]q[/math]-维观测值，其中第[math]i[/math]个观测值[math]y_i[/math]被分配到组[math]g(i)\in \{1,\dots,m\}[/math]中，并围绕组中心[math]\mu^{(g(i))}\in \mathbb R^q[/math]分布，带有[[Multivariate normal distribution|多元高斯]]噪声：[math display="block"]
y_i = \mu^{(g(i))} + \varepsilon_i\quad \varepsilon_i \overset{\text{i.i.d.}}{\sim} \mathcal N_q (0, \Sigma) \quad \text{ for } i=1,\dots, n,
[/math]其中[math]\Sigma[/math]是[[covariance matrix|协方差矩阵]]。然后我们将我们的[[null hypothesis|零假设]]表述为
[math display="block"]H_0\!:\;\mu^{(1)}=\mu^{(2)}=\dots =\mu^{(m)}.[/math]

=='''与ANOVA的关系'''==
MANOVA是单变量[[analysis of variance|方差分析]](ANOVA)的一种泛化形式，<ref name="Warne2014" />尽管与[[Analysis of variance|单变量ANOVA]]不同，它在测试均值差异的统计显著性时使用了结果变量之间的[[covariance|协方差]]。

在单变量方差分析中出现[[Partition of sums of squares|平方和分割]]的地方，在多元方差分析中出现了某些[[positive-definite matrix|正定矩阵]]。对角线条目是单变量ANOVA中出现的同种平方和。非对角线条目是相应的乘积和。在关于[[errors and residuals in statistics|误差]]分布的正态性假设下，由于误差的平方和的对应物具有[[Wishart distribution|Wishart分布]]。

== '''假设检验''' ==
首先，定义以下[math]n\times q[/math]矩阵：

* [math]Y[/math]：其中第[math]i[/math]行等于[math]y_i[/math]

* [math]\hat Y[/math]：其中第[math]i[/math]行是给定组成员[math]g(i)[/math]的最佳预测。即组[math]g(i)[/math]中所有观测值的均值：[math]\frac{1}{\text{size of group }g(i)}\sum_{k: g(k)=g(i)}y_k[/math]。

* [math]\bar Y[/math]：其中第[math]i[/math]行是给定无信息时的最佳预测。即所有[math]n[/math]观测值的[[Sample mean and covariance|经验均值]] [math]\frac{1}{n}\sum_{k=1}^n y_k[/math]

然后矩阵[math]S_{\text{model}} := (\hat Y - \bar Y)^T(\hat Y - \bar Y)[/math]是由组解释的平方和的概括，和[math]S_{\text{res}} := (Y - \hat Y)^T(Y - \hat Y)[/math]是[[residual sum of squares|残差平方和]]的概括。<ref name="Anderson1994">{{cite book |last=Anderson |first=T. W. |title=An Introduction to Multivariate Statistical Analysis |year=1994 |publisher=Wiley}}</ref> <ref name="Krzanowski1988">{{cite book |last=Krzanowski |first=W. J. |title=Principles of Multivariate Analysis. A User's Perspective |year=1988 |publisher=Oxford University Press}}</ref>
注意，另一种可能是，当上述矩阵以1/(n-1)缩放时，也可以讨论协方差，因为随后的检验统计量不会因为以相同的非零常数乘以[math]S_{\text{model}}[/math]和[math]S_{\text{res}}[/math]而改变。

最常见的<ref>{{cite web|last=Garson|first=G. David|title=Multivariate GLM, MANOVA, and MANCOVA|url=http://faculty.chass.ncsu.edu/garson/PA765/manova.htm|access-date=2011-03-22}}</ref><ref>{{cite web|last=UCLA: Academic Technology Services, Statistical Consulting Group.|title=Stata Annotated Output – MANOVA|url=http://www.ats.ucla.edu/stat/stata/output/Stata_MANOVA.htm|access-date=2011-03-22}}</ref>统计量是基于矩阵[math]A:= S_{\text{model}}S_{\text{res}}^{-1}[/math]的根（或特征值）[math]\lambda_p[/math]的摘要

* [[Samuel Stanley Wilks]]的[math]\Lambda_\text{Wilks} = \prod_{1,\ldots,p}(1/(1 + \lambda_{p})) = \det(I + A)^{-1} = \det(S_\text{res})/\det(S_\text{res} + S_\text{model})[/math]，遵循[[Wilks' lambda distribution|Wilks的λ分布]](Λ)
* [[K. C. Sreedharan Pillai]]–[[M. S. Bartlett]]的[[trace of a matrix|矩阵迹]]，[math]\Lambda_\text{Pillai} = \sum_{1,\ldots,p}(\lambda_p/(1 + \lambda_p)) = \operatorname{tr}(A(I + A)^{-1})[/math]<ref>{{cite web|url=http://www.real-statistics.com/multivariate-statistics/multivariate-analysis-of-variance-manova/manova-basic-concepts/|title=MANOVA Basic Concepts – Real Statistics Using Excel|website=www.real-statistics.com|access-date=5 April 2018}}</ref>
* Lawley–[[Harold Hotelling|Hotelling]]迹，[math]\Lambda_\text{LH} = \sum_{1,\ldots,p}(\lambda_{p}) = \operatorname{tr}(A)[/math]
* [[Roy's greatest root]]（也称为''Roy的最大根''），[math]\Lambda_\text{Roy} = \max_p(\lambda_p) [/math]

关于每种方法的优点的讨论仍在继续，<ref name="Warne2014" /> 尽管最大根仅导致对显著性的一个界限，这通常不是实际关注的焦点。另一个复杂之处在于，除了Roy的最大根外，这些统计量在[[零假设]]下的分布并不直接，除了少数低维情况外，只能通过近似得到。<ref>Camo http://www.camo.com/multivariate_analysis.html</ref> 在<ref>{{Citation
|last=Chiani | first=M.
|year=2016
|title = 分布矩阵中最大根的分布，用于Roy检验在多元方差分析中
|journal=[[多元分析杂志]]
|volume=143
|pages=467–471
|arxiv=1401.3987v3
| doi=10.1016/j.jmva.2015.10.007
| s2cid=37620291
}}</ref>中推导了Roy的最大根在[[零假设]]下的分布算法，而在<ref>I.M. Johnstone, B. Nadler "在单一等级替代下Roy最大根检验" arXiv预印本 arXiv:1310.6581 (2013)</ref>中研究了在替代假设下的分布。

[[C. R. Rao]]推导出了Wilks' lambda的最著名[[近似值]]。

在两组的情况下，所有统计数据都是等效的，测试简化为[[Hotelling的T平方]]。

== '''引入协变量 (MANCOVA)''' ==
{{main|多元协方差分析}}

人们也可以测试在调整协变量后是否存在组效应。为此，请按照上述程序，但是用[[一般线性模型]]的预测值替换[math]\hat Y[/math]，该模型包含组和协变量，并用只包含协变量（和截距）的一般线性模型的预测值替换[math]\bar Y[/math]。然后[math]S_{\text{model}}[/math]是通过添加分组信息而解释的额外平方和，[math]S_{\text{res}}[/math]是包含分组和协变量的模型的残差平方和。<ref name="Krzanowski1988" />

请注意，在不平衡数据的情况下，添加协变量的顺序很重要。

=='''因变量的相关性'''==
[[File:Outcome Variables.jpg|thumb|这是多元方差分析中所需结果变量间关系的图形描述。分析的一部分涉及创建一个复合变量，对照该变量分析独立变量的组别差异。复合变量可能有多个，是结果变量不同组合的结果。然后分析确定哪种组合显示出独立变量最大的组差异。然后使用描述性判别分析作为事后测试，以确定创建最大组差异的复合变量的构成。]]
[[File:MANOVAs and Highly Correlated Dependent Variables.png|thumb|这是MANOVA中两个高度相关因变量效应的简单视觉表示。如果两个（或更多）因变量高度相关，则发生类型I错误的可能性降低，但权衡是MANOVA测试的功效也降低了。]]
MANOVA的功效受因变量之间的相关性和与这些变量相关的效应大小的影响。例如，当有两组和两个因变量时，当相关性等于较小标准化效应大小与较大标准化效应大小的比率时，MANOVA的功效最低。<ref>{{cite journal|last1=Frane|first1=Andrew|title=在多元两组设计中单变量比较的功效和类型I错误控制|journal=多元行为研究|volume=50|issue=2|pages=233–247|date=2015|doi=10.1080/00273171.2014.968836|pmid=26609880|s2cid=1532673 }}</ref>

== '''节点使用的R语言示例代码''' ==
=== 多元方差分析 ===
<syntaxhighlight lang="R">

manova(...)

</syntaxhighlight>

== '''节点使用指南''' ==
* 用于判断多个因变量是否在两个或多个组之间存在差异
* 与单变量ANOVA（分析单个因变量）不同，MANOVA一次分析多个因变量
* 帮助研究者理解变量之间的交互作用以及不同组在多个维度上的表现

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 因变量：选择多个连续型数值变量
* 分组自变量：选择一个或多个分类变量
* 因变量和分组自变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 观察结果必须是独立的
* 因变量在每个组内应近似呈正态分布
* 各组的协方差矩阵应该相等
* 因变量之间应存在线性关系

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:方差分析]]

Two Way ANOVA

2024-02-08T07:52:09Z

RainW：

{{Infobox nodebasic
|nodename=Two_Way_ANOVA
|nodeimage=Two Way ANOVA.png
|icon=Two Way ANOVA.svg
|simpleicon=Two Way ANOVA_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Two Way ANOVA
|abbreviation=ANOVAT
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=Two-Way-ANOVA也称为双因素方差分析, 用来分析两个因素的不同水平对结果是否有显著影响,以及两个因素之间是否存在交互效应。分析前的假设是随机采样, 样本独立, 符合或接近正态分布, 和残差方差要一致。用途：用于研究两个独立变量（称为因素）对一个连续型因变量的影响。参数：选择正态分布数值因变量，和两个自变量因素
|nodeinputnumber=5
|nodeoutputnumber=2
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=ScatterCloudsAndRainPlot;twoanovagraphPlot;SpittingPointLinePlot
|nodeavailabletablelist=df;MSE;F-Value;PES;P-Value
|nodeconfiguration=VariableList
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/Two_Way_ANOVA
|previousnode=[[One_Way_ANOVA]]
|nextnode=[[多重比较方差分析]]
}}

在[[统计学]]中，'''双因素方差分析'''('''ANOVA''')是[[单因素方差分析|单因素ANOVA]]的扩展，它检验两个不同的[[分类变量|分类]] [[自变量]]对一个[[连续函数|连续]] [[因变量]]的影响。双因素ANOVA不仅旨在评估每个自变量的[[主效应]]，还要检查它们之间是否存在任何[[交互作用（统计）|交互作用]]。

=='''历史'''==
1925年，[[罗纳德·费希尔]]在其著名书籍''[[研究工作者的统计方法]]''（第7和第8章）中提到了双因素ANOVA。1934年，[[弗兰克·耶茨]]发表了非平衡情况下的程序。<ref>{{cite journal |last=Yates |first=Frank |date=March 1934 |title=不同类别中数量不等的多重分类分析 |jstor=2278459 |journal=美国统计协会杂志 |volume=29 |issue=185 |pages=51–66 |doi=10.1080/01621459.1934.10502686}}</ref> 从那时起，产生了大量的文献。该主题于1993年由[[安养福士]]回顾。<ref>{{cite journal |last=Fujikoshi |first=Yasunori |date=1993 |title=数据不平衡下的双向ANOVA模型 |journal=离散数学 |volume=116 |issue=1 |pages=315–334 |doi=10.1016/0012-365X(93)90410-U |doi-access=free }}</ref> 2005年，[[安德鲁·格尔曼]]提出了ANOVA的不同方法视角，将其视为一个[[多层次模型]]。<ref>{{cite journal |last=Gelman |first=Andrew |date=February 2005 |title=方差分析？为什么它比以往任何时候都更重要 |journal=统计学年鉴 |volume=33 |issue=1 |pages=1–53 | arxiv=math/0504499|doi=10.1214/009053604000001048 |s2cid=125025956 }}</ref>

=='''数据集'''==
让我们想象一个[[数据集]]，其中一个因变量可能受到两个潜在变异源的'''因素'''影响。第一个因素有[math]I[/math]个水平{{nowrap|([math]i \in \{1,\ldots,I\}[/math])}}，第二个有[math]J[/math]个水平{{nowrap|([math]j \in \{1,\ldots,J\}[/math])}}。每个组合[math](i,j)[/math]定义了一个'''处理'''，共有[math]I \times J[/math]种处理。我们用[math]n_{ij}[/math]表示处理[math](i,j)[/math]的'''重复次数'''，并让[math]k[/math]是此处理中重复的索引{{nowrap|([math]k \in \{1,\ldots,n_{ij}\}[/math])}}。

从这些数据中，我们可以构建一个[[列联表]]，其中[math]n_{i+} = \sum_{j=1}^J n_{ij}[/math]和[math]n_{+j} = \sum_{i=1}^I n_{ij}[/math]，总重复次数等于[math]n = \sum_{i,j} n_{ij} = \sum_i n_{i+} = \sum_j n_{+j}[/math]。

如果每种处理的重复次数相同，即[math]K[/math]，则[[实验设计]]被认为是'''平衡的'''。在这种情况下，设计也被认为是'''正交的'''，允许完全区分两个因素的效应。因此，我们可以写[math]\forall i,j \; n_{ij} = K[/math]，和[math]\forall i,j \; n_{ij} = \frac{n_{i+} \cdot n_{+j}}{n}[/math]。

=='''模型'''==
通过观察所有[math]n[/math]个数据点之间的变异，例如通过[[直方图]]，"[[概率论|概率]]可用于描述此类变异"。<ref>{{cite journal |last=Kass |first=Robert E |date=1 February 2011 |title=统计推断：大局观 |journal=[[统计科学]] |volume=26 |issue=1 |pages=1–9 |doi=10.1214/10-sts337|pmid=21841892 |pmc=3153074 |arxiv=1106.2895 }}</ref> 因此，让我们用[math]Y_{ijk}[/math]表示观测值[math]y_{ijk}[/math]是处理[math](i,j)[/math]的第[math]k[/math]次测量的[[随机变量]]。'''双因素ANOVA'''将所有这些变量建模为围绕平均值[math]\mu_{ij}[/math]，具有恒定方差[math]\sigma^2[/math]（[[同方差性]])[[独立（概率论）|独立地]]和[[正态分布|正态地]]变化：

[math]Y_{ijk} \, | \, \mu_{ij}, \sigma^2 \; \overset{\mathrm{i.i.d.}}{\sim} \; \mathcal{N}(\mu_{ij}, \sigma^2)[/math]。

具体来说，响应变量的平均值被建模为解释变量[[线性组合]]：

[math]\mu_{ij} = \mu + \alpha_i + \beta_j + \gamma_{ij}[/math]，

其中[math]\mu[/math]是总平均值，[math]\alpha_i[/math]是来自第一个因素的水平[math]i [/math]的加性主效应（列联表中的''i''行），[math]\beta_j[/math]是来自第二个因素的水平[math]j[/math]的加性主效应（列联表中的''j''列），并且[math]\gamma_{ij}[/math]是处理[math](i,j)[/math]的非加性交互作用效应，用于来自两个因素的样本[math]k=1,...,n_{ij}[/math]（列联表中行''i''和列''j''的单元）。

描述双因素ANOVA的另一种等效方式是提到，除了因素解释的变异之外，还有一些[[统计噪声]]。通过引入每个数据点的一个随机变量[math]\epsilon_{ijk}[/math]，称为[[统计学中的错误和残差|误差]]，来处理这部分未解释的变异。这[math]n[/math]个随机变量被视为偏离均值，并且假定它们是独立的且正态分布的：

[math]Y_{ijk} = \mu_{ij} + \epsilon_{ijk} \text{ 与 } \epsilon_{ijk} \overset{\mathrm{i.i.d.}}{\sim} \mathcal{N}(0, \sigma^2)[/math]。

=='''假设'''==
根据[[安德鲁·格尔曼|Gelman]]和[[詹妮弗·希尔|Hill]]的说法，ANOVA以及更一般地，[[广义线性模型]]的假设，按重要性递减排序如下：<ref>{{cite book |last1=Gelman |first1=Andrew |last2=Hill |first2=Jennifer|author2-link=詹妮弗·希尔 |date=18 December 2006 |title= 使用回归和多层次/分层模型的数据分析 |url=http://www.cambridge.org/us/academic/subjects/statistics-probability/statistical-theory-and-methods/data-analysis-using-regression-and-multilevelhierarchical-models |publisher=[[剑桥大学出版社]] |pages=45–46 |isbn=978-0521867061 }}</ref>
1. 数据点与正在研究的科学问题相关；
2. 响应变量的平均值受因素的加性（如果没有交互项）和线性影响；
3. 误差是独立的；
4. 误差具有相同的方差；
5. 误差呈正态分布。

=='''参数估计'''==
为了确保参数的[[可识别性]]，我们可以添加以下“和为零”的约束：

[math]\sum_i \alpha_i = \sum_j \beta_j = \sum_i \gamma_{ij} =\sum_j \gamma_{ij}= 0[/math]

=='''假设检验'''==
在传统方法中，通过计算[[Partition of sums of squares|平方和]]来实现[[Hypothesis testing|检验零假设]]（即因素无效）的[[Statistical significance|显著性]]。


因为可能存在的[[degrees of freedom (statistics)|自由度]]数量庞大，测试交互项的显著性可能会很困难。<ref>{{cite journal |author=Yi-An Ko|date=September 2013 |title=Novel Likelihood Ratio Tests for Screening Gene-Gene and Gene-Environment Interactions with Unbalanced Repeated-Measures Data |journal=Genetic Epidemiology |volume=37 |issue=6 |pages=581–591 |doi=10.1002/gepi.21744 |pmid=23798480 |display-authors=etal|pmc=4009698}}</ref>

=='''示例'''==
以下假设性示例展示了15株植物在两种不同环境变量和三种不同肥料条件下的产量。
{| class="wikitable"
|-
!
! 额外CO2
! 额外湿度
|-
| 无肥料
| 7, 2, 1
| 7, 6
|-
| 硝酸盐
| 11, 6
| 10, 7, 3
|-
| 磷酸盐
| 5, 3, 4
| 11, 4
|}

计算五个平方和：

{| class="wikitable"
|-
! 因子
! 计算
! 和
! [math]\sigma^2[/math]
|-
| 个体
| [math]7^2+2^2+1^2 + 7^2+6^2 + 11^2+6^2 + 10^2+7^2+3^2 + 5^2+3^2+4^2 + 11^2+4^2[/math]
| 641
| 15
|-
| 肥料×环境
| [math]\frac{(7+2+1)^2}{3} + \frac{(7+6)^2}{2} + \frac{(11+6)^2}{2} + \frac{(10+7+3)^2}{3} + \frac{(5+3+4)^2}{3} + \frac{(11+4)^2}{2}[/math]
| 556.1667
| 6
|-
| 肥料
| [math]\frac{(7+2+1+7+6)^2}{5} + \frac{(11+6+10+7+3)^2}{5} + \frac{(5+3+4+11+4)^2}{5}[/math]
| 525.4
| 3
|-
| 环境
| [math]\frac{(7+2+1+11+6+5+3+4)^2}{8} + \frac{(7+6+10+7+3+11+4)^2}{7} [/math]
| 519.2679
| 2
|-
| 综合
| [math]\frac{(7+2+1+11+6+5+3+4+7+6+10+7+3+11+4)^2}{15} [/math]
| 504.6
| 1
|}

最终，可以计算出[[analysis of variance]]所需的平方差和。

{| class="wikitable"
|-
! 因子
! 和
! [math]\sigma^2[/math]
! 总计
! 环境
! 肥料
! 肥料×环境
! 残差
|-
| 个体
| 641
| 15
| 1
|
|
|
| 1
|-
| 肥料×环境
| 556.1667
| 6
|
|
|
| 1
| −1
|-
| 肥料
| 525.4
| 3
|
|
| 1
| −1
|
|-
| 环境
| 519.2679
| 2
|
| 1
|
| −1
|
|-
| 综合
| 504.6
| 1
| −1
| −1
| −1
| 1
|
|-
|
|
|
|
|
|
|
|
|-
| 平方差
|
|
| 136.4
| 14.668
| 20.8
| 16.099
| 84.833
|-
| 自由度
|
|
| 14
| 1
| 2
| 2
| 9
|}

== '''节点使用的R语言示例代码''' ==
=== Two Way ANOVA ===
<syntaxhighlight lang="R">

aov_ez(
id,
dv,
data,
between = NULL,
within = NULL,
covariate = NULL,
observed = NULL,
type = afex_options("type"),
factorize = afex_options("factorize"),
return = afex_options("return_aov")
)

</syntaxhighlight>
方法参见'''R package: afex'''的官方文档

== '''节点使用指南''' ==
* 用于研究两个不同因素对一个连续型因变量的影响，并且可以用来检验两个因素的交互作用

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 因变量：选择正态分布连续型数值变量。如果选择多个，每个变量做一次ANOVA
* 分组自变量1：选择一个分类分组变量，第一个因素
* 分组自变量2：选择一个分类分组变量，第二个因素
* 因变量，分组自变量1和分组自变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 每组的数据都应接近正态分布
* 不同组合的方差应该大致相等
* 数据应该是独立的，即一个观测结果不应该影响另一个

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:方差分析]]

Two Way ANCOVA

2024-02-08T07:15:08Z

RainW：

{{Infobox nodebasic
|nodename=Two_Way_ANCOVA
|nodeimage=Two Way ANCOVA.png
|icon=Two Way ANCOVA.svg
|simpleicon=Two Way ANCOVA_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.2.0|V1.0.2]]部署
|nodeenglishname=Two Way ANCOVA
|abbreviation=ANCOVAT
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=双因素协方差分析结合了双因素方差分析和协方差分析。该方法用于检验两个分类自变量（因素）和一个连续协变量对一个连续因变量的影响，并且可以控制一个或多个连续协变量的影响。用途：用于确定因素A、因素B以及它们的交互效应是否显著影响因变量，同时控制了协变量的影响。参数：选择正态分布数值因变量，两个自变量因素，一个或多个协变量。
|nodeinputnumber=6
|nodeoutputnumber=2
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=df;MSE;F-Value;PES;P-Value
|nodeconfiguration=VariableList
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/Two_Way_ANCOVA
|previousnode=[[One_Way_ANCOVA]]
|nextnode=[[一般线性相关分析]]
}}

== '''节点使用的R语言示例代码''' ==
=== Two Way ANCOVA ===
<syntaxhighlight lang="R">

aov_ez(
id,
dv,
data,
between = NULL,
within = NULL,
covariate = NULL,
observed = NULL,
type = afex_options("type"),
factorize = afex_options("factorize"),
return = afex_options("return_aov")
)

</syntaxhighlight>
方法参见'''R package: afex'''的官方文档

== '''节点使用指南''' ==
* 用于分析两个分类自变量（因子）和一个连续协变量对一个连续因变量的影响
* 能够控制协变量对因变量的影响，从而更准确地估计自变量对因变量的影响

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 因变量：选择正态分布连续型数值变量。如果选择多个，每个变量做一次ANCOVA
* 分组自变量1：选择一个分类分组变量，第一个因素
* 分组自变量2：选择一个分类分组变量，第二个因素
* 协变量: 选择一个或者多个协变量，可以是连续型或者离散型
* 因变量，分组自变量1，分组自变量2和协变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 检查数据是否满足正态分布、独立性、方差齐性等基本假设
* 检验协变量和因变量是否有交互作用，如果有，标准ANCOVA可能不适用
* 确保每个组的样本量足够，以便有足够的统计功效检测组间差异

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:方差分析]]

One Way ANOVA

2024-02-08T06:24:15Z

RainW：

{{Infobox nodebasic
|nodename=One_Way_ANOVA
|nodeimage=One Way ANOVA.png
|icon=One Way ANOVA.svg
|simpleicon=One Way ANOVA_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=One Way ANOVA
|abbreviation=ANOVAO
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=One Way ANOVA也称为单因素方差分析, 是用来检验多个平均数之间的差异, 从而确定因素对试验结果有无显著性影响。单因素则是实验中只选择一个因素。方差分析需要满足以下条件: 观察变量为连续变量且不存在显著的异常值,观测值相互独立且需要为两组以上变量, 各组观测值必须为或接近正态分布，多组整体方差相等。用途：用于研究一个因素（或独立变量）在不同水平上对一个因变量的影响是否显著，也就是检验三个或更多组的平均值是否相等。如果你只有两个组，通常会使用t检验，但如果有三个或更多的组，那么应该使用ANOVA。参数：选择正态分布数值因变量，和分组自变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=Rain_Cloud;SpittingPointLinePlot;SplittingNephelogram
|nodeavailabletablelist=df;MSE;F-Value;PES;P-Value
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/One_Way_ANOVA
|previousnode=[[F检验]]
|nextnode=[[Two_Way_ANOVA]]
}}
== '''One Way ANOVA'''的概念（英语：Analysis of variance，简称'''ANOVA'''） ==
在[[统计学]]中，'''单因素方差分析'''（或'''单向ANOVA'''）是一种技术，用于比较两个样本的平均值是否存在显著差异（使用[[F分布]]）。这种[[方差分析]]技术要求一个数值型[[因变量和自变量|响应]]变量"Y"和一个单一的解释变量"X"，因此称为"单向"。<ref name="Howell 2002 324–325">{{cite book |title=Statistical Methods for Psychology |last=Howell |first=David |year=2002 |publisher=Duxbury |isbn=0-534-37770-X |pages=[https://archive.org/details/statisticalmetho0000howe/page/324 324–325] |url=https://archive.org/details/statisticalmetho0000howe/page/324 }}</ref>

ANOVA测试[[零假设]]，该假设声明所有组中的样本均来自具有相同平均值的总体。为此，需要对总体方差进行两次估计。这些估计依赖于各种假设（[[#假设|见下文]]）。ANOVA产生一个F统计量，即组间平均值计算的方差与样本内方差的比值。如果组平均值来自具有相同平均值的总体，那么组间平均值的方差应该低于样本的方差，根据[[中心极限定理]]。因此，较高的比值意味着样本来自具有不同平均值的总体。<ref name="Howell 2002 324–325"/>

然而，通常情况下，单向ANOVA用于测试至少三个组之间的差异，因为两组的情况可以通过[[t检验]]（Gosset, 1908）覆盖。当只有两个平均值需要比较时，[[t检验]]和[[F检验]]是等价的；ANOVA与''t''之间的关系由''F'' = ''t''2给出。单向ANOVA的一个扩展是[[双因素方差分析]]，它考察了两个不同分类自变量对一个因变量的影响。

===假设===
只要满足以下假设，单向ANOVA的结果可以被认为是可靠的：
* 响应变量[[统计学中的误差和残差|残差]]呈[[正态分布]]（或近似正态分布）。
* 总体的方差相等。
* 给定组的响应是[[独立同分布]]的正态随机变量（而不是[[简单随机样本]]（SRS））。
* 如果数据是[[顺序量表|顺序的]]，应使用这个测试的非参数替代方法，如[[克鲁斯卡尔-沃利斯单向方差分析]]。
* 如果方差未知是否相等，可以使用2样本[[韦尔奇t检验]]的泛化版本。<ref name="Welch1951">{{cite journal|last1=Welch|first1=B. L.|title=On the Comparison of Several Mean Values: An Alternative Approach|journal=Biometrika|date=1951|volume=38|issue=3/4|pages=330–336|doi=10.2307/2332579|jstor=2332579}}</ref>

====偏离总体正态性====
ANOVA是一个相对健壮的程序，对于违反正态性假设具有一定的容忍度。<ref name=Kirk>{{cite book |first=RE |last=Kirk |year=1995 |title=Experimental Design: Procedures For The Behavioral Sciences |url=https://archive.org/details/experimentaldesi00roge |url-access=registration |edition=3 |location=Pacific Grove, CA, USA |publisher=Brooks/Cole}}</ref>

单向ANOVA可以推广到因子和多变量布局，以及协方差分析。

通常在流行文献中提到，当每个总体遵循[[正态分布]]的假设被严重违反时，这些''F''检验都不是[[健壮统计|健壮的]]，特别是对于小的阿尔法水平和不平衡的布局。<ref>{{cite journal |last=Blair |first=R. C. |year=1981 |title=A reaction to 'Consequences of failure to meet assumptions underlying the fixed effects analysis of variance and covariance.' |journal=Review of Educational Research |volume=51 |issue= 4|pages=499–507 |doi=10.3102/00346543051004499}}</ref> 此外，还有人声称，如果违反了[[同方差性]]的基本假设，[[I型错误]]的特性会严重恶化。<ref>{{cite journal |last1=Randolf |first1=E. A. |last2=Barcikowski |first2=R. S. |year=1989 |title=Type I error rate when real study values are used as population parameters in a Monte Carlo study |journal=Paper Presented at the 11th Annual Meeting of the Mid-Western Educational Research Association, Chicago }}</ref>

然而，这是一个误解，基于20世纪50年代及更早期的工作。第一次全面调查这个问题的蒙特卡罗模拟是Donaldson（1966年）所作。<ref>{{cite journal |title=Power of the F-Test for Nonnormal Distributions and Unequal Error Variances |first=Theodore S. |last=Donaldson |year=1966 |journal=Paper Prepared for United States Air Force Project RAND |url=https://www.rand.org/pubs/research_memoranda/RM5072.html }}</ref> 他表明，在通常的偏差（正偏态，不等方差）下，“''F''-检验是保守的”，因此它找到一个变量显著性的可能性比它应该的要小。然而，随着样本量或单元数的增加，“功效曲线似乎趋于基于正态分布的那种”。Tiku（1971）发现，“''F''的非正态理论功效与正态理论功效的差异，可以通过一个随着样本量增加而急剧减少的修正项来表示。”<ref>{{cite journal |first=M. L. |last=Tiku |title=Power Function of the ''F''-Test Under Non-Normal Situations |journal=[[Journal of the American Statistical Association]] |volume=66 |issue=336 |year=1971 |pages=913–916 |doi=10.1080/01621459.1971.10482371 }}</ref> 非正态性问题，尤其是在大样本中，远没有流行文章所暗示的那么严重。

目前的观点是，“蒙特卡罗研究广泛用于基于正态分布的检验，以确定它们对违反被分析变量在人群中的正态分布假设的敏感性。这些研究的总体结论是，这种违反的后果不如以前认为的那样严重。虽然这些结论不应该完全阻止任何人关注正态性假设，但它们增加了所有研究领域中对分布依赖的统计检验的总体受欢迎程度。”<ref>{{Cite web |url=https://www.statsoft.com/textbook/elementary-statistics-concepts/ |title=Getting Started with Statistics Concepts |access-date=2016-09-22 |archive-url=https://web.archive.org/web/20181204140236/http://www.statsoft.com/textbook/elementary-statistics-concepts |archive-date=2018-12-04 |url-status=dead }}</ref>

关于因子布局中的非参数替代方法，请参见Sawilowsky。<ref>{{cite journal |last=Sawilowsky |first=S. |year=1990 |title=Nonparametric tests of interaction in experimental design |journal=Review of Educational Research |volume=60 |issue=1 |pages=91–126 |doi=10.3102/00346543060001091 }}</ref>

===固定效应、完全随机实验、非平衡数据的情况===

====模型====
正态线性模型描述的是具有不同均值的概率分布，这些分布都是形状相同的钟形（正态）曲线。因此，拟合模型只需要每个处理组的均值和方差计算（使用处理组内的平均方差）。作为假设检验的一部分，会进行均值和方差的计算。

对于一个完全随机实验，常用的正态线性模型包括：<ref>{{cite book | last = Montgomery | first = Douglas C.
| title = Design and Analysis of Experiments
| publisher = Wiley | location = New York
| year = 2001 | edition = 5th | page = Section 3–2 | isbn = 9780471316497}}</ref>
: [math]y_{i,j}=\mu_j+\varepsilon_{i,j}[/math] （均值模型）
或者
: [math]y_{i,j}=\mu+\tau_j+\varepsilon_{i,j}[/math] （效应模型）
其中
: [math]i=1,\dotsc,I[/math] 是实验单元的索引
: [math]j=1,\dotsc,J[/math] 是处理组的索引
: [math]I_j[/math] 是第j个处理组中的实验单元数量
: [math]I = \sum_j I_j[/math] 是实验单元的总数
: [math]y_{i,j}[/math] 是观察值
: [math]\mu_j[/math] 是第j个处理组观察值的均值
: [math]\mu[/math] 是所有观察值的总均值
: [math]\tau_j[/math] 是第j个处理效应，即偏离总均值的差异
: [math]\sum\tau_j=0[/math]
: [math]\mu_j=\mu+\tau_j[/math]
: [math]\varepsilon \thicksim N(0, \sigma^2)[/math], [math]\varepsilon_{i,j}[/math] 是正态分布的零均值随机误差。

关于实验单元的索引 [math]i[/math] 可以有几种解释。在一些实验中，相同的实验单元会受到一系列处理；[math]i[/math] 可能指的是一个特定的单元。在其他实验中，每个处理组都有一组不同的实验单元；[math]i[/math] 可能仅仅是指向第 [math]j[/math] 个列表的索引。

====数据和数据的统计汇总====
一种组织实验观察值 [math]y_{ij}[/math] 的形式是将组放在列中：
{| cellpadding="2" style="border: 1px solid darkgray; width: 90%; text-align: center;"
|+ ANOVA data organization, Unbalanced, Single factor
|-
||
! colspan="6" style="text-align: center; border: 1px solid darkgray;" | Lists of Group Observations
|-
| style="width:15%" |
| style="width:15%" | [math]I_{1}[/math]
| style="width:15%" | [math]I_{2}[/math]
| style="width:15%" | [math]I_{3}[/math]
| style="width: 5%" | [math]\dotso[/math]
| style="width:15%" | [math]I_{j}[/math]
|-
|| 1 || [math]y_{11}[/math] || [math]y_{12}[/math] || [math]y_{13}[/math] || || [math]y_{1j}[/math]
|-
|| 2 || [math]y_{21}[/math] || [math]y_{22}[/math] || [math]y_{23}[/math] || || [math]y_{2j}[/math]
|-
|| 3 || [math]y_{31}[/math] || [math]y_{32}[/math] || [math]y_{33}[/math] || || [math]y_{3j}[/math]
|-
|| [math]\vdots[/math] || || || || || [math]\vdots[/math]
|-
|| [math]i[/math] || [math]y_{i1}[/math] || [math]y_{i2}[/math] || [math]y_{i3}[/math] || [math]\dotso[/math] || [math]y_{ij}[/math]
|-
| style="height:50px;" | ||
|-
||
! colspan="6" style="border: 1px solid darkgray;" | Group Summary Statistics
! colspan="2" style="border: 1px solid darkgray;" | Grand Summary Statistics
|-
| style="text-align: left" | # Observed || [math]I_1[/math] || [math]I_2[/math] || [math]\dotso[/math]
|| [math]I_j[/math] || [math]\dotso[/math] || [math]I_J[/math]
| style="text-align: left" | # Observed || [math]I = \sum I_j[/math]
|-
| style="text-align: left" | Sum || || ||
|| [math]\sum_i y_{ij}[/math] || ||
| style="text-align: left" | Sum || [math]\sum_j \sum_i y_{ij}[/math]
|-
| style="text-align: left" | Sum Sq || || ||
|| [math]\sum_i (y_{ij})^2[/math] || ||
| style="text-align: left" | Sum Sq || [math]\sum_j \sum_i (y_{ij})^2[/math]
|-
| style="text-align: left" | Mean || [math]m_1[/math] || [math]\dotso[/math] ||
|| [math]m_j[/math] || [math]\dotso[/math] || [math]m_J[/math]
| style="text-align: left" | Mean || [math]m[/math]
|-
| style="text-align: left" | Variance || [math]s_1^2[/math]|| [math]\dotso[/math] ||
|| [math]s_j^2[/math] || [math]\dotso[/math] || [math]s_J^2[/math]
| style="text-align: left" | Variance || [math]s^2[/math]
|}

比较模型和总结： [math]\mu = m[/math] 和 [math]\mu_j = m_j[/math]。总均值和总方差是根据总和计算的，而不是根据组均值和方差计算的。

====假设检验====

给定总结统计数据，假设检验的计算以表格形式展示。虽然展示了两列SS以说明它们的解释价值，但只需要一列来展示结果。

{| cellpadding="2" style="border: 1px solid darkgray; text-align=center;"
|+ ANOVA table for fixed model, single factor, fully randomized experiment
|-
!Source of variation
!Sums of squares
!Sums of squares
!Degrees of freedom
!Mean square
!F
|-
!
!Explanatory SS<ref>
{{Cite book
| last1 = Moore
| first1 = David S.
| last2 = McCabe
| first2 = George P.
| title = Introduction to the Practice of Statistics
| url = https://archive.org/details/isbn_9780716749127
| url-access = registration
| publisher = W H Freeman & Co.
| year = 2003
| edition = 4th
| page = 764
| isbn = 0716796570
}}
</ref>
!Computational SS<ref>
{{Cite book
| last1 = Winkler
| first1 = Robert L.
| last2 = Hays
| first2 = William L.
| title = Statistics: Probability, Inference, and Decision
| url = https://archive.org/details/statisticsprobab0000wink
| url-access = registration
| place = New York
| publisher = Holt, Rinehart and Winston
| year = 1975
| edition = 2nd
| page = [https://archive.org/details/statisticsprobab0000wink/page/761 761]
}}
</ref>
!DF
!MS
!
|-
!Treatments
! [math]\sum_{Treatments} I_j (m_j-m)^2[/math]
! style="padding-left:1em;padding-right:1em" | [math]\sum_j \frac{(\sum_i y_{ij})^2}{I_j} - \frac{(\sum_j \sum_i y_{ij})^2}{I}[/math]
! style="padding-left:1em;padding-right:1em" | [math]J-1[/math]
! style="padding-left:1em;padding-right:1em" | [math]\frac{SS_{Treatment}}{DF_{Treatment}}[/math]
! style="padding-left:1em;padding-right:1em" | [math]\frac{MS_{Treatment}}{MS_{Error}}[/math]
|-
!Error
! [math]\sum_{Treatments} (I_j-1)s_j^2[/math]
! [math]\sum_j \sum_i y_{ij}^2 - \sum_j \frac{(\sum_i y_{ij})^2}{I_j}[/math]
! [math]I-J[/math]
! [math]\frac{SS_{Error}}{DF_{Error}}[/math]
|
|-
!Total
! [math]\sum_{Observations} (y_{ij}-m)^2[/math]
! [math]\sum_j \sum_i y_{ij}^2 - \frac{(\sum_j \sum_i y_{ij})^2}{I}[/math]
! [math]I-1[/math]
|}

[math]MS_{Error}[/math] 是对模型中 [math]\sigma^2[/math] 的方差估计。

====分析总结====
核心ANOVA分析包括一系列计算。数据以表格形式收集。然后
* 每个处理组通过实验单元的数量、两个总和、一个均值和一个方差来进行总结。处理组总结合并以提供单位总数和总和。总均值和总方差是根据总和计算的。模型中使用处理和总均值。
* 从总结中计算出三个DF和SS。然后计算MS，比值决定F。
* 计算机通常根据F确定一个p值，以确定处理是否产生显著不同的结果。如果结果显著，那么模型暂时有效。

如果实验是平衡的，所有的 [math]I_j[/math] 项都相等，所以SS方程简化了。

在更复杂的实验中，如果实验单元（或环境效应）不是均质的，行统计也用于分析。模型包括依赖于 [math]i[/math] 的项。确定额外项会减少可用的自由度数量。

== '''节点使用的R语言示例代码''' ==
=== One Way ANOVA ===
<syntaxhighlight lang="R">

aov_ez(
id,
dv,
data,
between = NULL,
within = NULL,
covariate = NULL,
observed = NULL,
type = afex_options("type"),
factorize = afex_options("factorize"),
return = afex_options("return_aov")
)

</syntaxhighlight>
方法参见'''R package: afex'''的官方文档

== '''节点使用指南''' ==
* 用于比较三个或更多独立组的均值是否存在显著差异
* 该方法假设样本来自服从正态分布的总体，并且各总体具有相同的方差
* 零假设（H0）：所有组的总体均值相等。

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 因变量：选择正态分布连续型数值变量。如果选择多个，每个变量做一次ANOVA
* 分组自变量：选择一个分类分组变量
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 因变量和分组自变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 数据应接近正态分布
* 组间方差应该相等（方差同质性）
* 数据应该是独立的，即一个数据点的值不应该影响另一个
* 最好每个组的样本量相似。较大的样本量差异可能会影响方差分析的结果

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:方差分析]]

One Way ANCOVA

2024-02-08T06:11:49Z

RainW：

{{Infobox nodebasic
|nodename=One_Way_ANCOVA
|nodeimage=One Way ANCOVA.png
|icon=One Way ANCOVA.svg
|simpleicon=One Way ANCOVA_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.2.0|V1.0.2]]部署
|nodeenglishname=One Way ANCOVA
|abbreviation=ANCOVAO
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=单因素协方差分析One Way ANCOVA是一种用来比较一个因变量在一个因子水平上的均值是否有显著差异的统计方法，同时控制一个或多个协变量的影响。用途：用于调整后的均值比较和控制混杂变量。参数：选择正态分布数值因变量，和分组自变量，一个或多个协变量。
|nodeinputnumber=5
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=PointPlot
|nodeavailabletablelist=df;MSE;F-Value;PES;P-Value
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/One_Way_ANCOVA
|previousnode=[[多元方差分析]]
|nextnode=[[Two_Way_ANCOVA]]
}}

'''协方差分析'''（'''ANCOVA'''）是一种结合了[[ANOVA]]和[[regression analysis|回归分析]]的[[general linear model|通用线性模型]]。ANCOVA评估[[dependent variable|因变量]]（DV）的均值在一个或多个[[Categorical variable|分类]] [[independent variable|自变量]]（IV）的不同水平和一个或多个连续变量上是否相等。例如，分类变量可能描述治疗，而连续变量可能是[[covariate|协变量]]或干扰变量；或反之亦然。从数学上讲，ANCOVA将DV中的方差分解为由CV(s)解释的方差、分类IV解释的方差和残差方差。直观上，ANCOVA可以被认为是通过CV(s)的组均值“调整”DV。<ref>Keppel, G. (1991). ''设计与分析：研究者手册''（第三版）。恩格尔伍德悬崖：Prentice-Hall, Inc.</ref>

ANCOVA模型假设响应（DV）与协变量（CV）之间存在线性关系：

[math]y_{ij} = \mu + \tau_i + \Beta(x_{ij} - \overline{x}) + \epsilon_{ij}.[/math]

在这个方程中，DV，[math]y_{ij}[/math]是第i个分类组下的第j个观察值；CV，[math]x_{ij}[/math]是第i组下的协变量的第j个观察值。模型中由观测数据派生的变量包括[math]\mu[/math]（总体均值）和[math]\overline{x}[/math]（协变量[math]x[/math]的全局均值）。待拟合的变量有[math]\tau_i[/math]（分类IV的第i级效应），[math]B[/math]（线性关系的斜率）和[math]\epsilon_{ij}[/math]（第i组中第j个观察值的未观测误差项）。

根据这一规定，分类处理效应的总和为零[math]\left(\sum_i^a \tau_i = 0\right).[/math]也假设线性回归模型的标准假设成立，如下所述。<ref name="Montgomery, Douglas C 2012">Montgomery, Douglas C. "实验设计与分析"（第八版）。John Wiley & Sons, 2012。</ref>

=='''应用'''==
===增强功效===
ANCOVA可用于通过减少组内误差[[variance|方差]]来增加[[Statistical significance|统计功效]]（发现组间存在显著差异的概率）。<ref>{{cite book |last1=Tabachnick |first1=B. G. |last2=Fidell |first2=L. S. |year=2007 |title=使用多变量统计 |edition=第5版 |location=波士顿 |publisher=Pearson Education }}</ref>为了理解这一点，必须了解用于评估组间差异的检验，即[[F-test|F检验]]。F检验通过将组间解释方差（例如，医疗恢复差异）除以组内未解释方差来计算。因此，

:[math]F = \frac{MS_{between} }{MS_{within}}[/math]

如果这个值大于临界值，我们就可以得出组间存在显著差异的结论。未解释的方差包括误差方差（例如，个体差异）以及其他因素的影响。因此，CVs的影响被归入分母中。当我们控制CVs对DV的效应时，我们会将其从分母中移除，从而使F值变大，进而增加我们发现显著效应的能力，如果根本存在的话。

[[File:ANCOVA - Partitioning Variance.jpg|right|划分方差]]

===调整先前存在的差异===
ANCOVA的另一个用途是调整非等价（完整）组中先前存在的差异。这种有争议的应用旨在纠正组分配前DV上存在的初始组差异。在这种情况下，参与者不能通过随机分配实现平等，因此使用CVs调整分数，使参与者相比没有CV时更加相似。然而，即使使用了协变量，也没有统计技术能够使不平等的组等同。此外，CV可能与分类IV紧密相关，以至于移除与CV相关的DV上的方差会移除DV上的大量方差，使结果失去意义。<ref>{{cite journal |last1=Miller |first1=G. A. |last2=Chapman |first2=J. P. |year=2001 |title=协方差分析的误解 |journal=异常心理学杂志 |volume=110 |issue=1 |pages=40–48 |doi=10.1037/0021-843X.110.1.40 |pmid=11261398 }}</ref>

=='''假设'''==
使用ANCOVA并影响结果解释的有几个关键假设。<ref name="Montgomery, Douglas C 2012"/>标准的[[regression analysis|线性回归]]假设成立；此外，我们假设所有治疗组的协变量斜率相等（回归斜率的同质性）。

===假设1：回归的线性===
因变量和共变量之间的回归关系必须是线性的。

===假设2：误差方差的同质性===
误差是一个随机变量，对不同治疗类别和观察具有条件零均值和相等的方差。

===假设3：误差项的独立性===
误差是不相关的。也就是说，误差协方差矩阵是对角的。

===假设4：误差项的正态性===
[[Errors and residuals in statistics|残差（误差项）]]应该呈正态分布[math]\epsilon_{ij}[/math] ~ [math]N(0, \sigma^2)[/math]。

===假设5：回归斜率的同质性===
不同回归线的斜率应当是等价的，即，各组之间的回归线应当是平行的。

第五个问题，关于不同处理回归斜率的同质性，对于评估ANCOVA模型的适当性尤其重要。还需注意，我们只需要误差项正态分布。实际上，大多数情况下，独立变量和伴随变量都不会正态分布。

=='''进行ANCOVA'''==
===测试[[多重共线性]]===
如果一个协变量(CV)与另一个CV高度相关（相关系数达到0.5或更高），那么它将不会对因变量(DV)进行调整，超越另一个CV的作用。因为它们在统计上是多余的，所以应该移除其中之一。

===测试方差同质性假设===
通过[[Levene's test]]检验误差方差的等式。
这在调整后尤为重要，但如果调整前就存在，那么调整后很可能仍然存在。

===测试回归斜率的同质性假设===
要检验CV是否显著地与分类自变量（IV）交互，可以运行一个包含IV和CVxIV交互项的ANCOVA模型。
如果CVxIV交互作用显著，则不应进行ANCOVA。相反，Green和Salkind<ref name="Green">Green, S. B., & Salkind, N. J. (2011). ''使用SPSS for Windows and Macintosh: 分析和理解数据'' (第6版)。Upper Saddle River, NJ: Prentice Hall.</ref>建议在CV的特定水平上评估组间DV的差异。也可以考虑使用[[Moderation (statistics)|调节回归分析]]，将CV及其交互作用视为另一个IV。或者，可以使用[[Mediation (statistics)|中介分析]]来确定CV是否解释了IV对DV的影响{{Citation needed|date=December 2022}}。

===运行ANCOVA分析===
如果CV×IV交互作用不显著，重新运行ANCOVA，不包括CV×IV交互项。
在这次分析中，你需要使用调整后的均值和调整后的MSerror。调整后的均值（也称为最小二乘均值、LS均值、估计边际均值或EMM）指的是在控制了CV对DV的影响后的组均值。

===后续分析===
如果存在显著的[[主效应]]，这意味着忽略所有其他因素，一个分类IV的水平之间存在显著差异。<ref name="Howell">Howell, D. C. (2009) ''心理学统计方法'' (第7版)。Belmont: Cengage Wadsworth.</ref>为了准确找出哪些水平之间存在显著差异，可以使用与ANOVA相同的后续检验。
如果存在两个或多个IV，可能存在[[Interaction (statistics)|显著交互作用]]，这意味着一个IV对DV的效应根据另一个因素的水平而变化。可以使用与[[Factor analysis|因子ANOVA]]中相同的方法研究简单主效应。

=='''功效考虑'''==
虽然将协变量纳入ANOVA通常会通过解释因变量中的一部分方差从而增加[[统计功效]]，提高由独立变量解释的方差比例，但将协变量加入ANOVA也会减少[[Degrees of freedom (statistics)|自由度]]。因此，添加一个在因变量中解释很少方差的协变量实际上可能会降低功效。

== '''节点使用的R语言示例代码''' ==
=== One Way ANCOVA ===
<syntaxhighlight lang="R">

aov_ez(
id,
dv,
data,
between = NULL,
within = NULL,
covariate = NULL,
observed = NULL,
type = afex_options("type"),
factorize = afex_options("factorize"),
return = afex_options("return_aov")
)

</syntaxhighlight>
方法参见'''R package: afex'''的官方文档

== '''节点使用指南''' ==
* 用于比较两个或多个独立（处理）组在协变量调整后的均值差异
* 比较不同组在控制一个或多个协变量后的均值差异
* 协变量应与因变量相关，但与处理组之间应独立

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 因变量：选择正态分布连续型数值变量，每个变量做一次ANCOVA
* 分组自变量：选择一个分类分组变量
* 协变量: 选择一个或者多个协变量，可以是连续型或者离散型
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 因变量，分组自变量和协变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 检查数据是否满足正态分布、独立性、方差齐性等基本假设
* 检验协变量和因变量是否有交互作用，如果有，标准ANCOVA可能不适用
* 确保每个组的样本量足够，以便有足够的统计功效检测组间差异

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:方差分析]]

One Way ANCOVA

2024-02-08T06:04:03Z

RainW：

{{Infobox nodebasic
|nodename=One_Way_ANCOVA
|nodeimage=One Way ANCOVA.png
|icon=One Way ANCOVA.svg
|simpleicon=One Way ANCOVA_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.2.0|V1.0.2]]部署
|nodeenglishname=One Way ANCOVA
|abbreviation=ANCOVAO
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=单因素协方差分析One Way ANCOVA是一种用来比较一个因变量在一个因子水平上的均值是否有显著差异的统计方法，同时控制一个或多个协变量的影响。用途：用于调整后的均值比较和控制混杂变量。参数：选择正态分布数值因变量，和分组自变量，一个或多个协变量。
|nodeinputnumber=5
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=PointPlot
|nodeavailabletablelist=df;MSE;F-Value;PES;P-Value
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/One_Way_ANCOVA
|previousnode=[[多元方差分析]]
|nextnode=[[Two_Way_ANCOVA]]
}}

'''协方差分析'''（'''ANCOVA'''）是一种结合了[[ANOVA]]和[[regression analysis|回归分析]]的[[general linear model|通用线性模型]]。ANCOVA评估[[dependent variable|因变量]]（DV）的均值在一个或多个[[Categorical variable|分类]] [[independent variable|自变量]]（IV）的不同水平和一个或多个连续变量上是否相等。例如，分类变量可能描述治疗，而连续变量可能是[[covariate|协变量]]或干扰变量；或反之亦然。从数学上讲，ANCOVA将DV中的方差分解为由CV(s)解释的方差、分类IV解释的方差和残差方差。直观上，ANCOVA可以被认为是通过CV(s)的组均值“调整”DV。<ref>Keppel, G. (1991). ''设计与分析：研究者手册''（第三版）。恩格尔伍德悬崖：Prentice-Hall, Inc.</ref>

ANCOVA模型假设响应（DV）与协变量（CV）之间存在线性关系：

[math]y_{ij} = \mu + \tau_i + \Beta(x_{ij} - \overline{x}) + \epsilon_{ij}.[/math]

在这个方程中，DV，[math]y_{ij}[/math]是第i个分类组下的第j个观察值；CV，[math]x_{ij}[/math]是第i组下的协变量的第j个观察值。模型中由观测数据派生的变量包括[math]\mu[/math]（总体均值）和[math]\overline{x}[/math]（协变量[math]x[/math]的全局均值）。待拟合的变量有[math]\tau_i[/math]（分类IV的第i级效应），[math]B[/math]（线性关系的斜率）和[math]\epsilon_{ij}[/math]（第i组中第j个观察值的未观测误差项）。

根据这一规定，分类处理效应的总和为零[math]\left(\sum_i^a \tau_i = 0\right).[/math]也假设线性回归模型的标准假设成立，如下所述。<ref name="Montgomery, Douglas C 2012">Montgomery, Douglas C. "实验设计与分析"（第八版）。John Wiley & Sons, 2012。</ref>

=='''应用'''==
===增强功效===
ANCOVA可用于通过减少组内误差[[variance|方差]]来增加[[Statistical significance|统计功效]]（发现组间存在显著差异的概率）。<ref>{{cite book |last1=Tabachnick |first1=B. G. |last2=Fidell |first2=L. S. |year=2007 |title=使用多变量统计 |edition=第5版 |location=波士顿 |publisher=Pearson Education }}</ref>为了理解这一点，必须了解用于评估组间差异的检验，即[[F-test|F检验]]。F检验通过将组间解释方差（例如，医疗恢复差异）除以组内未解释方差来计算。因此，

:[math]F = \frac{MS_{between} }{MS_{within}}[/math]

如果这个值大于临界值，我们就可以得出组间存在显著差异的结论。未解释的方差包括误差方差（例如，个体差异）以及其他因素的影响。因此，CVs的影响被归入分母中。当我们控制CVs对DV的效应时，我们会将其从分母中移除，从而使F值变大，进而增加我们发现显著效应的能力，如果根本存在的话。

[[File:ANCOVA - Partitioning Variance.jpg|right|划分方差]]

===调整先前存在的差异===
ANCOVA的另一个用途是调整非等价（完整）组中先前存在的差异。这种有争议的应用旨在纠正组分配前DV上存在的初始组差异。在这种情况下，参与者不能通过随机分配实现平等，因此使用CVs调整分数，使参与者相比没有CV时更加相似。然而，即使使用了协变量，也没有统计技术能够使不平等的组等同。此外，CV可能与分类IV紧密相关，以至于移除与CV相关的DV上的方差会移除DV上的大量方差，使结果失去意义。<ref>{{cite journal |last1=Miller |first1=G. A. |last2=Chapman |first2=J. P. |year=2001 |title=协方差分析的误解 |journal=异常心理学杂志 |volume=110 |issue=1 |pages=40–48 |doi=10.1037/0021-843X.110.1.40 |pmid=11261398 }}</ref>

=='''假设'''==
使用ANCOVA并影响结果解释的有几个关键假设。<ref name="Montgomery, Douglas C 2012"/>标准的[[regression analysis|线性回归]]假设成立；此外，我们假设所有治疗组的协变量斜率相等（回归斜率的同质性）。

===假设1：回归的线性===
因变量和共变量之间的回归关系必须是线性的。

===假设2：误差方差的同质性===
误差是一个随机变量，对不同治疗类别和观察具有条件零均值和相等的方差。

===假设3：误差项的独立性===
误差是不相关的。也就是说，误差协方差矩阵是对角的。

===假设4：误差项的正态性===
[[Errors and residuals in statistics|残差（误差项）]]应该呈正态分布[math]\epsilon_{ij}[/math] ~ [math]N(0, \sigma^2)[/math]。

===假设5：回归斜率的同质性===
不同回归线的斜率应当是等价的，即，各组之间的回归线应当是平行的。

第五个问题，关于不同处理回归斜率的同质性，对于评估ANCOVA模型的适当性尤其重要。还需注意，我们只需要误差项正态分布。实际上，大多数情况下，独立变量和伴随变量都不会正态分布。

=='''进行ANCOVA'''==
===测试[[多重共线性]]===
如果一个协变量(CV)与另一个CV高度相关（相关系数达到0.5或更高），那么它将不会对因变量(DV)进行调整，超越另一个CV的作用。因为它们在统计上是多余的，所以应该移除其中之一。

===测试方差同质性假设===
通过[[Levene's test]]检验误差方差的等式。
这在调整后尤为重要，但如果调整前就存在，那么调整后很可能仍然存在。

===测试回归斜率的同质性假设===
要检验CV是否显著地与分类自变量（IV）交互，可以运行一个包含IV和CVxIV交互项的ANCOVA模型。
如果CVxIV交互作用显著，则不应进行ANCOVA。相反，Green和Salkind<ref name="Green">Green, S. B., & Salkind, N. J. (2011). ''使用SPSS for Windows and Macintosh: 分析和理解数据'' (第6版)。Upper Saddle River, NJ: Prentice Hall.</ref>建议在CV的特定水平上评估组间DV的差异。也可以考虑使用[[Moderation (statistics)|调节回归分析]]，将CV及其交互作用视为另一个IV。或者，可以使用[[Mediation (statistics)|中介分析]]来确定CV是否解释了IV对DV的影响{{Citation needed|date=December 2022}}。

===运行ANCOVA分析===
如果CV×IV交互作用不显著，重新运行ANCOVA，不包括CV×IV交互项。
在这次分析中，你需要使用调整后的均值和调整后的MSerror。调整后的均值（也称为最小二乘均值、LS均值、估计边际均值或EMM）指的是在控制了CV对DV的影响后的组均值。

===后续分析===
如果存在显著的[[主效应]]，这意味着忽略所有其他因素，一个分类IV的水平之间存在显著差异。<ref name="Howell">Howell, D. C. (2009) ''心理学统计方法'' (第7版)。Belmont: Cengage Wadsworth.</ref>为了准确找出哪些水平之间存在显著差异，可以使用与ANOVA相同的后续检验。
如果存在两个或多个IV，可能存在[[Interaction (statistics)|显著交互作用]]，这意味着一个IV对DV的效应根据另一个因素的水平而变化。可以使用与[[Factor analysis|因子ANOVA]]中相同的方法研究简单主效应。

=='''功效考虑'''==
虽然将协变量纳入ANOVA通常会通过解释因变量中的一部分方差从而增加[[统计功效]]，提高由独立变量解释的方差比例，但将协变量加入ANOVA也会减少[[Degrees of freedom (statistics)|自由度]]。因此，添加一个在因变量中解释很少方差的协变量实际上可能会降低功效。

== '''节点使用的R语言示例代码''' ==
=== One Way ANCOVA ===
<syntaxhighlight lang="R">

aov_ez(
id,
dv,
data,
between = NULL,
within = NULL,
covariate = NULL,
observed = NULL,
type = afex_options("type"),
factorize = afex_options("factorize"),
return = afex_options("return_aov")
)

</syntaxhighlight>
方法参见'''R package: afex'''的官方文档

== '''节点使用指南''' ==
* 用于比较两个或多个独立（处理）组在协变量调整后的均值差异
* 比较不同组在控制一个或多个协变量后的均值差异
* 协变量应与因变量相关，但与处理组之间应独立

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 因变量：选择正态分布连续型数值变量，每个变量做一次ANCOVA
* 分组自变量：选择一个分类分组
* 协变量: 选择一个或者多个协变量，可以是连续型或者离散型
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 因变量，分组自变量和协变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 检查数据是否满足正态分布、独立性、方差齐性等基本假设
* 检验协变量和因变量是否有交互作用，如果有，标准ANCOVA可能不适用
* 确保每个组的样本量足够，以便有足够的统计功效检测组间差异

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:方差分析]]

One Way ANCOVA

2024-02-08T05:53:34Z

RainW：

{{Infobox nodebasic
|nodename=One_Way_ANCOVA
|nodeimage=One Way ANCOVA.png
|icon=One Way ANCOVA.svg
|simpleicon=One Way ANCOVA_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.2.0|V1.0.2]]部署
|nodeenglishname=One Way ANCOVA
|abbreviation=ANCOVAO
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=单因素协方差分析One Way ANCOVA是一种用来比较一个因变量在一个因子水平上的均值是否有显著差异的统计方法，同时控制一个或多个协变量的影响。用途：用于调整后的均值比较和控制混杂变量。参数：选择正态分布数值因变量，和分组自变量，一个或多个协变量。
|nodeinputnumber=5
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=PointPlot
|nodeavailabletablelist=df;MSE;F-Value;PES;P-Value
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/One_Way_ANCOVA
|previousnode=[[多元方差分析]]
|nextnode=[[Two_Way_ANCOVA]]
}}

'''协方差分析'''（'''ANCOVA'''）是一种结合了[[ANOVA]]和[[regression analysis|回归分析]]的[[general linear model|通用线性模型]]。ANCOVA评估[[dependent variable|因变量]]（DV）的均值在一个或多个[[Categorical variable|分类]] [[independent variable|自变量]]（IV）的不同水平和一个或多个连续变量上是否相等。例如，分类变量可能描述治疗，而连续变量可能是[[covariate|协变量]]或干扰变量；或反之亦然。从数学上讲，ANCOVA将DV中的方差分解为由CV(s)解释的方差、分类IV解释的方差和残差方差。直观上，ANCOVA可以被认为是通过CV(s)的组均值“调整”DV。<ref>Keppel, G. (1991). ''设计与分析：研究者手册''（第三版）。恩格尔伍德悬崖：Prentice-Hall, Inc.</ref>

ANCOVA模型假设响应（DV）与协变量（CV）之间存在线性关系：

[math]y_{ij} = \mu + \tau_i + \Beta(x_{ij} - \overline{x}) + \epsilon_{ij}.[/math]

在这个方程中，DV，[math]y_{ij}[/math]是第i个分类组下的第j个观察值；CV，[math]x_{ij}[/math]是第i组下的协变量的第j个观察值。模型中由观测数据派生的变量包括[math]\mu[/math]（总体均值）和[math]\overline{x}[/math]（协变量[math]x[/math]的全局均值）。待拟合的变量有[math]\tau_i[/math]（分类IV的第i级效应），[math]B[/math]（线性关系的斜率）和[math]\epsilon_{ij}[/math]（第i组中第j个观察值的未观测误差项）。

根据这一规定，分类处理效应的总和为零[math]\left(\sum_i^a \tau_i = 0\right).[/math]也假设线性回归模型的标准假设成立，如下所述。<ref name="Montgomery, Douglas C 2012">Montgomery, Douglas C. "实验设计与分析"（第八版）。John Wiley & Sons, 2012。</ref>

=='''应用'''==
===增强功效===
ANCOVA可用于通过减少组内误差[[variance|方差]]来增加[[Statistical significance|统计功效]]（发现组间存在显著差异的概率）。<ref>{{cite book |last1=Tabachnick |first1=B. G. |last2=Fidell |first2=L. S. |year=2007 |title=使用多变量统计 |edition=第5版 |location=波士顿 |publisher=Pearson Education }}</ref>为了理解这一点，必须了解用于评估组间差异的检验，即[[F-test|F检验]]。F检验通过将组间解释方差（例如，医疗恢复差异）除以组内未解释方差来计算。因此，

:[math]F = \frac{MS_{between} }{MS_{within}}[/math]

如果这个值大于临界值，我们就可以得出组间存在显著差异的结论。未解释的方差包括误差方差（例如，个体差异）以及其他因素的影响。因此，CVs的影响被归入分母中。当我们控制CVs对DV的效应时，我们会将其从分母中移除，从而使F值变大，进而增加我们发现显著效应的能力，如果根本存在的话。

[[File:ANCOVA - Partitioning Variance.jpg|right|划分方差]]

===调整先前存在的差异===
ANCOVA的另一个用途是调整非等价（完整）组中先前存在的差异。这种有争议的应用旨在纠正组分配前DV上存在的初始组差异。在这种情况下，参与者不能通过随机分配实现平等，因此使用CVs调整分数，使参与者相比没有CV时更加相似。然而，即使使用了协变量，也没有统计技术能够使不平等的组等同。此外，CV可能与分类IV紧密相关，以至于移除与CV相关的DV上的方差会移除DV上的大量方差，使结果失去意义。<ref>{{cite journal |last1=Miller |first1=G. A. |last2=Chapman |first2=J. P. |year=2001 |title=协方差分析的误解 |journal=异常心理学杂志 |volume=110 |issue=1 |pages=40–48 |doi=10.1037/0021-843X.110.1.40 |pmid=11261398 }}</ref>

=='''假设'''==
使用ANCOVA并影响结果解释的有几个关键假设。<ref name="Montgomery, Douglas C 2012"/>标准的[[regression analysis|线性回归]]假设成立；此外，我们假设所有治疗组的协变量斜率相等（回归斜率的同质性）。

===假设1：回归的线性===
因变量和共变量之间的回归关系必须是线性的。

===假设2：误差方差的同质性===
误差是一个随机变量，对不同治疗类别和观察具有条件零均值和相等的方差。

===假设3：误差项的独立性===
误差是不相关的。也就是说，误差协方差矩阵是对角的。

===假设4：误差项的正态性===
[[Errors and residuals in statistics|残差（误差项）]]应该呈正态分布[math]\epsilon_{ij}[/math] ~ [math]N(0, \sigma^2)[/math]。

===假设5：回归斜率的同质性===
不同回归线的斜率应当是等价的，即，各组之间的回归线应当是平行的。

第五个问题，关于不同处理回归斜率的同质性，对于评估ANCOVA模型的适当性尤其重要。还需注意，我们只需要误差项正态分布。实际上，大多数情况下，独立变量和伴随变量都不会正态分布。

=='''进行ANCOVA'''==
===测试[[多重共线性]]===
如果一个协变量(CV)与另一个CV高度相关（相关系数达到0.5或更高），那么它将不会对因变量(DV)进行调整，超越另一个CV的作用。因为它们在统计上是多余的，所以应该移除其中之一。

===测试方差同质性假设===
通过[[Levene's test]]检验误差方差的等式。
这在调整后尤为重要，但如果调整前就存在，那么调整后很可能仍然存在。

===测试回归斜率的同质性假设===
要检验CV是否显著地与分类自变量（IV）交互，可以运行一个包含IV和CVxIV交互项的ANCOVA模型。
如果CVxIV交互作用显著，则不应进行ANCOVA。相反，Green和Salkind<ref name="Green">Green, S. B., & Salkind, N. J. (2011). ''使用SPSS for Windows and Macintosh: 分析和理解数据'' (第6版)。Upper Saddle River, NJ: Prentice Hall.</ref>建议在CV的特定水平上评估组间DV的差异。也可以考虑使用[[Moderation (statistics)|调节回归分析]]，将CV及其交互作用视为另一个IV。或者，可以使用[[Mediation (statistics)|中介分析]]来确定CV是否解释了IV对DV的影响{{Citation needed|date=December 2022}}。

===运行ANCOVA分析===
如果CV×IV交互作用不显著，重新运行ANCOVA，不包括CV×IV交互项。
在这次分析中，你需要使用调整后的均值和调整后的MSerror。调整后的均值（也称为最小二乘均值、LS均值、估计边际均值或EMM）指的是在控制了CV对DV的影响后的组均值。

===后续分析===
如果存在显著的[[主效应]]，这意味着忽略所有其他因素，一个分类IV的水平之间存在显著差异。<ref name="Howell">Howell, D. C. (2009) ''心理学统计方法'' (第7版)。Belmont: Cengage Wadsworth.</ref>为了准确找出哪些水平之间存在显著差异，可以使用与ANOVA相同的后续检验。
如果存在两个或多个IV，可能存在[[Interaction (statistics)|显著交互作用]]，这意味着一个IV对DV的效应根据另一个因素的水平而变化。可以使用与[[Factor analysis|因子ANOVA]]中相同的方法研究简单主效应。

=='''功效考虑'''==
虽然将协变量纳入ANOVA通常会通过解释因变量中的一部分方差从而增加[[统计功效]]，提高由独立变量解释的方差比例，但将协变量加入ANOVA也会减少[[Degrees of freedom (statistics)|自由度]]。因此，添加一个在因变量中解释很少方差的协变量实际上可能会降低功效。

== '''节点使用的R语言示例代码''' ==
=== One Way ANCOVA ===
<syntaxhighlight lang="R">

aov_ez(
id,
dv,
data,
between = NULL,
within = NULL,
covariate = NULL,
observed = NULL,
type = afex_options("type"),
factorize = afex_options("factorize"),
return = afex_options("return_aov")
)

</syntaxhighlight>

== '''节点使用指南''' ==
* 用于比较两个或多个独立（处理）组在协变量调整后的均值差异
* 比较不同组在控制一个或多个协变量后的均值差异
* 协变量应与因变量相关，但与处理组之间应独立

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 因变量：选择正态分布连续型数值变量，每个变量做一次ANCOVA
* 分组自变量：选择一个分类分组
* 协变量: 选择一个或者多个协变量，可以是连续型或者离散型
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 因变量，分组自变量和协变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 检查数据是否满足正态分布、独立性、方差齐性等基本假设
* 检验协变量和因变量是否有交互作用，如果有，标准ANCOVA可能不适用
* 确保每个组的样本量足够，以便有足够的统计功效检测组间差异

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:方差分析]]

F检验

2024-02-08T02:52:35Z

RainW：

{{Infobox nodebasic
|nodename=F检验
|nodeimage=F_Test.png
|icon=F_Test.svg
|simpleicon=F_Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=F_Test
|abbreviation=FTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=F检验也称方差比率检验、方差齐性检验。它是一种在零假设（null hypothesis, H0）之下，统计值服从F-分布的检验。主要通过比较两组数据的方差, 以确定两者密度是否有显著性差异, 也是检查多组均值之间的差异。用途：用于比较两个或多个样本或群体的方差是否显著不同。F检验常常用在方差分析中，以确定不同组别之间是否存在显著差异。参数：选择连续型数值变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=Rain_Cloud;SplittingNephelogram
|nodeavailabletablelist=F-Value;df;P-Value;CI;Ratio-Variance
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/F检验
|previousnode=[[G检验]]
|nextnode=[[One_Way_ANOVA]]
}}

一个'''''F'' 检验'''是用于比较两个样本方差或多个样本方差比的任何[[统计检验]]。[[检验统计量]]，随机变量 F，用于确定在真实[[零假设]]下，测试数据是否符合[[F 分布|''F'' 分布]]，以及误差项（ε）的真实惯常假定。<ref name=":0">{{Cite book |last=Berger |first=Paul D. |url=http://link.springer.com/10.1007/978-3-319-64583-4 |title=实验设计 |last2=Maurer |first2=Robert E. |last3=Celli |first3=Giovana B. |date=2018 |publisher=Springer 国际出版社 |isbn=978-3-319-64582-7 |location=Cham |pages=108 |language=en |doi=10.1007/978-3-319-64583-4}}</ref> 它最常用于[[模型选择|比较统计模型]]，这些模型已经适应于一个[[数据]]集合，以确定最适合从中抽取数据的[[人口统计（统计学）|人群]]的模型。精确的 "''F'' 检验" 主要出现在使用[[最小二乘法]]拟合数据时。这个名称由[[George W. Snedecor]]创造，以纪念[[Ronald Fisher]]。Fisher 最初在 1920 年代开发了这个统计量作为方差比。<ref>{{cite book |last=Lomax |first=Richard G. |year=2007 |title=统计概念：第二课程 |url=https://archive.org/details/introductiontost0000loma_j6h1 |url-access=registration |page=[https://archive.org/details/introductiontost0000loma_j6h1/page/10 10] |isbn=978-0-8058-5850-1 }}</ref>

=='''常见例子'''==

''F'' 检验的常见用途包括以下情况的研究：

* [[File:One-way ANOVA Table generated using Matlab.jpg|thumb|使用 Matlab 生成的单因素方差分析表，包含 3 个随机组，每组有 30 个观察值。F 值在倒数第二列计算]]假设一组给定的[[正态分布|正态分布]]人群，都具有相同的[[标准差]]，它们的[[算术平均数|均值]]相等。这可能是最著名的 ''F'' 检验，并在[[方差分析]]（ANOVA）中扮演重要角色。
* * 方差分析（ANOVA）的 F 检验遵循三个假设：
* * * [[正态性（统计学）|正态性]]
* * * [[方差同质性|方差齐性]]
* * * [[独立性（概率论）|误差独立性]] 和 [[随机性|随机抽样]]

* 假设提出的回归模型很好地拟合了[[数据]]。参见[[缺乏拟合的平方和]]。
* 假设在[[回归分析]]中的数据集遵循两个提出的线性模型中较简单的一个，这两个模型是[[统计模型#嵌套模型|嵌套]]在彼此之内
* 使用已完成F检验中所需的数据进行多重比较测试，如果F检验导致拒绝零假设且研究的因子对因变量有影响。
** "''a priori'' comparisons"/ "planned comparisons" - 一组特定的比较
** "pairwise comparisons" - 所有可能的比较
*** 例如 Fisher's least significant difference (LSD) 测试，[[Tukey's Honestly Significant Difference|Tukey's honestly significant difference (HSD) 测试]]，[[Newman-Keuls test|Newman Keuls 测试]]，Ducan 测试
** "[[Post hoc analysis|''a posteriori'' comparisons]]"/ "[[Post hoc comparison|''post hoc'' comparisons]]"/ "[[Post hoc comparison|exploratory comparisons]]" - 在检查数据后选择比较
*** 例如 [[Scheffé's method]]

===两个方差的等性''F''检验===
{{Main|F-test of equality of variances}}

''F''检验对于[[normal distribution|非正态性]]是[[robust statistics|敏感的]]。<ref>{{cite journal | last=Box | first=G. E. P. |author-link= George E. P. Box| journal=Biometrika | year=1953 | title=Non-Normality and Tests on Variances | pages=318–335 | volume=40 | jstor=2333350 | issue=3/4 | doi=10.1093/biomet/40.3-4.318}}</ref><ref>{{cite journal | last=Markowski | first=Carol A |author2=Markowski, Edward P. | year = 1990 | title=Conditions for the Effectiveness of a Preliminary Test of Variance | journal=[[The American Statistician]] | pages=322–326 | volume=44 | jstor=2684360 | doi=10.2307/2684360 | issue=4}}</ref> 在[[analysis of variance]] (ANOVA)中，替代测试包括[[Levene's test]]、[[Bartlett's test]]和[[Brown–Forsythe test]]。然而，当任何这些测试被用来测试[[homoscedasticity]]（即方差的同质性）的基本假设作为测试均值效应的初步步骤时，实验整体[[Type I error]]率会增加。<ref>{{cite journal |last=Sawilowsky |first=S. |year=2002 |title=Fermat, Schubert, Einstein, and Behrens–Fisher: The Probable Difference Between Two Means When σ12 ≠ σ22 |journal=Journal of Modern Applied Statistical Methods |volume=1 |issue=2 |pages=461–472 |doi=10.22237/jmasm/1036109940 |url=http://digitalcommons.wayne.edu/jmasm/vol1/iss2/55 |access-date=2015-03-30 |archive-url=https://web.archive.org/web/20150403095901/http://digitalcommons.wayne.edu/jmasm/vol1/iss2/55/ |archive-date=2015-04-03 |url-status=live |doi-access=free }}</ref>

=='''公式和计算'''==
大多数''F''检验是通过考虑数据集中的[[variance|变异性]]分解为[[Partition of sums of squares|平方和]]的形式产生的。''F''检验中的[[test statistic|统计量]]是反映不同变异性来源的两个标度化平方和的比率。这些平方和的构造是为了当零假设不成立时统计量倾向于更大。为了使统计量在零假设下遵循[[F-distribution|''F''分布]]，这些平方和应该是[[independence (probability theory)|统计独立的]]，且每一个都应遵循标度化的[[chi-squared distribution|χ²分布]]。后一个条件如果数据值是独立的并且以一个共同的[[variance|方差]][[normal distribution|正态分布]]则可以保证。

=== 单因素方差分析 ===
单因素'''ANOVA''' ''F''检验[[test statistic|统计量]]的公式是
:[math]F = \frac{\text{解释的方差}}{\text{未解释的方差}} ,[/math]

或

:[math]F = \frac{\text{组间变异性}}{\text{组内变异性}}.[/math]

"解释的方差"，或"组间变异性"是

:[math]\sum_{i=1}^{K} n_{i}\left(\bar{Y}_{i \cdot}-\bar{Y}\right)^{2} /(K-1)[/math]

其中[math]\bar{Y}_{i\cdot}[/math]表示第''i''组中的[[average|样本均值]]，[math]n_i[/math]是第''i''组中的观察数，[math]\bar{Y}[/math]表示数据的总体均值，[math]K[/math]表示组数。

"未解释的方差"，或"组内变异性"是

:[math]\sum_{i=1}^{K} \sum_{j=1}^{n_{i}}\left(Y_{i j}-\bar{Y}_{i \cdot}\right)^{2} /(N-K),[/math]

其中[math]Y_{ij}[/math]是第''i''组中第''j''个观察值，[math]N[/math]是总样本量。这个''F''统计量在零假设下遵循[[F-distribution|''F''分布]]，自由度为[math]d_1=K-1[/math]和[math]d_2=N-K[/math]。如果组间变异性相对于组内变异性较大，则统计量会很大，这在所有组的[[expected|总体均值]]都具有相同值时不太可能发生。
[[File:5% F table|thumb|F 表：5%的临界值水平，包含分母和分子的自由度范围从1到20]]
F检验的结果可以通过比较计算出的F值和特定显著性水平（例如，5%）的临界F值来确定。F表作为一个参考指南，包含了在零假设为真的假设下F统计量分布的临界F值。它旨在帮助确定F统计量预计超过控制百分比（例如，5%）的阈值。要在F表中找到临界F值，需要使用相应的自由度。这涉及到识别F表中对应于被测试的显著性水平（例如，5%）的适当行和列。<ref>{{Citation |last=Siegel |first=Andrew F. |title=Chapter 15 - ANOVA: Testing for Differences Among Many Samples and Much More |date=2016-01-01 |url=https://www.sciencedirect.com/science/article/pii/B9780128042502000158 |work=Practical Business Statistics (Seventh Edition) |pages=469–492 |editor-last=Siegel |editor-first=Andrew F. |access-date=2023-12-10 |publisher=Academic Press |doi=10.1016/b978-0-12-804250-2.00015-8 |isbn=978-0-12-804250-2}}</ref>

如何使用临界F值：

如果F统计量 < 临界F值

* 不能拒绝零假设
* 拒绝备择假设
* 样本平均值之间没有显著差异
* 样本平均值之间观察到的差异可以合理地由随机机会本身引起
* 结果统计上不显著

如果F统计量 > 临界F值

* 接受备择假设
* 拒绝零假设
* 样本平均值之间存在显著差异
* 样本平均值之间观察到的差异不可能仅由随机机会本身合理引起
* 结果统计上显著

请注意，当单向ANOVA的''F''检验只有两个组时，[math]F = t^{2}[/math]，其中''t''是[[Student's t-test|学生t统计量]]。

==== 优点 ====

* 多组比较效率：便于同时比较多个组，特别是在涉及超过两个组的情况下，提高了效率。
* 方差比较清晰度：提供了一种直观的解释组间方差差异，有助于清楚理解观察到的数据模式。
* 跨学科的通用性：在社会科学、自然科学和工程等多个领域展示了广泛的适用性。

==== 缺点 ====

* 对假设的敏感性：F检验对某些假设，如方差同质性和正态性高度敏感，这可能会影响测试结果的准确性。
* 限于组间比较的范围：F检验专为比较组间方差而设计，不适合于此特定范围之外的分析。
* 解释挑战：F检验不能指出具有显著方差差异的特定组对。需要仔细的解释，而且通常需要额外的事后测试，以便更详细地理解组间差异。

===多重比较ANOVA问题===
单向方差分析（[[ANOVA]]）中的''F''检验用于评估几个预定义组内的量化变量的[[expected value]]s是否彼此不同。例如，假设一个医学试验比较四种治疗。ANOVA的''F''检验可以用来评估是否有任何治疗平均上优于或劣于其他治疗，与所有四种治疗产生相同平均反应的零假设相对。这是一个“全面”测试的例子，意味着执行一个测试来检测几个可能的差异。另一种方法，我们可以在治疗之间进行成对测试（例如，在有四种治疗的医学试验示例中，我们可以进行六个治疗对的测试）。ANOVA的''F''检验的优势在于我们不需要预先指定哪些治疗要比较，并且我们不需要调整以进行[[multiple comparisons]]。ANOVA的''F''检验的缺点是，如果我们拒绝[[null hypothesis]]，我们不知道哪些治疗可以说与其他治疗显著不同，也不知道，如果以α水平进行''F''检验，我们不能说具有最大平均差异的治疗对在α水平上显著不同。

===回归问题===
{{further|Stepwise regression}}

考虑两个模型，1和2，其中模型1嵌套于模型2中。模型1是受限模型，而模型2是非受限模型。也就是说，模型1有''p''1参数，而模型2有''p''2参数，其中''p''1 < ''p''2，对于模型1中的任何参数选择，通过模型2的某些参数选择可以达到相同的回归曲线。

在这方面的一个常见情境是决定一个模型是否比一个仅有截距项的朴素模型显著更好地拟合数据，朴素模型是受限模型，因为所有潜在解释变量的系数被限制为等于零。

另一个常见情境是决定数据中是否存在结构性断点：这里受限模型使用一次回归处理所有数据，而非受限模型对数据的两个不同子集使用单独的回归。这种使用F检验被称为[[Chow test]]。

参数更多的模型总是至少能像参数较少的模型一样好地拟合数据。因此，通常模型2将比模型1更好（即误差更低）地拟合数据。但人们经常想要确定模型2是否''显著''更好地拟合数据。解决这个问题的一种方法是使用''F''检验。

如果有''n''个数据点用来估计两个模型的参数，那么可以计算''F''统计量，给出

:[math]F=\frac{\left(\frac{\text{RSS}_1 - \text{RSS}_2 }{p_2 - p_1}\right)}{\left(\frac{\text{RSS}_2}{n - p_2}\right)} = \frac{\text{RSS}_1 - \text{RSS}_2 }{\text{RSS}_2} \cdot \frac{n - p_2}{p_2 - p_1},[/math]

其中RSS''i''是模型''i''的[[residual sum of squares]]。如果回归模型是用权重计算的，那么用χ2替换RSS''i''，即加权残差平方和。在零假设下，即模型2并没有比模型1提供显著更好的拟合，''F''将服从一个''F''分布，自由度为(''p''2−''p''1, ''n''−''p''2)。如果从数据计算出的''F''大于[[F-distribution|''F''分布]]的某个期望的错误拒绝概率（例如0.05）的临界值，则拒绝零假设。由于''F''是似然比统计量的单调函数，''F''检验是一个[[likelihood ratio test]]。

== '''节点使用的R语言示例代码''' ==
=== F检验 ===
<syntaxhighlight lang="R">

var.test(x, y, ratio = 1,
alternative = c("two.sided", "less", "greater"),
conf.level = 0.95, ...)

</syntaxhighlight>

== '''节点使用指南''' ==
* 用于比较两个样本的方差是否存在显著性差异
* 如果计算出的F值大于临界F值，则拒绝零假设（即存在方差不等的情况）

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量1：选择一个连续型数值变量
* 统计变量2：选择一个或多个连续型数值变量，每一个变量将与变量1做一次F检验
* 置信区间百分比:输入百分比，95%置信区间就是0.95
* 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 当数据严重偏离正态分布时，F检验的结果可能不可靠
* F检验对于大样本非常敏感，即使是微小的方差差异也可能被检测出来

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:方差分析]]

F检验

2024-02-08T02:50:09Z

RainW：

{{Infobox nodebasic
|nodename=F检验
|nodeimage=F_Test.png
|icon=F_Test.svg
|simpleicon=F_Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=F_Test
|abbreviation=FTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=F检验也称方差比率检验、方差齐性检验。它是一种在零假设（null hypothesis, H0）之下，统计值服从F-分布的检验。主要通过比较两组数据的方差, 以确定两者密度是否有显著性差异, 也是检查多组均值之间的差异。用途：用于比较两个或多个样本或群体的方差是否显著不同。F检验常常用在方差分析中，以确定不同组别之间是否存在显著差异。参数：选择连续型数值变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=Rain_Cloud;SplittingNephelogram
|nodeavailabletablelist=F-Value;df;P-Value;CI;Ratio-Variance
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/F检验
|previousnode=[[G检验]]
|nextnode=[[One_Way_ANOVA]]
}}

一个'''''F'' 检验'''是用于比较两个样本方差或多个样本方差比的任何[[统计检验]]。[[检验统计量]]，随机变量 F，用于确定在真实[[零假设]]下，测试数据是否符合[[F 分布|''F'' 分布]]，以及误差项（ε）的真实惯常假定。<ref name=":0">{{Cite book |last=Berger |first=Paul D. |url=http://link.springer.com/10.1007/978-3-319-64583-4 |title=实验设计 |last2=Maurer |first2=Robert E. |last3=Celli |first3=Giovana B. |date=2018 |publisher=Springer 国际出版社 |isbn=978-3-319-64582-7 |location=Cham |pages=108 |language=en |doi=10.1007/978-3-319-64583-4}}</ref> 它最常用于[[模型选择|比较统计模型]]，这些模型已经适应于一个[[数据]]集合，以确定最适合从中抽取数据的[[人口统计（统计学）|人群]]的模型。精确的 "''F'' 检验" 主要出现在使用[[最小二乘法]]拟合数据时。这个名称由[[George W. Snedecor]]创造，以纪念[[Ronald Fisher]]。Fisher 最初在 1920 年代开发了这个统计量作为方差比。<ref>{{cite book |last=Lomax |first=Richard G. |year=2007 |title=统计概念：第二课程 |url=https://archive.org/details/introductiontost0000loma_j6h1 |url-access=registration |page=[https://archive.org/details/introductiontost0000loma_j6h1/page/10 10] |isbn=978-0-8058-5850-1 }}</ref>

=='''常见例子'''==

''F'' 检验的常见用途包括以下情况的研究：

* [[File:One-way ANOVA Table generated using Matlab.jpg|thumb|使用 Matlab 生成的单因素方差分析表，包含 3 个随机组，每组有 30 个观察值。F 值在倒数第二列计算]]假设一组给定的[[正态分布|正态分布]]人群，都具有相同的[[标准差]]，它们的[[算术平均数|均值]]相等。这可能是最著名的 ''F'' 检验，并在[[方差分析]]（ANOVA）中扮演重要角色。
** 方差分析（ANOVA）的 F 检验遵循三个假设：
*** [[正态性（统计学）|正态性]]
*** [[方差同质性|方差齐性]]
*** [[独立性（概率论）|误差独立性]] 和 [[随机性|随机抽样]]

* 假设提出的回归模型很好地拟合了[[数据]]。参见[[缺乏拟合的平方和]]。
* 假设在[[回归分析]]中的数据集遵循两个提出的线性模型中较简单的一个，这两个模型是[[统计模型#嵌套模型|嵌套]]在彼此之内
* 使用已完成F检验中所需的数据进行多重比较测试，如果F检验导致拒绝零假设且研究的因子对因变量有影响。
** "''a priori'' comparisons"/ "planned comparisons" - 一组特定的比较
** "pairwise comparisons" - 所有可能的比较
*** 例如 Fisher's least significant difference (LSD) 测试，[[Tukey's Honestly Significant Difference|Tukey's honestly significant difference (HSD) 测试]]，[[Newman-Keuls test|Newman Keuls 测试]]，Ducan 测试
** "[[Post hoc analysis|''a posteriori'' comparisons]]"/ "[[Post hoc comparison|''post hoc'' comparisons]]"/ "[[Post hoc comparison|exploratory comparisons]]" - 在检查数据后选择比较
*** 例如 [[Scheffé's method]]

===两个方差的等性''F''检验===
{{Main|F-test of equality of variances}}

''F''检验对于[[normal distribution|非正态性]]是[[robust statistics|敏感的]]。<ref>{{cite journal | last=Box | first=G. E. P. |author-link= George E. P. Box| journal=Biometrika | year=1953 | title=Non-Normality and Tests on Variances | pages=318–335 | volume=40 | jstor=2333350 | issue=3/4 | doi=10.1093/biomet/40.3-4.318}}</ref><ref>{{cite journal | last=Markowski | first=Carol A |author2=Markowski, Edward P. | year = 1990 | title=Conditions for the Effectiveness of a Preliminary Test of Variance | journal=[[The American Statistician]] | pages=322–326 | volume=44 | jstor=2684360 | doi=10.2307/2684360 | issue=4}}</ref> 在[[analysis of variance]] (ANOVA)中，替代测试包括[[Levene's test]]、[[Bartlett's test]]和[[Brown–Forsythe test]]。然而，当任何这些测试被用来测试[[homoscedasticity]]（即方差的同质性）的基本假设作为测试均值效应的初步步骤时，实验整体[[Type I error]]率会增加。<ref>{{cite journal |last=Sawilowsky |first=S. |year=2002 |title=Fermat, Schubert, Einstein, and Behrens–Fisher: The Probable Difference Between Two Means When σ12 ≠ σ22 |journal=Journal of Modern Applied Statistical Methods |volume=1 |issue=2 |pages=461–472 |doi=10.22237/jmasm/1036109940 |url=http://digitalcommons.wayne.edu/jmasm/vol1/iss2/55 |access-date=2015-03-30 |archive-url=https://web.archive.org/web/20150403095901/http://digitalcommons.wayne.edu/jmasm/vol1/iss2/55/ |archive-date=2015-04-03 |url-status=live |doi-access=free }}</ref>

=='''公式和计算'''==
大多数''F''检验是通过考虑数据集中的[[variance|变异性]]分解为[[Partition of sums of squares|平方和]]的形式产生的。''F''检验中的[[test statistic|统计量]]是反映不同变异性来源的两个标度化平方和的比率。这些平方和的构造是为了当零假设不成立时统计量倾向于更大。为了使统计量在零假设下遵循[[F-distribution|''F''分布]]，这些平方和应该是[[independence (probability theory)|统计独立的]]，且每一个都应遵循标度化的[[chi-squared distribution|χ²分布]]。后一个条件如果数据值是独立的并且以一个共同的[[variance|方差]][[normal distribution|正态分布]]则可以保证。

=== 单因素方差分析 ===
单因素'''ANOVA''' ''F''检验[[test statistic|统计量]]的公式是
:[math]F = \frac{\text{解释的方差}}{\text{未解释的方差}} ,[/math]

或

:[math]F = \frac{\text{组间变异性}}{\text{组内变异性}}.[/math]

"解释的方差"，或"组间变异性"是

:[math]
\sum_{i=1}^{K} n_{i}\left(\bar{Y}_{i \cdot}-\bar{Y}\right)^{2} /(K-1)
[/math]

其中[math]\bar{Y}_{i\cdot}[/math]表示第''i''组中的[[average|样本均值]]，[math]n_i[/math]是第''i''组中的观察数，[math]\bar{Y}[/math]表示数据的总体均值，[math]K[/math]表示组数。

"未解释的方差"，或"组内变异性"是

:[math]
\sum_{i=1}^{K} \sum_{j=1}^{n_{i}}\left(Y_{i j}-\bar{Y}_{i \cdot}\right)^{2} /(N-K),
[/math]

其中[math]Y_{ij}[/math]是第''i''组中第''j''个观察值，[math]N[/math]是总样本量。这个''F''统计量在零假设下遵循[[F-distribution|''F''分布]]，自由度为[math]d_1=K-1[/math]和[math]d_2=N-K[/math]。如果组间变异性相对于组内变异性较大，则统计量会很大，这在所有组的[[expected|总体均值]]都具有相同值时不太可能发生。
[[File:5% F table|thumb|F 表：5%的临界值水平，包含分母和分子的自由度范围从1到20]]
F检验的结果可以通过比较计算出的F值和特定显著性水平（例如，5%）的临界F值来确定。F表作为一个参考指南，包含了在零假设为真的假设下F统计量分布的临界F值。它旨在帮助确定F统计量预计超过控制百分比（例如，5%）的阈值。要在F表中找到临界F值，需要使用相应的自由度。这涉及到识别F表中对应于被测试的显著性水平（例如，5%）的适当行和列。<ref>{{Citation |last=Siegel |first=Andrew F. |title=Chapter 15 - ANOVA: Testing for Differences Among Many Samples and Much More |date=2016-01-01 |url=https://www.sciencedirect.com/science/article/pii/B9780128042502000158 |work=Practical Business Statistics (Seventh Edition) |pages=469–492 |editor-last=Siegel |editor-first=Andrew F. |access-date=2023-12-10 |publisher=Academic Press |doi=10.1016/b978-0-12-804250-2.00015-8 |isbn=978-0-12-804250-2}}</ref>

如何使用临界F值：

如果F统计量 < 临界F值

* 不能拒绝零假设
* 拒绝备择假设
* 样本平均值之间没有显著差异
* 样本平均值之间观察到的差异可以合理地由随机机会本身引起
* 结果统计上不显著

如果F统计量 > 临界F值

* 接受备择假设
* 拒绝零假设
* 样本平均值之间存在显著差异
* 样本平均值之间观察到的差异不可能仅由随机机会本身合理引起
* 结果统计上显著

请注意，当单向ANOVA的''F''检验只有两个组时，[math]F = t^{2}[/math]，其中''t''是[[Student's t-test|学生t统计量]]。

==== 优点 ====

* 多组比较效率：便于同时比较多个组，特别是在涉及超过两个组的情况下，提高了效率。
* 方差比较清晰度：提供了一种直观的解释组间方差差异，有助于清楚理解观察到的数据模式。
* 跨学科的通用性：在社会科学、自然科学和工程等多个领域展示了广泛的适用性。

==== 缺点 ====

* 对假设的敏感性：F检验对某些假设，如方差同质性和正态性高度敏感，这可能会影响测试结果的准确性。
* 限于组间比较的范围：F检验专为比较组间方差而设计，不适合于此特定范围之外的分析。
* 解释挑战：F检验不能指出具有显著方差差异的特定组对。需要仔细的解释，而且通常需要额外的事后测试，以便更详细地理解组间差异。

===多重比较ANOVA问题===
单向方差分析（[[ANOVA]]）中的''F''检验用于评估几个预定义组内的量化变量的[[expected value]]s是否彼此不同。例如，假设一个医学试验比较四种治疗。ANOVA的''F''检验可以用来评估是否有任何治疗平均上优于或劣于其他治疗，与所有四种治疗产生相同平均反应的零假设相对。这是一个“全面”测试的例子，意味着执行一个测试来检测几个可能的差异。另一种方法，我们可以在治疗之间进行成对测试（例如，在有四种治疗的医学试验示例中，我们可以进行六个治疗对的测试）。ANOVA的''F''检验的优势在于我们不需要预先指定哪些治疗要比较，并且我们不需要调整以进行[[multiple comparisons]]。ANOVA的''F''检验的缺点是，如果我们拒绝[[null hypothesis]]，我们不知道哪些治疗可以说与其他治疗显著不同，也不知道，如果以α水平进行''F''检验，我们不能说具有最大平均差异的治疗对在α水平上显著不同。

===回归问题===
{{further|Stepwise regression}}

考虑两个模型，1和2，其中模型1嵌套于模型2中。模型1是受限模型，而模型2是非受限模型。也就是说，模型1有''p''1参数，而模型2有''p''2参数，其中''p''1 < ''p''2，对于模型1中的任何参数选择，通过模型2的某些参数选择可以达到相同的回归曲线。

在这方面的一个常见情境是决定一个模型是否比一个仅有截距项的朴素模型显著更好地拟合数据，朴素模型是受限模型，因为所有潜在解释变量的系数被限制为等于零。

另一个常见情境是决定数据中是否存在结构性断点：这里受限模型使用一次回归处理所有数据，而非受限模型对数据的两个不同子集使用单独的回归。这种使用F检验被称为[[Chow test]]。

参数更多的模型总是至少能像参数较少的模型一样好地拟合数据。因此，通常模型2将比模型1更好（即误差更低）地拟合数据。但人们经常想要确定模型2是否''显著''更好地拟合数据。解决这个问题的一种方法是使用''F''检验。

如果有''n''个数据点用来估计两个模型的参数，那么可以计算''F''统计量，给出

:[math]F=\frac{\left(\frac{\text{RSS}_1 - \text{RSS}_2 }{p_2 - p_1}\right)}{\left(\frac{\text{RSS}_2}{n - p_2}\right)} = \frac{\text{RSS}_1 - \text{RSS}_2 }{\text{RSS}_2} \cdot \frac{n - p_2}{p_2 - p_1},[/math]

其中RSS''i''是模型''i''的[[residual sum of squares]]。如果回归模型是用权重计算的，那么用χ2替换RSS''i''，即加权残差平方和。在零假设下，即模型2并没有比模型1提供显著更好的拟合，''F''将服从一个''F''分布，自由度为(''p''2−''p''1, ''n''−''p''2)。如果从数据计算出的''F''大于[[F-distribution|''F''分布]]的某个期望的错误拒绝概率（例如0.05）的临界值，则拒绝零假设。由于''F''是似然比统计量的单调函数，''F''检验是一个[[likelihood ratio test]]。

== '''节点使用的R语言示例代码''' ==
=== F检验 ===
<syntaxhighlight lang="R">

var.test(x, y, ratio = 1,
alternative = c("two.sided", "less", "greater"),
conf.level = 0.95, ...)

</syntaxhighlight>

== '''节点使用指南''' ==
* 用于比较两个样本的方差是否存在显著性差异
* 如果计算出的F值大于临界F值，则拒绝零假设（即存在方差不等的情况）

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量1：选择一个连续型数值变量
* 统计变量2：选择一个或多个连续型数值变量，每一个变量将与变量1做一次F检验
* 置信区间百分比:输入百分比，95%置信区间就是0.95
* 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 当数据严重偏离正态分布时，F检验的结果可能不可靠
* F检验对于大样本非常敏感，即使是微小的方差差异也可能被检测出来

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:方差分析]]

F检验

2024-02-08T02:32:51Z

RainW：

{{Infobox nodebasic
|nodename=F检验
|nodeimage=F_Test.png
|icon=F_Test.svg
|simpleicon=F_Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=F_Test
|abbreviation=FTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=F检验也称方差比率检验、方差齐性检验。它是一种在零假设（null hypothesis, H0）之下，统计值服从F-分布的检验。主要通过比较两组数据的方差, 以确定两者密度是否有显著性差异, 也是检查多组均值之间的差异。用途：用于比较两个或多个样本或群体的方差是否显著不同。F检验常常用在方差分析中，以确定不同组别之间是否存在显著差异。参数：选择连续型数值变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=Rain_Cloud;SplittingNephelogram
|nodeavailabletablelist=F-Value;df;P-Value;CI;Ratio-Variance
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/F检验
|previousnode=[[G检验]]
|nextnode=[[One_Way_ANOVA]]
}}
{{简短描述|统计假设检验，大多使用多重限制}}
{{DISPLAYTITLE:''F'' 检验}}
[[File:F-test_plot.svg|thumb|自由度为 d1 和 d2 = 10，在显著性水平 0.05 的 f-检验概率密度函数（pdf）。(红色阴影区域表示临界区域)]]
一个'''''F'' 检验'''是用于比较两个样本方差或多个样本方差比的任何[[统计检验]]。[[检验统计量]]，随机变量 F，用于确定在真实[[零假设]]下，测试数据是否符合[[F 分布|''F'' 分布]]，以及误差项（ε）的真实惯常假定。<ref name=":0">{{Cite book |last=Berger |first=Paul D. |url=http://link.springer.com/10.1007/978-3-319-64583-4 |title=实验设计 |last2=Maurer |first2=Robert E. |last3=Celli |first3=Giovana B. |date=2018 |publisher=Springer 国际出版社 |isbn=978-3-319-64582-7 |location=Cham |pages=108 |language=en |doi=10.1007/978-3-319-64583-4}}</ref> 它最常用于[[模型选择|比较统计模型]]，这些模型已经适应于一个[[数据]]集合，以确定最适合从中抽取数据的[[人口统计（统计学）|人群]]的模型。精确的 "''F'' 检验" 主要出现在使用[[最小二乘法]]拟合数据时。这个名称由[[George W. Snedecor]]创造，以纪念[[Ronald Fisher]]。Fisher 最初在 1920 年代开发了这个统计量作为方差比。<ref>{{cite book |last=Lomax |first=Richard G. |year=2007 |title=统计概念：第二课程 |url=https://archive.org/details/introductiontost0000loma_j6h1 |url-access=registration |page=[https://archive.org/details/introductiontost0000loma_j6h1/page/10 10] |isbn=978-0-8058-5850-1 }}</ref>

=='''常见例子'''==

''F'' 检验的常见用途包括以下情况的研究：

* [[File:One-way ANOVA Table generated using Matlab.jpg|thumb|使用 Matlab 生成的单因素方差分析表，包含 3 个随机组，每组有 30 个观察值。F 值在倒数第二列计算]]假设一组给定的[[正态分布|正态分布]]人群，都具有相同的[[标准差]]，它们的[[算术平均数|均值]]相等。这可能是最著名的 ''F'' 检验，并在[[方差分析]]（ANOVA）中扮演重要角色。
** 方差分析（ANOVA）的 F 检验遵循三个假设：
**# [[正态性（统计学）|正态性]]
**# [[方差同质性|方差齐性]]
**# [[独立性（概率论）|误差独立性]] 和 [[随机性|随机抽样]]

* 假设提出的回归模型很好地拟合了[[数据]]。参见[[缺乏拟合的平方和]]。
* 假设在[[回归分析]]中的数据集遵循两个提出的线性模型中较简单的一个，这两个模型是[[统计模型#嵌套模型|嵌套]]在彼此之内
* 使用已完成F检验中所需的数据进行多重比较测试，如果F检验导致拒绝零假设且研究的因子对因变量有影响。<ref name=":0" />
** "''a priori'' comparisons"/ "planned comparisons" - 一组特定的比较
** "pairwise comparisons" - 所有可能的比较
*** 例如 Fisher's least significant difference (LSD) 测试，[[Tukey's Honestly Significant Difference|Tukey's honestly significant difference (HSD) 测试]]，[[Newman-Keuls test|Newman Keuls 测试]]，Ducan 测试
** "[[Post hoc analysis|''a posteriori'' comparisons]]"/ "[[Post hoc comparison|''post hoc'' comparisons]]"/ "[[Post hoc comparison|exploratory comparisons]]" - 在检查数据后选择比较
*** 例如 [[Scheffé's method]]
===两个方差的等性''F''检验===
{{Main|F-test of equality of variances}}

''F''检验对于[[normal distribution|非正态性]]是[[robust statistics|敏感的]]。<ref>{{cite journal | last=Box | first=G. E. P. |author-link= George E. P. Box| journal=Biometrika | year=1953 | title=Non-Normality and Tests on Variances | pages=318–335 | volume=40 | jstor=2333350 | issue=3/4 | doi=10.1093/biomet/40.3-4.318}}</ref><ref>{{cite journal | last=Markowski | first=Carol A |author2=Markowski, Edward P. | year = 1990 | title=Conditions for the Effectiveness of a Preliminary Test of Variance | journal=[[The American Statistician]] | pages=322–326 | volume=44 | jstor=2684360 | doi=10.2307/2684360 | issue=4}}</ref> 在[[analysis of variance]] (ANOVA)中，替代测试包括[[Levene's test]]、[[Bartlett's test]]和[[Brown–Forsythe test]]。然而，当任何这些测试被用来测试[[homoscedasticity]]（即方差的同质性）的基本假设作为测试均值效应的初步步骤时，实验整体[[Type I error]]率会增加。<ref>{{cite journal |last=Sawilowsky |first=S. |year=2002 |title=Fermat, Schubert, Einstein, and Behrens–Fisher: The Probable Difference Between Two Means When σ12 ≠ σ22 |journal=Journal of Modern Applied Statistical Methods |volume=1 |issue=2 |pages=461–472 |doi=10.22237/jmasm/1036109940 |url=http://digitalcommons.wayne.edu/jmasm/vol1/iss2/55 |access-date=2015-03-30 |archive-url=https://web.archive.org/web/20150403095901/http://digitalcommons.wayne.edu/jmasm/vol1/iss2/55/ |archive-date=2015-04-03 |url-status=live |doi-access=free }}</ref>

=='''公式和计算'''==
大多数''F''检验是通过考虑数据集中的[[variance|变异性]]分解为[[Partition of sums of squares|平方和]]的形式产生的。''F''检验中的[[test statistic|统计量]]是反映不同变异性来源的两个标度化平方和的比率。这些平方和的构造是为了当零假设不成立时统计量倾向于更大。为了使统计量在零假设下遵循[[F-distribution|''F''分布]]，这些平方和应该是[[independence (probability theory)|统计独立的]]，且每一个都应遵循标度化的[[chi-squared distribution|χ²分布]]。后一个条件如果数据值是独立的并且以一个共同的[[variance|方差]][[normal distribution|正态分布]]则可以保证。

=== 单因素方差分析 ===
单因素'''ANOVA''' ''F''检验[[test statistic|统计量]]的公式是
:[math]F = \frac{\text{解释的方差}}{\text{未解释的方差}} ,[/math]

或

:[math]F = \frac{\text{组间变异性}}{\text{组内变异性}}.[/math]

"解释的方差"，或"组间变异性"是

:[math]
\sum_{i=1}^{K} n_i(\bar{Y}_{i\cdot} - \bar{Y})^2/(K-1)
[/math]

其中[math]\bar{Y}_{i\cdot}[/math]表示第''i''组中的[[average|样本均值]]，[math]n_i[/math]是第''i''组中的观察数，[math]\bar{Y}[/math]表示数据的总体均值，[math]K[/math]表示组数。

"未解释的方差"，或"组内变异性"是

:[math]
\sum_{i=1}^{K}\sum_{j=1}^{n_{i}} \left( Y_{ij}-\bar{Y}_{i\cdot} \right)^2/(N-K),
[/math]

其中[math]Y_{ij}[/math]是第''i''组中第''j''个观察值，[math]N[/math]是总样本量。这个''F''统计量在零假设下遵循[[F-distribution|''F''分布]]，自由度为[math]d_1=K-1[/math]和[math]d_2=N-K[/math]。如果组间变异性相对于组内变异性较大，则统计量会很大，这在所有组的[[expected|总体均值]]都具有相同值时不太可能发生。
[[File:5% F table|thumb|F 表：5%的临界值水平，包含分母和分子的自由度范围从1到20]]
F检验的结果可以通过比较计算出的F值和特定显著性水平（例如，5%）的临界F值来确定。F表作为一个参考指南，包含了在零假设为真的假设下F统计量分布的临界F值。它旨在帮助确定F统计量预计超过控制百分比（例如，5%）的阈值。要在F表中找到临界F值，需要使用相应的自由度。这涉及到识别F表中对应于被测试的显著性水平（例如，5%）的适当行和列。<ref>{{Citation |last=Siegel |first=Andrew F. |title=Chapter 15 - ANOVA: Testing for Differences Among Many Samples and Much More |date=2016-01-01 |url=https://www.sciencedirect.com/science/article/pii/B9780128042502000158 |work=Practical Business Statistics (Seventh Edition) |pages=469–492 |editor-last=Siegel |editor-first=Andrew F. |access-date=2023-12-10 |publisher=Academic Press |doi=10.1016/b978-0-12-804250-2.00015-8 |isbn=978-0-12-804250-2}}</ref>

如何使用临界F值：

如果F统计量 < 临界F值

* 不能拒绝零假设
* 拒绝备择假设
* 样本平均值之间没有显著差异
* 样本平均值之间观察到的差异可以合理地由随机机会本身引起
* 结果统计上不显著

如果F统计量 > 临界F值

* 接受备择假设
* 拒绝零假设
* 样本平均值之间存在显著差异
* 样本平均值之间观察到的差异不可能仅由随机机会本身合理引起
* 结果统计上显著

请注意，当单向ANOVA的''F''检验只有两个组时，[math]F = t^{2}[/math]，其中''t''是[[Student's t-test|学生t统计量]]。

==== 优点 ====

* 多组比较效率：便于同时比较多个组，特别是在涉及超过两个组的情况下，提高了效率。
* 方差比较清晰度：提供了一种直观的解释组间方差差异，有助于清楚理解观察到的数据模式。
* 跨学科的通用性：在社会科学、自然科学和工程等多个领域展示了广泛的适用性。

==== 缺点 ====

* 对假设的敏感性：F检验对某些假设，如方差同质性和正态性高度敏感，这可能会影响测试结果的准确性。
* 限于组间比较的范围：F检验专为比较组间方差而设计，不适合于此特定范围之外的分析。
* 解释挑战：F检验不能指出具有显著方差差异的特定组对。需要仔细的解释，而且通常需要额外的事后测试，以便更详细地理解组间差异。

===多重比较ANOVA问题===
单向方差分析（[[ANOVA]]）中的''F''检验用于评估几个预定义组内的量化变量的[[expected value]]s是否彼此不同。例如，假设一个医学试验比较四种治疗。ANOVA的''F''检验可以用来评估是否有任何治疗平均上优于或劣于其他治疗，与所有四种治疗产生相同平均反应的零假设相对。这是一个“全面”测试的例子，意味着执行一个测试来检测几个可能的差异。另一种方法，我们可以在治疗之间进行成对测试（例如，在有四种治疗的医学试验示例中，我们可以进行六个治疗对的测试）。ANOVA的''F''检验的优势在于我们不需要预先指定哪些治疗要比较，并且我们不需要调整以进行[[multiple comparisons]]。ANOVA的''F''检验的缺点是，如果我们拒绝[[null hypothesis]]，我们不知道哪些治疗可以说与其他治疗显著不同，也不知道，如果以α水平进行''F''检验，我们不能说具有最大平均差异的治疗对在α水平上显著不同。

===回归问题===
{{further|Stepwise regression}}

考虑两个模型，1和2，其中模型1嵌套于模型2中。模型1是受限模型，而模型2是非受限模型。也就是说，模型1有''p''1参数，而模型2有''p''2参数，其中''p''1 < ''p''2，对于模型1中的任何参数选择，通过模型2的某些参数选择可以达到相同的回归曲线。

在这方面的一个常见情境是决定一个模型是否比一个仅有截距项的朴素模型显著更好地拟合数据，朴素模型是受限模型，因为所有潜在解释变量的系数被限制为等于零。

另一个常见情境是决定数据中是否存在结构性断点：这里受限模型使用一次回归处理所有数据，而非受限模型对数据的两个不同子集使用单独的回归。这种使用F检验被称为[[Chow test]]。

参数更多的模型总是至少能像参数较少的模型一样好地拟合数据。因此，通常模型2将比模型1更好（即误差更低）地拟合数据。但人们经常想要确定模型2是否''显著''更好地拟合数据。解决这个问题的一种方法是使用''F''检验。

如果有''n''个数据点用来估计两个模型的参数，那么可以计算''F''统计量，给出

:[math]F=\frac{\left(\frac{\text{RSS}_1 - \text{RSS}_2 }{p_2 - p_1}\right)}{\left(\frac{\text{RSS}_2}{n - p_2}\right)} = \frac{\text{RSS}_1 - \text{RSS}_2 }{\text{RSS}_2} \cdot \frac{n - p_2}{p_2 - p_1},[/math]

其中RSS''i''是模型''i''的[[residual sum of squares]]。如果回归模型是用权重计算的，那么用χ2替换RSS''i''，即加权残差平方和。在零假设下，即模型2并没有比模型1提供显著更好的拟合，''F''将服从一个''F''分布，自由度为(''p''2−''p''1, ''n''−''p''2)。如果从数据计算出的''F''大于[[F-distribution|''F''分布]]的某个期望的错误拒绝概率（例如0.05）的临界值，则拒绝零假设。由于''F''是似然比统计量的单调函数，''F''检验是一个[[likelihood ratio test]]。

== '''节点使用的R语言示例代码''' ==
=== F检验 ===
<syntaxhighlight lang="R">

var.test(x, y, ratio = 1,
alternative = c("two.sided", "less", "greater"),
conf.level = 0.95, ...)

</syntaxhighlight>

== '''节点使用指南''' ==
* 用于比较两个样本的方差是否存在显著性差异
* 如果计算出的F值大于临界F值，则拒绝零假设（即存在方差不等的情况）

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量1：选择一个连续型数值变量
* 统计变量2：选择一个或多个连续型数值变量，每一个变量将与变量1做一次F检验
* 置信区间百分比:输入百分比，95%置信区间就是0.95
* 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 当数据严重偏离正态分布时，F检验的结果可能不可靠
* F检验对于大样本非常敏感，即使是微小的方差差异也可能被检测出来

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:方差分析]]

符号检验

2024-01-25T09:09:17Z

RainW：

{{Infobox nodebasic
|nodename=符号检验
|nodeimage=Sign Test.png
|icon=Sign Test.svg
|simpleicon=Sign Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.2.0|V1.0.2]]部署
|nodeenglishname=Sign Test
|abbreviation=SigT
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::非参数检验 ]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=符号检验是一种非参数检验方法。通过两个相关样本的每对数据之差的符号进行检验，从而比较两个样本的显著性。如果两个配对的样本实际没差别，则样本相减的差值应当大致一半正一半负。样本总体不受分布限制，可以不满足正态分布。用途：用于检验两组配对观测值或者一组观测值与一个固定值比较时的差异性。参数：选择连续型数值变量和分类分组变量。
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=Rain_Cloud
|nodeavailabletablelist=P-Value;CI
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/符号检验
|previousnode=[[Ridit分析]]
|nextnode=[[游程检验]]
}}

'''符号检验'''是一种统计方法，用于检验观察对之间的一致性差异，例如治疗前后受试者的体重。对于每个受试者给定的观察对（如治疗前后的体重），符号检验确定成对中的一个成员（如治疗前）是否倾向于大于（或小于）另一个成员（如治疗后）。

成对观察可以指定为''x''和''y''。对于成对观察（''x''，y）的比较，如果比较只能表达为''x'' > ''y''，''x'' = ''y''或''x'' < ''y''，那么符号检验最有用。如果相反，观察可以表示为数字量（''x'' = 7，''y'' = 18），或作为等级（''x''的排名 = 第1位，''y''的排名 = 第8位），那么成对的[[t检验]]<ref>{{citation|title=Serious Stats: A Guide to Advanced Statistics for the Behavioral Sciences|first=Thomas|last=Baguley|publisher=Palgrave Macmillan|year=2012|isbn=9780230363557|page=281|url=https://books.google.com/books?id=ObUcBQAAQBAJ&pg=PA281}}.</ref>或[[Wilcoxon符号秩检验]]<ref>{{citation|title=Nonparametric Statistics: A Step-by-Step Approach|first1=Gregory W.|last1=Corder|first2=Dale I.|last2=Foreman|edition=2nd|publisher=John Wiley & Sons|year=2014|isbn=9781118840429|contribution=3.6 Statistical Power|contribution-url=https://books.google.com/books?id=CIxgAwAAQBAJ&pg=SA3-PA7}}.</ref>通常比符号检验更有力量检测一致性差异。

如果X和Y是定量变量，'''符号检验'''可用于[[假设检验|检验假设]]''X''和''Y''之间的差异中位数为零，假设两个[[随机变量]]''X''和''Y''有连续的分布，在我们可以从''X''和''Y''中抽取[[成对差异检验|成对样本]]的情况下。<ref>[https://onlinecourses.science.psu.edu/stat414/node/318 中位数的符号检验] // STAT 415 Intro Mathematical Statistics. 宾夕法尼亚州立大学.</ref>

符号检验还可以检验一组数字的中位数是否显著大于或小于特定值。例如，给定一个班级中学生的成绩列表，符号检验可以确定中位成绩是否与75分（满分100分）显著不同。

符号检验是一种[[非参数检验]]，对测试中的分布性质几乎没有假设——这意味着它具有非常广泛的适用性，但可能缺乏替代检验的[[统计功效]]。

成对样本符号检验的两个条件是样本必须从每个总体中随机选取，且样本必须是依赖的，或成对的。
独立样本无法有意义地成对。由于检验是非参数的，样本不必来自正态分布的总体。此外，该检验适用于左尾、右尾和双尾检验。

=='''方法'''==
设''p'' = Pr(''X'' > ''Y'')，然后检验[[零假设]] H0: ''p'' = 0.50。换句话说，零假设表明，给定一对[[随机]]测量值（''x''''i''，''y''''i''），那么''x''''i''和''y''''i''有同等可能性比另一个更大。

为了检验零假设，从总体中收集独立对的样本数据{(''x''1，''y''1)，(''x''2，''y''2)，...，(''x''''n''，''y''''n'')}。对于没有差异的对将被省略，因此可能会有一个减少的''m''对样本。<ref name="mendenhall">{{Citation
|vauthors = Mendenhall W, Wackerly DD, Scheaffer RL
|title=Mathematical statistics with applications
|edition=Fourth
|year=1989
|publisher=PWS-Kent
|isbn=0-534-92026-8
|pages=674–679
|chapter=15: 非参数统计
}}
</ref>

然后设''W''为''y''''i'' − ''x''''i'' > 0的对数。假设H0为真，则''W''遵循[[二项分布]]''W'' ~ b(''m'', 0.5)。

=='''假设'''==
设''Z''i = ''Y''i − ''X''i，对于''i'' = 1，...， ''n''。
# 假设差异''Zi''是独立的。
# 每个''Zi''来自相同的连续总体。
# ''X''''i''和''Y''''i''代表的值是有序的（至少是[[序数尺度]]），因此比较“大于”、“小于”和“等于”是有意义的。

=='''显著性检验'''==

由于预期检验统计量遵循[[二项分布]]，因此使用标准[[二项检验]]来计算[[统计显著性|显著性]]。对于大样本量（''m'' > 25），可以使用[[二项分布#正态近似|二项分布的正态近似]]。<ref name="mendenhall"/>

左尾值由Pr(''W'' ≤ ''w'')计算，这是替代假设H1: ''p'' < 0.50的[[p值]]。这种替代意味着''X''的测量值倾向于更高。

右尾值由Pr(''W'' ≥ ''w'')计算，这是替代假设H1: ''p'' > 0.50的p值。这种替代意味着''Y''的测量值倾向于更高。

对于双侧替代H1，p值是两个较小尾值的两倍。

=='''配对样本的双侧符号检验示例'''==
Zar给出了配对样本的符号检验的以下示例。收集了10只鹿的左后腿和左前腿的长度数据。<ref name="Zar1999">{{Citation
|last=Zar
|first=Jerold H.
|title=Biostatistical Analysis
|edition=Fourth
|year=1999
|publisher=Prentice-Hall
|isbn=0-13-081542-X
|pages=516–570
|chapter=Chapter 24: More on Dichotomous Variables
}}
</ref>

{| class="wikitable"
|-
! 鹿 !! 后腿长度 (厘米) !! 前腿长度 (厘米) !! 差异
|-
| 1 || 142 || 138 || +
|-
| 2 || 140 || 136 || +
|-
| 3 || 144 || 147 || −
|-
| 4 || 144 || 139 || +
|-
| 5 || 142 || 143 || −
|-
| 6 || 146 || 141 || +
|-
| 7 || 149 || 143 || +
|-
| 8 || 150 || 145 || +
|-
| 9 || 142 || 136 || +
|-
| 10 || 148 || 146 || +
|}

原假设是鹿的后腿长度和前腿长度之间没有差异。备择假设是后腿长度与前腿长度之间存在差异。这是一个双侧检验，而不是单侧检验。对于双侧检验，备择假设是后腿长度可能大于或小于前腿长度。单侧检验可能是后腿长度大于前腿长度，因此差异只能朝一个方向（大于）。

有n=10只鹿。有8个正差异和2个负差异。如果原假设成立，即后腿和前腿长度之间没有差异，那么预期的正差异数量是10中的5。如果后腿和前腿长度没有差异，观察到8个正差异或更极端结果的概率是多少？

因为检验是双侧的，与8个正差异一样极端或更极端的结果包括8、9或10个正差异，以及0、1或2个正差异的结果。在10只鹿中有8个或更多正差异或2个或更少正差异的概率与在公平硬币抛掷10次中出现8个或更多正面或2个或更少正面的概率相同。可以使用[[二项式检验]]计算这些概率，正面的概率 = 反面的概率 = 0.5。

*公平硬币抛掷10次中出现0个正面的概率 = 0.00098
*公平硬币抛掷10次中出现1个正面的概率 = 0.00977
*公平硬币抛掷10次中出现2个正面的概率 = 0.04395
*公平硬币抛掷10次中出现8个正面的概率 = 0.04395
*公平硬币抛掷10次中出现9个正面的概率 = 0.00977
*公平硬币抛掷10次中出现10个正面的概率 = 0.00098

10次中出现8个正差异的双侧概率是这些概率之和：

: 0.00098 + 0.00977 + 0.04395 + 0.04395 + 0.00977 + 0.00098 = 0.109375。

因此，如果后腿和前腿长度没有差异，观察到10次中8个正差异的概率是''p'' = 0.109375。在''p'' = 0.05的显著性水平下，原假设不被拒绝。如果样本量更大，可能有足够的证据拒绝原假设。

由于观察值可以表示为数字量（实际腿长），配对t检验或Wilcoxon符号秩检验通常比符号检验具有更大的功效来检测一致的差异。对于这个示例，配对t检验的差异表明后腿长度和前腿长度存在显著差异（''p'' = 0.007）。

如果观察到的结果是10次比较中有9个正差异，符号检验将是显著的。只有0、1、9或10个正面的硬币抛掷结果才与观察结果一样极端或更极端。

*公平硬币抛掷10次中出现0个正面的概率 = 0.00098
*公平硬币抛掷10次中出现1个正面的概率 = 0.00977
*公平硬币抛掷10次中出现9个正面的概率 = 0.00977
*公平硬币抛掷10次中出现10个正面的概率 = 0.00098

10次中出现9个正差异的概率是这些概率之和：

: 0.00098 + 0.00977 + 0.00977 + 0.00098 = 0.0215。

一般来说，10次中有8个正差异不显著（''p'' = 0.11），但10次中有9个正差异是显著的（''p'' = 0.0215）。

=='''示例'''==
===配对样本的单侧符号检验示例===
Conover<ref name="Conover1999" />使用配对样本的单侧符号检验给出以下示例。一家制造商生产两种产品，A和B。制造商希望知道消费者是否更喜欢产品B而非产品A。抽取了10名消费者，每人分别给予产品A和产品B，并询问他们更喜欢哪种产品。

原假设是消费者不偏好产品B超过产品A。备择假设是消费者更喜欢产品B。这是一个单侧（定向）检验。

研究结束时，8名消费者更喜欢产品B，1名消费者更喜欢产品A，还有一名报告无偏好。

*正数（偏好B）= 8
*负数（偏好A）= 1
*平局（无偏好）= 1

将平局排除在分析之外，给出n = 正数和负数的数量 = 8 + 1 = 9。

如果原假设成立，即消费者对B和A没有偏好，那么9对中有8个正面结果的概率是多少？这是公平硬币抛掷9次中出现8个或更多正面的概率，可以使用二项分布计算，p(正面) = p(反面) = 0.5。

公平硬币抛掷9次中出现8或9个正面的概率 = 0.0195。原假设被拒绝，制造商得出结论，消费者更喜欢产品B而非产品A。

===用于单样本中位数的符号检验示例===

Sprent <ref name="Sprent1989" /> 提供了以下用于中位数的符号检验示例。在一项临床试验中，收集了10名非霍奇金淋巴瘤患者的存活时间（周）。一名受试者在研究结束时仍存活超过362周，其确切存活时间未知。受试者的存活时间分别为：

: 49, 58, 75, 110, 112, 132, 151, 276, 281, 362+

加号表示研究结束时仍存活的受试者。研究者希望确定中位存活时间是少于还是超过200周。

零假设是中位存活时间为200周。
备选假设是中位存活时间不为200周。这是一个双侧检验：备选中位数可能大于或小于200周。

如果零假设成立，即中位存活时间为200周，那么在随机样本中大约有一半的受试者存活时间少于200周，另一半超过200周。低于200的观测值被赋予负号（−），高于200的观测值被赋予正号（+）。对于这10名受试者的存活时间，有7个观测值低于200周（−），3个观测值超过200周（+）。

由于任何一个观测值都同样可能高于或低于人群中位数，因此正号得分的数量将呈二项分布，平均值 = 0.5。那么在10名受试者中有7人低于中位数的结果概率是多少？这与在10次公平硬币投掷中出现7次正面的概率完全相同。由于这是一个双侧检验，极端结果可以是三次或更少的正面，或七次或更多的正面。

在10次公平硬币投掷中观察到k次正面的概率，其中p(正面) = 0.5，由二项式公式给出：

: Pr(正面次数 = ''k'') = Choose(10, ''k'') × 0.510

下表给出了各个''k''值的概率。

{| class="wikitable"
! ''k''!! 0!! 1!! 2!! 3!! 4!! 5!! 6!! 7!! 8!! 9!! 10
|-
! Pr
| 0.0010|| 0.0098|| 0.0439|| 0.1172|| 0.2051|| 0.2461|| 0.2051|| 0.1172|| 0.0439|| 0.0098|| 0.0010
|}

在10次投掷中出现0、1、2、3、7、8、9或10次正面的概率是它们各自概率的总和：

: 0.0010 + 0.0098 + 0.0439 + 0.1172 + 0.1172 + 0.0439 + 0.0098 + 0.0010 = 0.3438。

因此，如果中位存活时间为200周，则观察到3次或更少正号或7次或更多正号的概率为0.3438。如果零假设成立，预期的正号数量为5。观察到3次或更少，或7次或更多正号与5次没有显著差异。零假设未被拒绝。由于样本量极小，此样本检测差异的能力较低。

== '''历史''' ==
{{see also|统计学的历史}}
康诺佛（Conover）<ref name="Conover1999">{{Citation
|last=Conover
|first=W.J.
|title=Practical Nonparametric Statistics
|edition=Third
|year=1999
|publisher=Wiley
|isbn=0-471-16068-7
|pages=157–176
|chapter=第3.4章：符号检验}}
</ref> 和斯普伦特（Sprent）<ref name="Sprent1989">{{Citation
|last=Sprent
|first=P.
|title=Applied Nonparametric Statistical Methods
|edition=Second
|year=1989
|publisher=Chapman & Hall
|isbn=0-412-44980-3
}}
</ref> 描述了[[约翰·阿布纳特]]（John Arbuthnot）在1710年使用符号检验的情况。阿布纳特检查了从1629年到1710年的82年间伦敦的出生记录。在这每一年中，伦敦出生的男性数量都超过了女性数量。如果出生数量相等的零假设为真，那么观察到的结果概率为1/282，这使阿布纳特得出结论，男女出生的概率并不完全相等。

由于他在1692年和1710年的出版物，《阿布纳特被认为是“……第一次使用显著性检验……”<ref name="Bellhouse2001">{{Citation
|last=Bellhouse
|first=P.
|title=in Statisticians of the Centuries by C.C. Heyde and E. Seneta
|year=2001
|publisher=Springer
|isbn=0-387-95329-9
|pages=39–42
|chapter=约翰·阿布纳特}}
</ref>，关于统计显著性和道德确定性的推理的第一个例子，<ref name="Hald1998">{{Citation
|last=Hald
|first=Anders
|title=A History of Mathematical Statistics from 1750 to 1930
|year=1998
|publisher=Wiley
|isbn=
|pages=65
|chapter=第4章：偶然还是设计：显著性检验}}
</ref> 和“……可能是第一个发布的非参数检验的报告……”。<ref name="Conover1999" />

哈尔德（Hald）<ref name="Hald1998"/> 进一步描述了阿布纳特研究的影响。

“尼古拉斯·伯努利（Nicholas Bernoulli）（1710–1713）通过表明，每年男性出生数的大部分变化可以解释为二项式，其中''p'' = 18/35，完成了对阿布纳特数据的分析。这是第一个将二项式拟合到数据的例子。因此，我们在这里有一个拒绝假设 ''p'' = 0.5 的显著性检验，接着是对p的估计和对拟合优度的讨论”

== '''节点使用的R语言示例代码''' ==
=== 符号检验 ===
<syntaxhighlight lang="R">

binom.test(x, n, p = 0.5,
alternative = c("two.sided", "less", "greater"),
conf.level = 0.95)

</syntaxhighlight>

== '''节点使用指南''' ==
* 一种非参数（non-parametric）统计检验方法
* 用于比较两个匹配样本或重复测量的中位数是否存在显著差异
* 统计正差异和负差异的数量，即计数差异大于零和小于零的次数

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 分组变量：选择二分类分组变量，配对分组变量，分组数量一样
* 统计变量：选择一个或多个连续型数值变量，每个变量与分组变量做一次符号检验
* 置信区间百分比:输入百分比，95%置信区间就是0.95
* 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 分组变量和统计变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 分组变量必须是二分类
* 有一对匹配的样本或者一组受试对象的重复测量数据

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:非参数检验]]

符号检验

2024-01-25T09:07:36Z

RainW：

{{Infobox nodebasic
|nodename=符号检验
|nodeimage=Sign Test.png
|icon=Sign Test.svg
|simpleicon=Sign Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.2.0|V1.0.2]]部署
|nodeenglishname=Sign Test
|abbreviation=SigT
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::非参数检验 ]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=符号检验是一种非参数检验方法。通过两个相关样本的每对数据之差的符号进行检验，从而比较两个样本的显著性。如果两个配对的样本实际没差别，则样本相减的差值应当大致一半正一半负。样本总体不受分布限制，可以不满足正态分布。用途：用于检验两组配对观测值或者一组观测值与一个固定值比较时的差异性。参数：选择连续型数值变量和分类分组变量。
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=Rain_Cloud
|nodeavailabletablelist=P-Value;CI
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/符号检验
|previousnode=[[Ridit分析]]
|nextnode=[[游程检验]]
}}

'''符号检验'''是一种统计方法，用于检验观察对之间的一致性差异，例如治疗前后受试者的体重。对于每个受试者给定的观察对（如治疗前后的体重），符号检验确定成对中的一个成员（如治疗前）是否倾向于大于（或小于）另一个成员（如治疗后）。

成对观察可以指定为''x''和''y''。对于成对观察（''x''，y）的比较，如果比较只能表达为''x'' > ''y''，''x'' = ''y''或''x'' < ''y''，那么符号检验最有用。如果相反，观察可以表示为数字量（''x'' = 7，''y'' = 18），或作为等级（''x''的排名 = 第1位，''y''的排名 = 第8位），那么成对的[[t检验]]<ref>{{citation|title=Serious Stats: A Guide to Advanced Statistics for the Behavioral Sciences|first=Thomas|last=Baguley|publisher=Palgrave Macmillan|year=2012|isbn=9780230363557|page=281|url=https://books.google.com/books?id=ObUcBQAAQBAJ&pg=PA281}}.</ref>或[[Wilcoxon符号秩检验]]<ref>{{citation|title=Nonparametric Statistics: A Step-by-Step Approach|first1=Gregory W.|last1=Corder|first2=Dale I.|last2=Foreman|edition=2nd|publisher=John Wiley & Sons|year=2014|isbn=9781118840429|contribution=3.6 Statistical Power|contribution-url=https://books.google.com/books?id=CIxgAwAAQBAJ&pg=SA3-PA7}}.</ref>通常比符号检验更有力量检测一致性差异。

如果X和Y是定量变量，'''符号检验'''可用于[[假设检验|检验假设]]''X''和''Y''之间的差异中位数为零，假设两个[[随机变量]]''X''和''Y''有连续的分布，在我们可以从''X''和''Y''中抽取[[成对差异检验|成对样本]]的情况下。<ref>[https://onlinecourses.science.psu.edu/stat414/node/318 中位数的符号检验] // STAT 415 Intro Mathematical Statistics. 宾夕法尼亚州立大学.</ref>

符号检验还可以检验一组数字的中位数是否显著大于或小于特定值。例如，给定一个班级中学生的成绩列表，符号检验可以确定中位成绩是否与75分（满分100分）显著不同。

符号检验是一种[[非参数检验]]，对测试中的分布性质几乎没有假设——这意味着它具有非常广泛的适用性，但可能缺乏替代检验的[[统计功效]]。

成对样本符号检验的两个条件是样本必须从每个总体中随机选取，且样本必须是依赖的，或成对的。
独立样本无法有意义地成对。由于检验是非参数的，样本不必来自正态分布的总体。此外，该检验适用于左尾、右尾和双尾检验。

=='''方法'''==
设''p'' = Pr(''X'' > ''Y'')，然后检验[[零假设]] H0: ''p'' = 0.50。换句话说，零假设表明，给定一对[[随机]]测量值（''x''''i''，''y''''i''），那么''x''''i''和''y''''i''有同等可能性比另一个更大。

为了检验零假设，从总体中收集独立对的样本数据{(''x''1，''y''1)，(''x''2，''y''2)，...，(''x''''n''，''y''''n'')}。对于没有差异的对将被省略，因此可能会有一个减少的''m''对样本。<ref name="mendenhall">{{Citation
|vauthors = Mendenhall W, Wackerly DD, Scheaffer RL
|title=Mathematical statistics with applications
|edition=Fourth
|year=1989
|publisher=PWS-Kent
|isbn=0-534-92026-8
|pages=674–679
|chapter=15: 非参数统计
}}
</ref>

然后设''W''为''y''''i'' − ''x''''i'' > 0的对数。假设H0为真，则''W''遵循[[二项分布]]''W'' ~ b(''m'', 0.5)。

=='''假设'''==
设''Z''i = ''Y''i − ''X''i，对于''i'' = 1，...， ''n''。
# 假设差异''Zi''是独立的。
# 每个''Zi''来自相同的连续总体。
# ''X''''i''和''Y''''i''代表的值是有序的（至少是[[序数尺度]]），因此比较“大于”、“小于”和“等于”是有意义的。

=='''显著性检验'''==

由于预期检验统计量遵循[[二项分布]]，因此使用标准[[二项检验]]来计算[[统计显著性|显著性]]。对于大样本量（''m'' > 25），可以使用[[二项分布#正态近似|二项分布的正态近似]]。<ref name="mendenhall"/>

左尾值由Pr(''W'' ≤ ''w'')计算，这是替代假设H1: ''p'' < 0.50的[[p值]]。这种替代意味着''X''的测量值倾向于更高。

右尾值由Pr(''W'' ≥ ''w'')计算，这是替代假设H1: ''p'' > 0.50的p值。这种替代意味着''Y''的测量值倾向于更高。

对于双侧替代H1，p值是两个较小尾值的两倍。

=='''配对样本的双侧符号检验示例'''==
Zar给出了配对样本的符号检验的以下示例。收集了10只鹿的左后腿和左前腿的长度数据。<ref name="Zar1999">{{Citation
|last=Zar
|first=Jerold H.
|title=Biostatistical Analysis
|edition=Fourth
|year=1999
|publisher=Prentice-Hall
|isbn=0-13-081542-X
|pages=516–570
|chapter=Chapter 24: More on Dichotomous Variables
}}
</ref>

{| class="wikitable"
|-
! 鹿 !! 后腿长度 (厘米) !! 前腿长度 (厘米) !! 差异
|-
| 1 || 142 || 138 || +
|-
| 2 || 140 || 136 || +
|-
| 3 || 144 || 147 || −
|-
| 4 || 144 || 139 || +
|-
| 5 || 142 || 143 || −
|-
| 6 || 146 || 141 || +
|-
| 7 || 149 || 143 || +
|-
| 8 || 150 || 145 || +
|-
| 9 || 142 || 136 || +
|-
| 10 || 148 || 146 || +
|}

原假设是鹿的后腿长度和前腿长度之间没有差异。备择假设是后腿长度与前腿长度之间存在差异。这是一个双侧检验，而不是单侧检验。对于双侧检验，备择假设是后腿长度可能大于或小于前腿长度。单侧检验可能是后腿长度大于前腿长度，因此差异只能朝一个方向（大于）。

有n=10只鹿。有8个正差异和2个负差异。如果原假设成立，即后腿和前腿长度之间没有差异，那么预期的正差异数量是10中的5。如果后腿和前腿长度没有差异，观察到8个正差异或更极端结果的概率是多少？

因为检验是双侧的，与8个正差异一样极端或更极端的结果包括8、9或10个正差异，以及0、1或2个正差异的结果。在10只鹿中有8个或更多正差异或2个或更少正差异的概率与在公平硬币抛掷10次中出现8个或更多正面或2个或更少正面的概率相同。可以使用[[二项式检验]]计算这些概率，正面的概率 = 反面的概率 = 0.5。

*公平硬币抛掷10次中出现0个正面的概率 = 0.00098
*公平硬币抛掷10次中出现1个正面的概率 = 0.00977
*公平硬币抛掷10次中出现2个正面的概率 = 0.04395
*公平硬币抛掷10次中出现8个正面的概率 = 0.04395
*公平硬币抛掷10次中出现9个正面的概率 = 0.00977
*公平硬币抛掷10次中出现10个正面的概率 = 0.00098

10次中出现8个正差异的双侧概率是这些概率之和：

: 0.00098 + 0.00977 + 0.04395 + 0.04395 + 0.00977 + 0.00098 = 0.109375。

因此，如果后腿和前腿长度没有差异，观察到10次中8个正差异的概率是''p'' = 0.109375。在''p'' = 0.05的显著性水平下，原假设不被拒绝。如果样本量更大，可能有足够的证据拒绝原假设。

由于观察值可以表示为数字量（实际腿长），配对t检验或Wilcoxon符号秩检验通常比符号检验具有更大的功效来检测一致的差异。对于这个示例，配对t检验的差异表明后腿长度和前腿长度存在显著差异（''p'' = 0.007）。

如果观察到的结果是10次比较中有9个正差异，符号检验将是显著的。只有0、1、9或10个正面的硬币抛掷结果才与观察结果一样极端或更极端。

*公平硬币抛掷10次中出现0个正面的概率 = 0.00098
*公平硬币抛掷10次中出现1个正面的概率 = 0.00977
*公平硬币抛掷10次中出现9个正面的概率 = 0.00977
*公平硬币抛掷10次中出现10个正面的概率 = 0.00098

10次中出现9个正差异的概率是这些概率之和：

: 0.00098 + 0.00977 + 0.00977 + 0.00098 = 0.0215。

一般来说，10次中有8个正差异不显著（''p'' = 0.11），但10次中有9个正差异是显著的（''p'' = 0.0215）。

=='''示例'''==
===配对样本的单侧符号检验示例===
Conover<ref name="Conover1999" />使用配对样本的单侧符号检验给出以下示例。一家制造商生产两种产品，A和B。制造商希望知道消费者是否更喜欢产品B而非产品A。抽取了10名消费者，每人分别给予产品A和产品B，并询问他们更喜欢哪种产品。

原假设是消费者不偏好产品B超过产品A。备择假设是消费者更喜欢产品B。这是一个单侧（定向）检验。

研究结束时，8名消费者更喜欢产品B，1名消费者更喜欢产品A，还有一名报告无偏好。

*正数（偏好B）= 8
*负数（偏好A）= 1
*平局（无偏好）= 1

将平局排除在分析之外，给出n = 正数和负数的数量 = 8 + 1 = 9。

如果原假设成立，即消费者对B和A没有偏好，那么9对中有8个正面结果的概率是多少？这是公平硬币抛掷9次中出现8个或更多正面的概率，可以使用二项分布计算，p(正面) = p(反面) = 0.5。

公平硬币抛掷9次中出现8或9个正面的概率 = 0.0195。原假设被拒绝，制造商得出结论，消费者更喜欢产品B而非产品A。

===用于单样本中位数的符号检验示例===

Sprent <ref name="Sprent1989" /> 提供了以下用于中位数的符号检验示例。在一项临床试验中，收集了10名非霍奇金淋巴瘤患者的存活时间（周）。一名受试者在研究结束时仍存活超过362周，其确切存活时间未知。受试者的存活时间分别为：

: 49, 58, 75, 110, 112, 132, 151, 276, 281, 362+

加号表示研究结束时仍存活的受试者。研究者希望确定中位存活时间是少于还是超过200周。

零假设是中位存活时间为200周。
备选假设是中位存活时间不为200周。这是一个双侧检验：备选中位数可能大于或小于200周。

如果零假设成立，即中位存活时间为200周，那么在随机样本中大约有一半的受试者存活时间少于200周，另一半超过200周。低于200的观测值被赋予负号（−），高于200的观测值被赋予正号（+）。对于这10名受试者的存活时间，有7个观测值低于200周（−），3个观测值超过200周（+）。

由于任何一个观测值都同样可能高于或低于人群中位数，因此正号得分的数量将呈二项分布，平均值 = 0.5。那么在10名受试者中有7人低于中位数的结果概率是多少？这与在10次公平硬币投掷中出现7次正面的概率完全相同。由于这是一个双侧检验，极端结果可以是三次或更少的正面，或七次或更多的正面。

在10次公平硬币投掷中观察到k次正面的概率，其中p(正面) = 0.5，由二项式公式给出：

: Pr(正面次数 = ''k'') = Choose(10, ''k'') × 0.510

下表给出了各个''k''值的概率。

{| class="wikitable"
! ''k''!! 0!! 1!! 2!! 3!! 4!! 5!! 6!! 7!! 8!! 9!! 10
|-
! Pr
| 0.0010|| 0.0098|| 0.0439|| 0.1172|| 0.2051|| 0.2461|| 0.2051|| 0.1172|| 0.0439|| 0.0098|| 0.0010
|}

在10次投掷中出现0、1、2、3、7、8、9或10次正面的概率是它们各自概率的总和：

: 0.0010 + 0.0098 + 0.0439 + 0.1172 + 0.1172 + 0.0439 + 0.0098 + 0.0010 = 0.3438。

因此，如果中位存活时间为200周，则观察到3次或更少正号或7次或更多正号的概率为0.3438。如果零假设成立，预期的正号数量为5。观察到3次或更少，或7次或更多正号与5次没有显著差异。零假设未被拒绝。由于样本量极小，此样本检测差异的能力较低。

== '''历史''' ==
{{see also|统计学的历史}}
康诺佛（Conover）<ref name="Conover1999">{{Citation
|last=Conover
|first=W.J.
|title=Practical Nonparametric Statistics
|edition=Third
|year=1999
|publisher=Wiley
|isbn=0-471-16068-7
|pages=157–176
|chapter=第3.4章：符号检验}}
</ref> 和斯普伦特（Sprent）<ref name="Sprent1989">{{Citation
|last=Sprent
|first=P.
|title=Applied Nonparametric Statistical Methods
|edition=Second
|year=1989
|publisher=Chapman & Hall
|isbn=0-412-44980-3
}}
</ref> 描述了[[约翰·阿布纳特]]（John Arbuthnot）在1710年使用符号检验的情况。阿布纳特检查了从1629年到1710年的82年间伦敦的出生记录。在这每一年中，伦敦出生的男性数量都超过了女性数量。如果出生数量相等的零假设为真，那么观察到的结果概率为1/282，这使阿布纳特得出结论，男女出生的概率并不完全相等。

由于他在1692年和1710年的出版物，《阿布纳特被认为是“……第一次使用显著性检验……”<ref name="Bellhouse2001">{{Citation
|last=Bellhouse
|first=P.
|title=in Statisticians of the Centuries by C.C. Heyde and E. Seneta
|year=2001
|publisher=Springer
|isbn=0-387-95329-9
|pages=39–42
|chapter=约翰·阿布纳特}}
</ref>，关于统计显著性和道德确定性的推理的第一个例子，<ref name="Hald1998">{{Citation
|last=Hald
|first=Anders
|title=A History of Mathematical Statistics from 1750 to 1930
|year=1998
|publisher=Wiley
|isbn=
|pages=65
|chapter=第4章：偶然还是设计：显著性检验}}
</ref> 和“……可能是第一个发布的非参数检验的报告……”。<ref name="Conover1999" />

哈尔德（Hald）<ref name="Hald1998"/> 进一步描述了阿布纳特研究的影响。

“尼古拉斯·伯努利（Nicholas Bernoulli）（1710–1713）通过表明，每年男性出生数的大部分变化可以解释为二项式，其中''p'' = 18/35，完成了对阿布纳特数据的分析。这是第一个将二项式拟合到数据的例子。因此，我们在这里有一个拒绝假设 ''p'' = 0.5 的显著性检验，接着是对p的估计和对拟合优度的讨论”

== '''节点使用的R语言示例代码''' ==
=== 符号检验 ===
<syntaxhighlight lang="R">

binom.test(x, n, p = 0.5,
alternative = c("two.sided", "less", "greater"),
conf.level = 0.95)

</syntaxhighlight>

== '''节点使用指南''' ==
* 一种非参数（non-parametric）统计检验方法
* 用于比较两个匹配样本或重复测量的中位数是否存在显著差异
* 统计正差异和负差异的数量，即计数差异大于零和小于零的次数

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 分组变量：选择二分类分组变量，匹配分组变量，分组数量一样
* 统计变量：选择一个或多个连续型数值变量，每个变量与分组变量做一次符号检验
* 置信区间百分比:输入百分比，95%置信区间就是0.95
* 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 分组变量和统计变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 分组变量必须是二分类
* 有一对匹配的样本或者一组受试对象的重复测量数据

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:非参数检验]]

卡方检验

2024-01-25T01:54:59Z

RainW：

{{Infobox nodebasic
|nodename=卡方检验
|nodeimage=Chi_Square Test.png
|icon=Chi_Square Test.svg
|simpleicon=Chi_Square Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Chi_Square Test
|abbreviation=ChiSTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::频数表检验]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=卡方检验针对分类变量, 统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小。如果卡方值越大，二者偏差程度越大；卡方值越小, 二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。用途：主要用于研究分类变量，检验两个分类变量是否独立，还可用于比较两个或更多群体在分类变量上的分布是否一致。参数：选择分类变量进行检验
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Chi-Square;df;N-Size;P-Value
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/卡方检验
|previousnode=[[Fisher精确检验]]
|nextnode=[[Mantel-Haenszel检验]]
}}

卡方检验'''（也称为'''卡方'''或'''[math]χ^2[/math]检验'''）是一种在样本量较大时用于分析[[统计假设检验|统计假设测试]]的[[列联表|列联表]]的方法。简单来说，这种测试主要用于检验两个分类变量（''列联表的两个维度''）是否在影响检验统计量（''表中的数值''）时相互独立。<ref>{{Cite web |title=Chi-Square - Sociology 3112 - Department of Sociology - The University of utah |url= |access-date=2022-11-12 |website=soc.utah.edu}}</ref> 当测试统计量在[[空假设]]下服从[[卡方分布|卡方分布]]时，此测试是[[统计有效性|有效的]]，特别是[[皮尔逊卡方检验]]及其变体。皮尔逊卡方检验用于确定预期的[[频率（统计学）|频率]]与[[列联表]]中一个或多个类别的观察频率之间是否存在[[统计显著性|统计上显著的]]差异。对于样本量较小的列联表，改用[[费舍尔精确检验]]。

在这种测试的标准应用中，观察结果被归类为相互排斥的类别。如果关于人群中类别之间没有差异的[[空假设]]是真实的，那么从观察中计算出的测试统计量将遵循一个[math]χ^2[/math] [[频率分布]]。测试的目的是评估在假设空假设为真的情况下，观察到的频率出现的可能性。

当观察结果是独立的时，遵循[math]χ^2[/math]分布的测试统计量就会出现。也有基于成对观察结果的[math]χ^2[/math]测试，用于检验一对[[随机变量]]的独立性空假设。

''卡方检验''通常指的是那些测试统计量的分布在[[渐近线|渐近]]上接近[math]χ^2[/math]分布的测试，这意味着如果空假设成立，测试统计量的[[抽样分布]]会随着[[样本（统计学）|样本]]大小的增加而越来越接近卡方分布。

== '''历史''' ==
在19世纪，统计分析方法主要应用于生物数据分析，研究人员通常假设观察结果遵循[[正态分布]]，如[[乔治·艾里爵士]]和[[曼斯菲尔德·梅里曼]]的作品，这些作品被[[卡尔·皮尔逊]]在其1900年的论文中批评。
<ref name = Pearson1900>
{{cite journal
| last = Pearson | first = Karl
| author-link = Karl Pearson
| title = On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling
| journal = Philosophical Magazine |series=Series 5
| volume = 50
| issue = 302
| year = 1900
| pages = 157–175
| url = https://www.tandfonline.com/doi/abs/10.1080/14786440009463897
| doi = 10.1080/14786440009463897
}}</ref>

在19世纪末，皮尔逊注意到某些生物观察结果中存在显著的[[偏斜]]。为了对正态或偏斜的观察结果进行建模，皮尔逊在1893年至1916年间发表了一系列文章，<ref name = Pearson1893>
{{cite journal
| last = Pearson | first = Karl
| author-link = Karl Pearson
| title = Contributions to the mathematical theory of evolution [abstract]
| journal = Proceedings of the Royal Society
| volume = 54
| year = 1893
| pages = 329–333
| jstor = 115538
| doi = 10.1098/rspl.1893.0079
| doi-access = free
}}</ref><ref name = Pearson1895>
{{cite journal
| last = Pearson | first = Karl
| author-link = Karl Pearson
| title = Contributions to the mathematical theory of evolution, II: Skew variation in homogeneous material
| journal = Philosophical Transactions of the Royal Society
| volume = 186
| year = 1895
| pages = 343–414
| bibcode = 1895RSPTA.186..343P
| jstor = 90649
| doi = 10.1098/rsta.1895.0010
| url = https://zenodo.org/record/1432104
| doi-access = free
}}</ref><ref name = Pearson1901>
{{cite journal
| last = Pearson | first = Karl
| author-link = Karl Pearson
| title = Mathematical contributions to the theory of evolution, X: Supplement to a memoir on skew variation
| journal = Philosophical Transactions of the Royal Society A
| volume = 197
| issue = 287–299
| year = 1901
| pages = 443–459
| bibcode = 1901RSPTA.197..443P
| jstor = 90841
| doi = 10.1098/rsta.1901.0023
| doi-access =
}}</ref><ref name = Pearson1916>
{{cite journal
| last = Pearson | first = Karl
| author-link = Karl Pearson
| title = Mathematical contributions to the theory of evolution, XIX: Second supplement to a memoir on skew variation
| journal = Philosophical Transactions of the Royal Society A
| volume = 216
| issue = 538–548
| year = 1916
| pages = 429–457
| bibcode = 1916RSPTA.216..429P
| jstor = 91092
| doi = 10.1098/rsta.1916.0009
| doi-access = free
}}</ref> 提出了[[皮尔逊分布]]，这是一个包括正态分布和许多偏斜分布的连续[[概率分布]]家族，并提出了一种统计分析方法，即使用皮尔逊分布对观察结果进行建模，并进行适合性检验，以确定模型与观察结果的匹配程度。

=== 皮尔逊卡方检验 ===
{{另见|皮尔逊卡方检验}}

1900年，皮尔逊发表了一篇论文<ref name = Pearson1900 />关于[math]χ^2[/math]检验，这被认为是现代统计学的基础之一。<ref name = Cochran1952>
{{cite journal
| last = Cochran | first = William G.
| author-link = William G. Cochran
| title = The Chi-square Test of Goodness of Fit
| journal = The Annals of Mathematical Statistics
| volume = 23
| issue = 3
| year = 1952
| pages = 315–345
| jstor = 2236678
| doi=10.1214/aoms/1177729380
| doi-access = free
}}</ref> 在这篇论文中，皮尔逊研究了适合性检验。

假设来自人群的随机样本中的{{mvar|n}}次观测被分类到{{mvar|k}}个互斥类别中，各个类别中观测到的观测次数分别为{{mvar|xi}}（对于{{math|''i'' {{=}} 1,2,…,''k''}}），并且一个零假设给出了一个观测落入第{{mvar|i}}类的概率{{mvar|pi}}。所以我们对所有{{mvar|i}}有预期数字{{math|''mi'' {{=}} ''npi''}}，其中

[math]\begin{align}
& \sum^k_{i=1}{p_i} = 1 \\[8pt]
& \sum^k_{i=1}{m_i} = n\sum^k_{i=1}{p_i} = n
\end{align}[/math]

皮尔逊提出，在零假设正确的情况下，随着{{math|''n'' → ∞}}，下面给出的量的极限分布是{{math|χ2}}分布。

:[math]X^2=\sum^k_{i=1}{\frac{(x_i-m_i)^2}{m_i}}=\sum^k_{i=1}{\frac{x_i^2}{m_i}-n}[/math]

皮尔逊首先处理了预期数字{{mvar|mi}}在所有单元中都足够大的已知数字的情况，假设每个观测{{mvar|xi}}可以被视为[[normal distribution|正态分布]]，并得出结论，当{{mvar|n}}变大时，{{math|''X''{{isup|2}}}}遵循{{math|χ2}}分布，自由度为{{math|''k'' − 1}}。

然而，皮尔逊接下来考虑了预期数字依赖于必须从样本中估计的参数的情况，并建议，以{{mvar|mi}}为真实预期数字，{{math|''m''′''i''}}为估计预期数字的表示方式，差异

:[math]X^2-{X'}^2=\sum^k_{i=1}{\frac{x_i^2}{m_i}}-\sum^k_{i=1}{\frac{x_i^2}{m'_i}}[/math]

通常是正的且足够小以忽略。皮尔逊最后论述，如果我们认为{{math|''X''′{{isup|2}}}}也遵循自由度为{{math|''k'' − 1}}的{{math|χ2}}分布，这种近似中的误差不会影响实际决策。这个结论在实际应用中引起了一些争议，直到费舍尔在1922年和1924年的论文中才得到解决。<ref name = Fisher1922>

{{cite journal
| last = Fisher | first = Ronald A.
| author-link = Ronald A. Fisher
| title = On the Interpretation of {{math|χ2}} from Contingency Tables, and the Calculation of P
| journal = Journal of the Royal Statistical Society
| volume = 85
| issue = 1
| year = 1922
| pages = 87–94
| jstor = 2340521
| doi=10.2307/2340521
}}

</ref><ref name = Fisher1924>
{{cite journal
| last = Fisher | first = Ronald A.
| author-link = Ronald A. Fisher
| title = The Conditions Under Which {{math|χ2}} Measures the Discrepancey Between Observation and Hypothesis
| journal = Journal of the Royal Statistical Society
| volume = 87
| issue = 3
| year = 1924
| pages = 442–450
| jstor = 2341149
}}</ref>

== '''卡方检验的其他例子''' ==

一个精确遵循[[chi-squared distribution|卡方分布]]的[[test statistic|检验统计量]]是基于[[sample variance|样本方差]]来检验一个正态分布人群的方差是否具有给定值的检验。这样的检验在实践中不常见，因为人群的真实方差通常是未知的。然而，有几个统计检验，卡方分布大致有效：

=== 费舍尔精确检验 ===
作为2 × 2卡方独立性检验的替代，使用精确检验，请参阅[[Fisher's exact test|费舍尔精确检验]]。

=== 二项式检验 ===
作为2 × 1卡方拟合优度检验的替代，使用精确检验，请参阅[[binomial test|二项式检验]]。

=== 其他卡方检验 ===
* [[Cochran–Mantel–Haenszel statistics|科克伦-曼特尔-韩泽尔卡方检验]]。
* [[McNemar's test|麦克尼马尔检验]]，用于某些{{nowrap|2 × 2}}表格中的配对。
* [[Tukey's test of additivity|图基加性检验]]。
* 在[[time-series analysis|时间序列分析]]中的[[portmanteau test|概括检验]]，用于检测[[autocorrelation|自相关]]的存在。
* 一般[[statistical model|统计模型]]中的[[Likelihood-ratio test|似然比检验]]，用于检验是否有从简单模型转向更复杂模型的必要（其中简单模型嵌套于复杂模型中）。

== '''耶茨连续性修正''' ==
{{Main|Yates's correction for continuity}}
使用[[chi-squared distribution|卡方分布]]来解释[[Pearson's chi-squared test|皮尔逊卡方统计量]]需要假设表格中观测到的[[binomial distribution|二项分布]]频率的[[Discrete probability distribution|离散]]概率可以通过连续的[[chi-squared distribution|卡方分布]]来近似。这个假设不完全正确，引入了一些误差。

为了减少近似误差，[[Frank Yates|弗兰克·耶茨]]提出了一个连续性修正，调整[[Pearson's chi-squared test|皮尔逊卡方检验]]的公式，通过在{{nowrap|2 × 2}}列联表中从每个观测值与其预期值之间的绝对差中减去0.5。<ref name=Yates>{{cite journal|author-link=Frank Yates|last=Yates|first=Frank|date=1934|title=Contingency table involving small numbers and the {{math|χ2}} test|journal=Supplement to the Journal of the Royal Statistical Society|volume=1|issue=2|pages=217–235|jstor=2983604|doi=10.2307/2983604}}</ref> 这减少了获得的卡方值，从而增加了其[[p-value|''p''-值]]。

== '''正态人群中方差的卡方检验''' ==
如果从具有[[normal distribution|正态分布]]的总体中抽取大小为{{math|''n''}}的样本，则有一个结果（见[[Variance#Distribution of the sample variance|样本方差的分布]]），允许对总体方差是否具有预先确定的值进行检验。例如，一个制造过程可能长期处于稳定状态，允许基本无误地确定方差值。假设正在测试该过程的一个变体，产生大小为{{math|''n''}}的小样本产品项，其变异需要被测试。这种情况下的检验统计量{{math|''T''}}可以设定为样本均值的平方和除以方差的名义值（即要作为有效值进行检验的值）。然后{{math|''T''}}具有自由度为{{math|''n'' − 1}}的[[Degrees of freedom (statistics)|卡方分布]]。例如，如果样本大小为21，那么在5%的显著性水平下{{math|''T''}}的接受区间在9.59到34.17之间。

=='''分类数据的卡方检验示例'''==

假设有一个拥有1,000,000居民的城市，有四个邻居：{{math|''A''}}, {{math|''B''}}, {{math|''C''}}, 和{{math|''D''}}。随机抽取该城市650名居民，记录他们的职业为[[Collar workers|"白领", "蓝领" 或 "无领"]]. 零假设是每个人的居住邻居与其职业分类无关。数据如下所示：

:{| class="wikitable" style="text-align: right;"
|-
! !! {{math|''A''}} !! {{math|''B''}} !! {{math|''C''}} !! {{math|''D''}} !! 总计
|-
|style="text-align: left;"| 白领 || 90 || 60 || 104 || 95 || 349
|-
|style="text-align: left;"| 蓝领 || 30 || 50 || 51 || 20 || 151
|-
|style="text-align: left;"| 无领 || 30 || 40 || 45 || 35 || 150
|-
!style="text-align: left;"| 总计 || 150 || 150 || 200 || 150 || 650
|}

让我们以居住在{{math|''A''}}的样本，150人，来估计整个1,000,000中有多少比例的人居住在{{math|''A''}}。同样，我们取{{sfrac|349|650}}来估计1,000,000人中有多少比例是白领。根据假设下的独立性，我们应该“期望”{{math|''A''}}的白领工人数量为

: [math] 150\times\frac{349}{650} \approx 80.54 [/math]

然后在该表格的“单元格”中，我们有

: [math]\frac{\left(\text{observed}-\text{expected}\right)^2}{\text{expected}} = \frac{\left(90-80.54\right)^2}{80.54} \approx 1.11[/math]

这些数量的总和是检验统计量；在这种情况下，[math] \approx 24.57 [/math]。在零假设下，这个总和大致具有卡方分布，其自由度数为

: [math] (\text{number of rows}-1)(\text{number of columns}-1) = (3-1)(4-1) = 6 [/math]

如果检验统计量根据该卡方分布不可信地大，则拒绝独立性的零假设。

相关问题是同质性检验。假设我们不是给每个邻居的每个居民同等机会纳入样本，而是提前决定包括每个邻居多少居民。那么每个居民被选中的机会与同一邻居的所有居民相同，但如果四个样本大小不与四个邻居的人口成比例，那么不同邻居的居民被选中的概率将不同。在这种情况下，我们正在测试“同质性”而非“独立性”。问题是四个邻居中蓝领、白领和无领工人的比例是否相同。然而，检验的方法是相同的。

=='''应用领域'''==

在[[密码分析]]中，卡方检验被用于比较[[明文]]和（可能的）解密[[密文]]的分布。测试的最低值意味着解密成功的可能性很高。<ref name=practicalcrypto>{{cite web|title=Chi-squared Statistic|url=http://practicalcryptography.com/cryptanalysis/text-characterisation/chi-squared-statistic/|website=Practical Cryptography|access-date=18 February 2015|archive-url=https://web.archive.org/web/20150218203349/http://practicalcryptography.com/cryptanalysis/text-characterisation/chi-squared-statistic/|archive-date=18 February 2015|url-status=dead}}</ref><ref name=ibmath>{{cite web|title=Using Chi Squared to Crack Codes|url=http://ibmathsresources.com/2014/06/15/using-chi-squared-to-crack-codes/|website=IB Maths Resources|date=15 June 2014 |publisher=British International School Phuket}}</ref> 这种方法可以泛化用于解决现代密码学问题。<ref name=elsevier>{{cite journal|last1=Ryabko|first1=B. Ya.|last2=Stognienko|first2=V. S.|last3=Shokin|first3=Yu. I.|title=A new test for randomness and its application to some cryptographic problems|journal=Journal of Statistical Planning and Inference|date=2004|volume=123|issue=2|pages=365–376|url=http://boris.ryabko.net/jspi.pdf|access-date=18 February 2015|doi=10.1016/s0378-3758(03)00149-6}}</ref>

在[[生物信息学]]中，卡方检验用于比较属于不同类别（例如，疾病基因、必要基因、特定染色体上的基因等）的基因的某些特性（例如，基因组内容、突变率、相互作用网络聚类等）的分布。<ref name=pnas-bics>{{cite journal|last1=Feldman|first1=I.|last2=Rzhetsky|first2=A.|last3=Vitkup|first3=D.|title=Network properties of genes harboring inherited disease mutations|journal=PNAS|date=2008|volume=105|issue=11|pages=4323–432|doi=10.1073/pnas.0701722105|bibcode=2008PNAS..105.4323F|pmc=2393821|pmid=18326631|doi-access=free}}</ref><ref name=chi-bics>{{cite web|title=chi-square-tests|url=https://visa.pharmacy.wsu.edu/bioinformatics/documents/chi-square-tests.pdf|access-date=29 June 2018|archive-url=https://web.archive.org/web/20180629131548/https://visa.pharmacy.wsu.edu/bioinformatics/documents/chi-square-tests.pdf|archive-date=29 June 2018|url-status=dead}}</ref>

== '''节点使用的R语言示例代码''' ==
=== 卡方检验 ===
<syntaxhighlight lang="R">

chisq.test(x, y = NULL, correct = TRUE,
p = rep(1/length(x), length(x)), rescale.p = FALSE,
simulate.p.value = FALSE, B = 2000)

</syntaxhighlight>

== '''节点使用指南''' ==
* 用来检验观测值和期望值之间是否有显著差异的非参数检验方法
* 用于两个或多个类别数据之间的关系分析
* 用于检验两个变量之间是否独立

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量1：选择一个离散型分类变量
* 统计变量2：选择一个或多个离散型分类变量，每一个变量与变量1做一次卡方检验
* 是否连续校正：是否应用Yates的连续性修正。Yates的连续性修正通过在每个单元格的差值中减去0.5来解决这个问题。这就使得差值和期望频数的差距变小，从而减小了卡方统计量的值，使得P值变大，降低了过度拒真的可能性。
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 所有期望频数应大于5；如果不是，考虑合并类别或使用精确概率方法
* 卡方检验对样本量敏感，较大的样本可能导致小的差异也显著

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:频数表检验]]

卡方检验

2024-01-25T01:50:35Z

RainW：

{{Infobox nodebasic
|nodename=卡方检验
|nodeimage=Chi_Square Test.png
|icon=Chi_Square Test.svg
|simpleicon=Chi_Square Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Chi_Square Test
|abbreviation=ChiSTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::频数表检验]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=卡方检验针对分类变量, 统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小。如果卡方值越大，二者偏差程度越大；卡方值越小, 二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。用途：主要用于研究分类变量，检验两个分类变量是否独立，还可用于比较两个或更多群体在分类变量上的分布是否一致。参数：选择分类变量进行检验
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Chi-Square;df;N-Size;P-Value
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/卡方检验
|previousnode=[[Fisher精确检验]]
|nextnode=[[Mantel-Haenszel检验]]
}}

卡方检验'''（也称为'''卡方'''或'''[math]χ^2[/math]检验'''）是一种在样本量较大时用于分析[[统计假设检验|统计假设测试]]的[[列联表|列联表]]的方法。简单来说，这种测试主要用于检验两个分类变量（''列联表的两个维度''）是否在影响检验统计量（''表中的数值''）时相互独立。<ref>{{Cite web |title=Chi-Square - Sociology 3112 - Department of Sociology - The University of utah |url= |access-date=2022-11-12 |website=soc.utah.edu}}</ref> 当测试统计量在[[空假设]]下服从[[卡方分布|卡方分布]]时，此测试是[[统计有效性|有效的]]，特别是[[皮尔逊卡方检验]]及其变体。皮尔逊卡方检验用于确定预期的[[频率（统计学）|频率]]与[[列联表]]中一个或多个类别的观察频率之间是否存在[[统计显著性|统计上显著的]]差异。对于样本量较小的列联表，改用[[费舍尔精确检验]]。

在这种测试的标准应用中，观察结果被归类为相互排斥的类别。如果关于人群中类别之间没有差异的[[空假设]]是真实的，那么从观察中计算出的测试统计量将遵循一个[math]χ^2[/math] [[频率分布]]。测试的目的是评估在假设空假设为真的情况下，观察到的频率出现的可能性。

当观察结果是独立的时，遵循[math]χ^2[/math]分布的测试统计量就会出现。也有基于成对观察结果的[math]χ^2[/math]测试，用于检验一对[[随机变量]]的独立性空假设。

''卡方检验''通常指的是那些测试统计量的分布在[[渐近线|渐近]]上接近[math]χ^2[/math]分布的测试，这意味着如果空假设成立，测试统计量的[[抽样分布]]会随着[[样本（统计学）|样本]]大小的增加而越来越接近卡方分布。

== '''历史''' ==
在19世纪，统计分析方法主要应用于生物数据分析，研究人员通常假设观察结果遵循[[正态分布]]，如[[乔治·艾里爵士]]和[[曼斯菲尔德·梅里曼]]的作品，这些作品被[[卡尔·皮尔逊]]在其1900年的论文中批评。
<ref name = Pearson1900>
{{cite journal
| last = Pearson | first = Karl
| author-link = Karl Pearson
| title = On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling
| journal = Philosophical Magazine |series=Series 5
| volume = 50
| issue = 302
| year = 1900
| pages = 157–175
| url = https://www.tandfonline.com/doi/abs/10.1080/14786440009463897
| doi = 10.1080/14786440009463897
}}</ref>

在19世纪末，皮尔逊注意到某些生物观察结果中存在显著的[[偏斜]]。为了对正态或偏斜的观察结果进行建模，皮尔逊在1893年至1916年间发表了一系列文章，<ref name = Pearson1893>
{{cite journal
| last = Pearson | first = Karl
| author-link = Karl Pearson
| title = Contributions to the mathematical theory of evolution [abstract]
| journal = Proceedings of the Royal Society
| volume = 54
| year = 1893
| pages = 329–333
| jstor = 115538
| doi = 10.1098/rspl.1893.0079
| doi-access = free
}}</ref><ref name = Pearson1895>
{{cite journal
| last = Pearson | first = Karl
| author-link = Karl Pearson
| title = Contributions to the mathematical theory of evolution, II: Skew variation in homogeneous material
| journal = Philosophical Transactions of the Royal Society
| volume = 186
| year = 1895
| pages = 343–414
| bibcode = 1895RSPTA.186..343P
| jstor = 90649
| doi = 10.1098/rsta.1895.0010
| url = https://zenodo.org/record/1432104
| doi-access = free
}}</ref><ref name = Pearson1901>
{{cite journal
| last = Pearson | first = Karl
| author-link = Karl Pearson
| title = Mathematical contributions to the theory of evolution, X: Supplement to a memoir on skew variation
| journal = Philosophical Transactions of the Royal Society A
| volume = 197
| issue = 287–299
| year = 1901
| pages = 443–459
| bibcode = 1901RSPTA.197..443P
| jstor = 90841
| doi = 10.1098/rsta.1901.0023
| doi-access =
}}</ref><ref name = Pearson1916>
{{cite journal
| last = Pearson | first = Karl
| author-link = Karl Pearson
| title = Mathematical contributions to the theory of evolution, XIX: Second supplement to a memoir on skew variation
| journal = Philosophical Transactions of the Royal Society A
| volume = 216
| issue = 538–548
| year = 1916
| pages = 429–457
| bibcode = 1916RSPTA.216..429P
| jstor = 91092
| doi = 10.1098/rsta.1916.0009
| doi-access = free
}}</ref> 提出了[[皮尔逊分布]]，这是一个包括正态分布和许多偏斜分布的连续[[概率分布]]家族，并提出了一种统计分析方法，即使用皮尔逊分布对观察结果进行建模，并进行适合性检验，以确定模型与观察结果的匹配程度。

=== 皮尔逊卡方检验 ===
{{另见|皮尔逊卡方检验}}

1900年，皮尔逊发表了一篇论文<ref name = Pearson1900 />关于[math]χ^2[/math]检验，这被认为是现代统计学的基础之一。<ref name = Cochran1952>
{{cite journal
| last = Cochran | first = William G.
| author-link = William G. Cochran
| title = The Chi-square Test of Goodness of Fit
| journal = The Annals of Mathematical Statistics
| volume = 23
| issue = 3
| year = 1952
| pages = 315–345
| jstor = 2236678
| doi=10.1214/aoms/1177729380
| doi-access = free
}}</ref> 在这篇论文中，皮尔逊研究了适合性检验。

假设来自人群的随机样本中的{{mvar|n}}次观测被分类到{{mvar|k}}个互斥类别中，各个类别中观测到的观测次数分别为{{mvar|xi}}（对于{{math|''i'' {{=}} 1,2,…,''k''}}），并且一个零假设给出了一个观测落入第{{mvar|i}}类的概率{{mvar|pi}}。所以我们对所有{{mvar|i}}有预期数字{{math|''mi'' {{=}} ''npi''}}，其中

[math]\sum_{i=1}^{k} p_{i}=1
\sum_{i=1}^{k} m_{i}=n \sum_{i=1}^{k} p_{i}=n[/math]

皮尔逊提出，在零假设正确的情况下，随着{{math|''n'' → ∞}}，下面给出的量的极限分布是{{math|χ2}}分布。

:[math]X^2=\sum^k_{i=1}{\frac{(x_i-m_i)^2}{m_i}}=\sum^k_{i=1}{\frac{x_i^2}{m_i}-n}[/math]

皮尔逊首先处理了预期数字{{mvar|mi}}在所有单元中都足够大的已知数字的情况，假设每个观测{{mvar|xi}}可以被视为[[normal distribution|正态分布]]，并得出结论，当{{mvar|n}}变大时，{{math|''X''{{isup|2}}}}遵循{{math|χ2}}分布，自由度为{{math|''k'' − 1}}。

然而，皮尔逊接下来考虑了预期数字依赖于必须从样本中估计的参数的情况，并建议，以{{mvar|mi}}为真实预期数字，{{math|''m''′''i''}}为估计预期数字的表示方式，差异

:[math]X^2-{X'}^2=\sum^k_{i=1}{\frac{x_i^2}{m_i}}-\sum^k_{i=1}{\frac{x_i^2}{m'_i}}[/math]

通常是正的且足够小以忽略。皮尔逊最后论述，如果我们认为{{math|''X''′{{isup|2}}}}也遵循自由度为{{math|''k'' − 1}}的{{math|χ2}}分布，这种近似中的误差不会影响实际决策。这个结论在实际应用中引起了一些争议，直到费舍尔在1922年和1924年的论文中才得到解决。<ref name = Fisher1922>

{{cite journal
| last = Fisher | first = Ronald A.
| author-link = Ronald A. Fisher
| title = On the Interpretation of {{math|χ2}} from Contingency Tables, and the Calculation of P
| journal = Journal of the Royal Statistical Society
| volume = 85
| issue = 1
| year = 1922
| pages = 87–94
| jstor = 2340521
| doi=10.2307/2340521
}}

</ref><ref name = Fisher1924>
{{cite journal
| last = Fisher | first = Ronald A.
| author-link = Ronald A. Fisher
| title = The Conditions Under Which {{math|χ2}} Measures the Discrepancey Between Observation and Hypothesis
| journal = Journal of the Royal Statistical Society
| volume = 87
| issue = 3
| year = 1924
| pages = 442–450
| jstor = 2341149
}}</ref>

== '''卡方检验的其他例子''' ==

一个精确遵循[[chi-squared distribution|卡方分布]]的[[test statistic|检验统计量]]是基于[[sample variance|样本方差]]来检验一个正态分布人群的方差是否具有给定值的检验。这样的检验在实践中不常见，因为人群的真实方差通常是未知的。然而，有几个统计检验，卡方分布大致有效：

=== 费舍尔精确检验 ===
作为2 × 2卡方独立性检验的替代，使用精确检验，请参阅[[Fisher's exact test|费舍尔精确检验]]。

=== 二项式检验 ===
作为2 × 1卡方拟合优度检验的替代，使用精确检验，请参阅[[binomial test|二项式检验]]。

=== 其他卡方检验 ===
* [[Cochran–Mantel–Haenszel statistics|科克伦-曼特尔-韩泽尔卡方检验]]。
* [[McNemar's test|麦克尼马尔检验]]，用于某些{{nowrap|2 × 2}}表格中的配对。
* [[Tukey's test of additivity|图基加性检验]]。
* 在[[time-series analysis|时间序列分析]]中的[[portmanteau test|概括检验]]，用于检测[[autocorrelation|自相关]]的存在。
* 一般[[statistical model|统计模型]]中的[[Likelihood-ratio test|似然比检验]]，用于检验是否有从简单模型转向更复杂模型的必要（其中简单模型嵌套于复杂模型中）。

== '''耶茨连续性修正''' ==
{{Main|Yates's correction for continuity}}
使用[[chi-squared distribution|卡方分布]]来解释[[Pearson's chi-squared test|皮尔逊卡方统计量]]需要假设表格中观测到的[[binomial distribution|二项分布]]频率的[[Discrete probability distribution|离散]]概率可以通过连续的[[chi-squared distribution|卡方分布]]来近似。这个假设不完全正确，引入了一些误差。

为了减少近似误差，[[Frank Yates|弗兰克·耶茨]]提出了一个连续性修正，调整[[Pearson's chi-squared test|皮尔逊卡方检验]]的公式，通过在{{nowrap|2 × 2}}列联表中从每个观测值与其预期值之间的绝对差中减去0.5。<ref name=Yates>{{cite journal|author-link=Frank Yates|last=Yates|first=Frank|date=1934|title=Contingency table involving small numbers and the {{math|χ2}} test|journal=Supplement to the Journal of the Royal Statistical Society|volume=1|issue=2|pages=217–235|jstor=2983604|doi=10.2307/2983604}}</ref> 这减少了获得的卡方值，从而增加了其[[p-value|''p''-值]]。

== '''正态人群中方差的卡方检验''' ==
如果从具有[[normal distribution|正态分布]]的总体中抽取大小为{{math|''n''}}的样本，则有一个结果（见[[Variance#Distribution of the sample variance|样本方差的分布]]），允许对总体方差是否具有预先确定的值进行检验。例如，一个制造过程可能长期处于稳定状态，允许基本无误地确定方差值。假设正在测试该过程的一个变体，产生大小为{{math|''n''}}的小样本产品项，其变异需要被测试。这种情况下的检验统计量{{math|''T''}}可以设定为样本均值的平方和除以方差的名义值（即要作为有效值进行检验的值）。然后{{math|''T''}}具有自由度为{{math|''n'' − 1}}的[[Degrees of freedom (statistics)|卡方分布]]。例如，如果样本大小为21，那么在5%的显著性水平下{{math|''T''}}的接受区间在9.59到34.17之间。

=='''列联表示例的卡方检验'''==
[[Dispute: This example is actually for a goodness-of-fit test, and NOT a test of independence in a contingency table]] [[Dispute claim is valid]]

可以对[[contingency table|列联表]]应用卡方检验，以测试行列独立性的零假设。

作为使用卡方检验的一个示例，公平的硬币是指抛掷后正反面出现的概率相等。假设有人给了一枚硬币并要求测试它是否公平。经过200次试验后，正面出现153次，反面出现147次。以下是卡方分析，其中零假设是硬币是公平的：

{|class="wikitable" align="center"
|+ 投掷硬币的卡方计算
| |
| | 正面
| 反面
| 总计
|-
| | 观察值
| | 53
| | 47
| | 100
|-
| | 预期值
| | 50
| | 50
| | 100
|-
| | {{math|(''O'' − ''E'')2}}
| | 9
| | 9
| |
|-
| | {{math|1=χ2 = (''O'' − ''E'')2/''E''}}
| | 0.18
| | 0.18
| | 0.36
|}
在这种情况下，检验具有一个[[Degrees of freedom (statistics)|自由度]]，卡方值为0.36。为了确定这一结果是否[[statistically significant|统计显著]]，必须计算或在图表中查找[[p-value|P值]]（即在零假设为真时观察到至少这么极端结果的概率）。P值，{{math|Prob(χ2 ≥ 0.36)}}, 被发现为0.5485。因此，如果硬币确实公平，看到至少这么偏离预期结果的数据的概率约为55%。这一概率不被认为是硬币不公平的统计显著证据。-->

=='''分类数据的卡方检验示例'''==

假设有一个拥有1,000,000居民的城市，有四个邻居：{{math|''A''}}, {{math|''B''}}, {{math|''C''}}, 和{{math|''D''}}。随机抽取该城市650名居民，记录他们的职业为[[Collar workers|"白领", "蓝领" 或 "无领"]]. 零假设是每个人的居住邻居与其职业分类无关。数据如下所示：

:{| class="wikitable" style="text-align: right;"
|-
! !! {{math|''A''}} !! {{math|''B''}} !! {{math|''C''}} !! {{math|''D''}} !! 总计
|-
|style="text-align: left;"| 白领 || 90 || 60 || 104 || 95 || 349
|-
|style="text-align: left;"| 蓝领 || 30 || 50 || 51 || 20 || 151
|-
|style="text-align: left;"| 无领 || 30 || 40 || 45 || 35 || 150
|-
!style="text-align: left;"| 总计 || 150 || 150 || 200 || 150 || 650
|}

让我们以居住在{{math|''A''}}的样本，150人，来估计整个1,000,000中有多少比例的人居住在{{math|''A''}}。同样，我们取{{sfrac|349|650}}来估计1,000,000人中有多少比例是白领。根据假设下的独立性，我们应该“期望”{{math|''A''}}的白领工人数量为

: [math] 150\times\frac{349}{650} \approx 80.54 [/math]

然后在该表格的“单元格”中，我们有

: [math]\frac{\left(\text{observed}-\text{expected}\right)^2}{\text{expected}} = \frac{\left(90-80.54\right)^2}{80.54} \approx 1.11[/math]

这些数量的总和是检验统计量；在这种情况下，[math] \approx 24.57 [/math]。在零假设下，这个总和大致具有卡方分布，其自由度数为

: [math] (\text{number of rows}-1)(\text{number of columns}-1) = (3-1)(4-1) = 6 [/math]

如果检验统计量根据该卡方分布不可信地大，则拒绝独立性的零假设。

相关问题是同质性检验。假设我们不是给每个邻居的每个居民同等机会纳入样本，而是提前决定包括每个邻居多少居民。那么每个居民被选中的机会与同一邻居的所有居民相同，但如果四个样本大小不与四个邻居的人口成比例，那么不同邻居的居民被选中的概率将不同。在这种情况下，我们正在测试“同质性”而非“独立性”。问题是四个邻居中蓝领、白领和无领工人的比例是否相同。然而，检验的方法是相同的。

=='''应用领域'''==

在[[密码分析]]中，卡方检验被用于比较[[明文]]和（可能的）解密[[密文]]的分布。测试的最低值意味着解密成功的可能性很高。<ref name=practicalcrypto>{{cite web|title=Chi-squared Statistic|url=http://practicalcryptography.com/cryptanalysis/text-characterisation/chi-squared-statistic/|website=Practical Cryptography|access-date=18 February 2015|archive-url=https://web.archive.org/web/20150218203349/http://practicalcryptography.com/cryptanalysis/text-characterisation/chi-squared-statistic/|archive-date=18 February 2015|url-status=dead}}</ref><ref name=ibmath>{{cite web|title=Using Chi Squared to Crack Codes|url=http://ibmathsresources.com/2014/06/15/using-chi-squared-to-crack-codes/|website=IB Maths Resources|date=15 June 2014 |publisher=British International School Phuket}}</ref> 这种方法可以泛化用于解决现代密码学问题。<ref name=elsevier>{{cite journal|last1=Ryabko|first1=B. Ya.|last2=Stognienko|first2=V. S.|last3=Shokin|first3=Yu. I.|title=A new test for randomness and its application to some cryptographic problems|journal=Journal of Statistical Planning and Inference|date=2004|volume=123|issue=2|pages=365–376|url=http://boris.ryabko.net/jspi.pdf|access-date=18 February 2015|doi=10.1016/s0378-3758(03)00149-6}}</ref>

在[[生物信息学]]中，卡方检验用于比较属于不同类别（例如，疾病基因、必要基因、特定染色体上的基因等）的基因的某些特性（例如，基因组内容、突变率、相互作用网络聚类等）的分布。<ref name=pnas-bics>{{cite journal|last1=Feldman|first1=I.|last2=Rzhetsky|first2=A.|last3=Vitkup|first3=D.|title=Network properties of genes harboring inherited disease mutations|journal=PNAS|date=2008|volume=105|issue=11|pages=4323–432|doi=10.1073/pnas.0701722105|bibcode=2008PNAS..105.4323F|pmc=2393821|pmid=18326631|doi-access=free}}</ref><ref name=chi-bics>{{cite web|title=chi-square-tests|url=https://visa.pharmacy.wsu.edu/bioinformatics/documents/chi-square-tests.pdf|access-date=29 June 2018|archive-url=https://web.archive.org/web/20180629131548/https://visa.pharmacy.wsu.edu/bioinformatics/documents/chi-square-tests.pdf|archive-date=29 June 2018|url-status=dead}}</ref>

== '''节点使用的R语言示例代码''' ==
=== 卡方检验 ===
<syntaxhighlight lang="R">

chisq.test(x, y = NULL, correct = TRUE,
p = rep(1/length(x), length(x)), rescale.p = FALSE,
simulate.p.value = FALSE, B = 2000)

</syntaxhighlight>

== '''节点使用指南''' ==
* 用来检验观测值和期望值之间是否有显著差异的非参数检验方法
* 用于两个或多个类别数据之间的关系分析
* 用于检验两个变量之间是否独立

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量1：选择一个离散型分类变量
* 统计变量2：选择一个或多个离散型分类变量，每一个变量与变量1做一次卡方检验
* 是否连续校正：是否应用Yates的连续性修正。Yates的连续性修正通过在每个单元格的差值中减去0.5来解决这个问题。这就使得差值和期望频数的差距变小，从而减小了卡方统计量的值，使得P值变大，降低了过度拒真的可能性。
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 所有期望频数应大于5；如果不是，考虑合并类别或使用精确概率方法
* 卡方检验对样本量敏感，较大的样本可能导致小的差异也显著

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:频数表检验]]

卡方检验

2024-01-25T01:44:47Z

RainW：

{{Infobox nodebasic
|nodename=卡方检验
|nodeimage=Chi_Square Test.png
|icon=Chi_Square Test.svg
|simpleicon=Chi_Square Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Chi_Square Test
|abbreviation=ChiSTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::频数表检验]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=卡方检验针对分类变量, 统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小。如果卡方值越大，二者偏差程度越大；卡方值越小, 二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。用途：主要用于研究分类变量，检验两个分类变量是否独立，还可用于比较两个或更多群体在分类变量上的分布是否一致。参数：选择分类变量进行检验
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Chi-Square;df;N-Size;P-Value
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/卡方检验
|previousnode=[[Fisher精确检验]]
|nextnode=[[Mantel-Haenszel检验]]
}}

卡方检验'''（也称为'''卡方'''或'''[math]χ^2[/math]检验'''）是一种在样本量较大时用于分析[[统计假设检验|统计假设测试]]的[[列联表|列联表]]的方法。简单来说，这种测试主要用于检验两个分类变量（''列联表的两个维度''）是否在影响检验统计量（''表中的数值''）时相互独立。<ref>{{Cite web |title=Chi-Square - Sociology 3112 - Department of Sociology - The University of utah |url= |access-date=2022-11-12 |website=soc.utah.edu}}</ref> 当测试统计量在[[空假设]]下服从[[卡方分布|卡方分布]]时，此测试是[[统计有效性|有效的]]，特别是[[皮尔逊卡方检验]]及其变体。皮尔逊卡方检验用于确定预期的[[频率（统计学）|频率]]与[[列联表]]中一个或多个类别的观察频率之间是否存在[[统计显著性|统计上显著的]]差异。对于样本量较小的列联表，改用[[费舍尔精确检验]]。

在这种测试的标准应用中，观察结果被归类为相互排斥的类别。如果关于人群中类别之间没有差异的[[空假设]]是真实的，那么从观察中计算出的测试统计量将遵循一个[math]χ^2[/math] [[频率分布]]。测试的目的是评估在假设空假设为真的情况下，观察到的频率出现的可能性。

当观察结果是独立的时，遵循[math]χ^2[/math]分布的测试统计量就会出现。也有基于成对观察结果的[math]χ^2[/math]测试，用于检验一对[[随机变量]]的独立性空假设。

''卡方检验''通常指的是那些测试统计量的分布在[[渐近线|渐近]]上接近[math]χ^2[/math]分布的测试，这意味着如果空假设成立，测试统计量的[[抽样分布]]会随着[[样本（统计学）|样本]]大小的增加而越来越接近卡方分布。

== '''历史''' ==
在19世纪，统计分析方法主要应用于生物数据分析，研究人员通常假设观察结果遵循[[正态分布]]，如[[乔治·艾里爵士]]和[[曼斯菲尔德·梅里曼]]的作品，这些作品被[[卡尔·皮尔逊]]在其1900年的论文中批评。
<ref name = Pearson1900>
{{cite journal
| last = Pearson | first = Karl
| author-link = Karl Pearson
| title = On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling
| journal = Philosophical Magazine |series=Series 5
| volume = 50
| issue = 302
| year = 1900
| pages = 157–175
| url = https://www.tandfonline.com/doi/abs/10.1080/14786440009463897
| doi = 10.1080/14786440009463897
}}</ref>

在19世纪末，皮尔逊注意到某些生物观察结果中存在显著的[[偏斜]]。为了对正态或偏斜的观察结果进行建模，皮尔逊在1893年至1916年间发表了一系列文章，<ref name = Pearson1893>
{{cite journal
| last = Pearson | first = Karl
| author-link = Karl Pearson
| title = Contributions to the mathematical theory of evolution [abstract]
| journal = Proceedings of the Royal Society
| volume = 54
| year = 1893
| pages = 329–333
| jstor = 115538
| doi = 10.1098/rspl.1893.0079
| doi-access = free
}}</ref><ref name = Pearson1895>
{{cite journal
| last = Pearson | first = Karl
| author-link = Karl Pearson
| title = Contributions to the mathematical theory of evolution, II: Skew variation in homogeneous material
| journal = Philosophical Transactions of the Royal Society
| volume = 186
| year = 1895
| pages = 343–414
| bibcode = 1895RSPTA.186..343P
| jstor = 90649
| doi = 10.1098/rsta.1895.0010
| url = https://zenodo.org/record/1432104
| doi-access = free
}}</ref><ref name = Pearson1901>
{{cite journal
| last = Pearson | first = Karl
| author-link = Karl Pearson
| title = Mathematical contributions to the theory of evolution, X: Supplement to a memoir on skew variation
| journal = Philosophical Transactions of the Royal Society A
| volume = 197
| issue = 287–299
| year = 1901
| pages = 443–459
| bibcode = 1901RSPTA.197..443P
| jstor = 90841
| doi = 10.1098/rsta.1901.0023
| doi-access =
}}</ref><ref name = Pearson1916>
{{cite journal
| last = Pearson | first = Karl
| author-link = Karl Pearson
| title = Mathematical contributions to the theory of evolution, XIX: Second supplement to a memoir on skew variation
| journal = Philosophical Transactions of the Royal Society A
| volume = 216
| issue = 538–548
| year = 1916
| pages = 429–457
| bibcode = 1916RSPTA.216..429P
| jstor = 91092
| doi = 10.1098/rsta.1916.0009
| doi-access = free
}}</ref> 提出了[[皮尔逊分布]]，这是一个包括正态分布和许多偏斜分布的连续[[概率分布]]家族，并提出了一种统计分析方法，即使用皮尔逊分布对观察结果进行建模，并进行适合性检验，以确定模型与观察结果的匹配程度。

=== 皮尔逊卡方检验 ===
{{另见|皮尔逊卡方检验}}

1900年，皮尔逊发表了一篇论文<ref name = Pearson1900 />关于[math]χ^2[/math]检验，这被认为是现代统计学的基础之一。<ref name = Cochran1952>
{{cite journal
| last = Cochran | first = William G.
| author-link = William G. Cochran
| title = The Chi-square Test of Goodness of Fit
| journal = The Annals of Mathematical Statistics
| volume = 23
| issue = 3
| year = 1952
| pages = 315–345
| jstor = 2236678
| doi=10.1214/aoms/1177729380
| doi-access = free
}}</ref> 在这篇论文中，皮尔逊研究了适合性检验。

假设来自人群的随机样本中的{{mvar|n}}次观测被分类到{{mvar|k}}个互斥类别中，各个类别中观测到的观测次数分别为{{mvar|xi}}（对于{{math|''i'' {{=}} 1,2,…,''k''}}），并且一个零假设给出了一个观测落入第{{mvar|i}}类的概率{{mvar|pi}}。所以我们对所有{{mvar|i}}有预期数字{{math|''mi'' {{=}} ''npi''}}，其中

:[math]\begin{align}
& \sum^k_{i=1}{p_i} = 1 \\[8pt]
& \sum^k_{i=1}{m_i} = n\sum^k_{i=1}{p_i} = n
\end{align}[/math]

皮尔逊提出，在零假设正确的情况下，随着{{math|''n'' → ∞}}，下面给出的量的极限分布是{{math|χ2}}分布。

:[math]X^2=\sum^k_{i=1}{\frac{(x_i-m_i)^2}{m_i}}=\sum^k_{i=1}{\frac{x_i^2}{m_i}-n}[/math]

皮尔逊首先处理了预期数字{{mvar|mi}}在所有单元中都足够大的已知数字的情况，假设每个观测{{mvar|xi}}可以被视为[[normal distribution|正态分布]]，并得出结论，当{{mvar|n}}变大时，{{math|''X''{{isup|2}}}}遵循{{math|χ2}}分布，自由度为{{math|''k'' − 1}}。

然而，皮尔逊接下来考虑了预期数字依赖于必须从样本中估计的参数的情况，并建议，以{{mvar|mi}}为真实预期数字，{{math|''m''′''i''}}为估计预期数字的表示方式，差异

:[math]X^2-{X'}^2=\sum^k_{i=1}{\frac{x_i^2}{m_i}}-\sum^k_{i=1}{\frac{x_i^2}{m'_i}}[/math]

通常是正的且足够小以忽略。皮尔逊最后论述，如果我们认为{{math|''X''′{{isup|2}}}}也遵循自由度为{{math|''k'' − 1}}的{{math|χ2}}分布，这种近似中的误差不会影响实际决策。这个结论在实际应用中引起了一些争议，直到费舍尔在1922年和1924年的论文中才得到解决。<ref name = Fisher1922>

{{cite journal
| last = Fisher | first = Ronald A.
| author-link = Ronald A. Fisher
| title = On the Interpretation of {{math|χ2}} from Contingency Tables, and the Calculation of P
| journal = Journal of the Royal Statistical Society
| volume = 85
| issue = 1
| year = 1922
| pages = 87–94
| jstor = 2340521
| doi=10.2307/2340521
}}

</ref><ref name = Fisher1924>
{{cite journal
| last = Fisher | first = Ronald A.
| author-link = Ronald A. Fisher
| title = The Conditions Under Which {{math|χ2}} Measures the Discrepancey Between Observation and Hypothesis
| journal = Journal of the Royal Statistical Society
| volume = 87
| issue = 3
| year = 1924
| pages = 442–450
| jstor = 2341149
}}</ref>

== '''卡方检验的其他例子''' ==

一个精确遵循[[chi-squared distribution|卡方分布]]的[[test statistic|检验统计量]]是基于[[sample variance|样本方差]]来检验一个正态分布人群的方差是否具有给定值的检验。这样的检验在实践中不常见，因为人群的真实方差通常是未知的。然而，有几个统计检验，卡方分布大致有效：

=== 费舍尔精确检验 ===
作为2 × 2卡方独立性检验的替代，使用精确检验，请参阅[[Fisher's exact test|费舍尔精确检验]]。

=== 二项式检验 ===
作为2 × 1卡方拟合优度检验的替代，使用精确检验，请参阅[[binomial test|二项式检验]]。

=== 其他卡方检验 ===
* [[Cochran–Mantel–Haenszel statistics|科克伦-曼特尔-韩泽尔卡方检验]]。
* [[McNemar's test|麦克尼马尔检验]]，用于某些{{nowrap|2 × 2}}表格中的配对。
* [[Tukey's test of additivity|图基加性检验]]。
* 在[[time-series analysis|时间序列分析]]中的[[portmanteau test|概括检验]]，用于检测[[autocorrelation|自相关]]的存在。
* 一般[[statistical model|统计模型]]中的[[Likelihood-ratio test|似然比检验]]，用于检验是否有从简单模型转向更复杂模型的必要（其中简单模型嵌套于复杂模型中）。

== '''耶茨连续性修正''' ==
{{Main|Yates's correction for continuity}}
使用[[chi-squared distribution|卡方分布]]来解释[[Pearson's chi-squared test|皮尔逊卡方统计量]]需要假设表格中观测到的[[binomial distribution|二项分布]]频率的[[Discrete probability distribution|离散]]概率可以通过连续的[[chi-squared distribution|卡方分布]]来近似。这个假设不完全正确，引入了一些误差。

为了减少近似误差，[[Frank Yates|弗兰克·耶茨]]提出了一个连续性修正，调整[[Pearson's chi-squared test|皮尔逊卡方检验]]的公式，通过在{{nowrap|2 × 2}}列联表中从每个观测值与其预期值之间的绝对差中减去0.5。<ref name=Yates>{{cite journal|author-link=Frank Yates|last=Yates|first=Frank|date=1934|title=Contingency table involving small numbers and the {{math|χ2}} test|journal=Supplement to the Journal of the Royal Statistical Society|volume=1|issue=2|pages=217–235|jstor=2983604|doi=10.2307/2983604}}</ref> 这减少了获得的卡方值，从而增加了其[[p-value|''p''-值]]。

== '''正态人群中方差的卡方检验''' ==
如果从具有[[normal distribution|正态分布]]的总体中抽取大小为{{math|''n''}}的样本，则有一个结果（见[[Variance#Distribution of the sample variance|样本方差的分布]]），允许对总体方差是否具有预先确定的值进行检验。例如，一个制造过程可能长期处于稳定状态，允许基本无误地确定方差值。假设正在测试该过程的一个变体，产生大小为{{math|''n''}}的小样本产品项，其变异需要被测试。这种情况下的检验统计量{{math|''T''}}可以设定为样本均值的平方和除以方差的名义值（即要作为有效值进行检验的值）。然后{{math|''T''}}具有自由度为{{math|''n'' − 1}}的[[Degrees of freedom (statistics)|卡方分布]]。例如，如果样本大小为21，那么在5%的显著性水平下{{math|''T''}}的接受区间在9.59到34.17之间。



=='''分类数据的卡方检验示例'''==

假设有一个拥有1,000,000居民的城市，有四个邻居：{{math|''A''}}, {{math|''B''}}, {{math|''C''}}, 和{{math|''D''}}。随机抽取该城市650名居民，记录他们的职业为[[Collar workers|"白领", "蓝领" 或 "无领"]]. 零假设是每个人的居住邻居与其职业分类无关。数据如下所示：

:{| class="wikitable" style="text-align: right;"
|-
! !! {{math|''A''}} !! {{math|''B''}} !! {{math|''C''}} !! {{math|''D''}} !! 总计
|-
|style="text-align: left;"| 白领 || 90 || 60 || 104 || 95 || 349
|-
|style="text-align: left;"| 蓝领 || 30 || 50 || 51 || 20 || 151
|-
|style="text-align: left;"| 无领 || 30 || 40 || 45 || 35 || 150
|-
!style="text-align: left;"| 总计 || 150 || 150 || 200 || 150 || 650
|}

让我们以居住在{{math|''A''}}的样本，150人，来估计整个1,000,000中有多少比例的人居住在{{math|''A''}}。同样，我们取{{sfrac|349|650}}来估计1,000,000人中有多少比例是白领。根据假设下的独立性，我们应该“期望”{{math|''A''}}的白领工人数量为

: [math] 150\times\frac{349}{650} \approx 80.54 [/math]

然后在该表格的“单元格”中，我们有

: [math]\frac{\left(\text{observed}-\text{expected}\right)^2}{\text{expected}} = \frac{\left(90-80.54\right)^2}{80.54} \approx 1.11[/math]

这些数量的总和是检验统计量；在这种情况下，[math] \approx 24.57 [/math]。在零假设下，这个总和大致具有卡方分布，其自由度数为

: [math] (\text{number of rows}-1)(\text{number of columns}-1) = (3-1)(4-1) = 6 [/math]

如果检验统计量根据该卡方分布不可信地大，则拒绝独立性的零假设。

相关问题是同质性检验。假设我们不是给每个邻居的每个居民同等机会纳入样本，而是提前决定包括每个邻居多少居民。那么每个居民被选中的机会与同一邻居的所有居民相同，但如果四个样本大小不与四个邻居的人口成比例，那么不同邻居的居民被选中的概率将不同。在这种情况下，我们正在测试“同质性”而非“独立性”。问题是四个邻居中蓝领、白领和无领工人的比例是否相同。然而，检验的方法是相同的。

=='''应用领域'''==

在[[密码分析]]中，卡方检验被用于比较[[明文]]和（可能的）解密[[密文]]的分布。测试的最低值意味着解密成功的可能性很高。<ref name=practicalcrypto>{{cite web|title=Chi-squared Statistic|url=http://practicalcryptography.com/cryptanalysis/text-characterisation/chi-squared-statistic/|website=Practical Cryptography|access-date=18 February 2015|archive-url=https://web.archive.org/web/20150218203349/http://practicalcryptography.com/cryptanalysis/text-characterisation/chi-squared-statistic/|archive-date=18 February 2015|url-status=dead}}</ref><ref name=ibmath>{{cite web|title=Using Chi Squared to Crack Codes|url=http://ibmathsresources.com/2014/06/15/using-chi-squared-to-crack-codes/|website=IB Maths Resources|date=15 June 2014 |publisher=British International School Phuket}}</ref> 这种方法可以泛化用于解决现代密码学问题。<ref name=elsevier>{{cite journal|last1=Ryabko|first1=B. Ya.|last2=Stognienko|first2=V. S.|last3=Shokin|first3=Yu. I.|title=A new test for randomness and its application to some cryptographic problems|journal=Journal of Statistical Planning and Inference|date=2004|volume=123|issue=2|pages=365–376|url=http://boris.ryabko.net/jspi.pdf|access-date=18 February 2015|doi=10.1016/s0378-3758(03)00149-6}}</ref>

在[[生物信息学]]中，卡方检验用于比较属于不同类别（例如，疾病基因、必要基因、特定染色体上的基因等）的基因的某些特性（例如，基因组内容、突变率、相互作用网络聚类等）的分布。<ref name=pnas-bics>{{cite journal|last1=Feldman|first1=I.|last2=Rzhetsky|first2=A.|last3=Vitkup|first3=D.|title=Network properties of genes harboring inherited disease mutations|journal=PNAS|date=2008|volume=105|issue=11|pages=4323–432|doi=10.1073/pnas.0701722105|bibcode=2008PNAS..105.4323F|pmc=2393821|pmid=18326631|doi-access=free}}</ref><ref name=chi-bics>{{cite web|title=chi-square-tests|url=https://visa.pharmacy.wsu.edu/bioinformatics/documents/chi-square-tests.pdf|access-date=29 June 2018|archive-url=https://web.archive.org/web/20180629131548/https://visa.pharmacy.wsu.edu/bioinformatics/documents/chi-square-tests.pdf|archive-date=29 June 2018|url-status=dead}}</ref>

== '''节点使用的R语言示例代码''' ==
=== 卡方检验 ===
<syntaxhighlight lang="R">

chisq.test(x, y = NULL, correct = TRUE,
p = rep(1/length(x), length(x)), rescale.p = FALSE,
simulate.p.value = FALSE, B = 2000)

</syntaxhighlight>

== '''节点使用指南''' ==
* 用来检验观测值和期望值之间是否有显著差异的非参数检验方法
* 用于两个或多个类别数据之间的关系分析
* 用于检验两个变量之间是否独立

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量1：选择一个离散型分类变量
* 统计变量2：选择一个或多个离散型分类变量，每一个变量与变量1做一次卡方检验
* 是否连续校正：是否应用Yates的连续性修正。Yates的连续性修正通过在每个单元格的差值中减去0.5来解决这个问题。这就使得差值和期望频数的差距变小，从而减小了卡方统计量的值，使得P值变大，降低了过度拒真的可能性。
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 所有期望频数应大于5；如果不是，考虑合并类别或使用精确概率方法
* 卡方检验对样本量敏感，较大的样本可能导致小的差异也显著

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:频数表检验]]

McNemar检验

2024-01-25T01:25:56Z

RainW：

{{Infobox nodebasic
|nodename=McNemar检验
|nodeimage=McNemar Test.png
|icon=McNemar Test.svg
|simpleicon=McNemar Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=McNemar Test
|abbreviation=McNeTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::频数表检验]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=McNemar检验是用于配对名义数据的统计检验, 又称非独立样本比率数的卡方检验。它应用于具有二分特征的2 × 2列联表，变量需要是二分类, 具有匹配的主题对，以确定行和列的边际频率是否相等,即是否存在边际同质性。例如：由失败变成功或由否变是的比例是否相等, 探讨事件发生前后表格内比例是否有显著改变。用途：一种非参数统计方法，用于分析两个配对的分类变量之间的关系，特别是在前后重复测量设计中。也用于分析在两个时间点或两种不同条件下，同一组受试者的分类结果是否有显著差异。参数：选择二分类变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Chi-Value;P-Value;df
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/McNemar检验
|previousnode=[[Mantel-Haenszel检验]]
|nextnode=[[G检验]]
}}

在[[统计学]]领域中，'''麦克尼马尔检验'''（McNemar's test）是一种应用于[[Blocking (statistics)|成对]][[名义数据]]的统计检验方法。它用于2 × 2的[[列联表]]，其中特征为[[二分]]，对配对的受试对象进行匹配，以确定行和列边际频率是否相等（即是否存在"边际同质性"）。该检验以[[Quinn McNemar]]命名，他于1947年首次提出此方法。<ref name=McNemar1947>{{Cite journal| doi = 10.1007/BF02295996| volume = 12| issue = 2| pages = 153–157| last = McNemar| first = Quinn| title = Note on the sampling error of the difference between correlated proportions or percentages| journal = Psychometrika| date = June 18, 1947| pmid = 20254758| s2cid = 46226024}}</ref> 该检验在遗传学中的应用是用于检测[[连锁不平衡]]的[[传输不平衡检验]]。<ref name=Spielman93>{{cite journal |author1=Spielman RS |author2 = McGinnis RE | author3= Ewens WJ | author-link3= Warren Ewens | title=Transmission test for linkage disequilibrium: the insulin gene region and insulin-dependent diabetes mellitus (IDDM) |journal=Am J Hum Genet |volume=52 |issue=3 |pages=506–16 |date=Mar 1993 |pmid=8447318 |pmc=1682161 }}</ref>

在医学科学中评估[[Medical test|诊断测试]]时常用的参数是[[灵敏度和特异性]]。灵敏度（或召回率）是指测试准确识别出患病人群的能力。特异性是指测试准确识别出未患病人群的能力。

现在假设对同一组患者进行了两项测试。并且假设这些测试的灵敏度和特异性相同。在这种情况下，人们可能会被这些发现所误导，认为两项测试是等效的。然而，情况可能并非如此。为此，我们必须研究患病和未患病的患者（通过参考测试）。我们还必须找出这两项测试之间的不一致之处。这正是麦克尼马尔检验的基础。这项检验比较了两个诊断测试对同一组患者的灵敏度和特异性。<ref>{{Cite journal|last=Hawass|first=N E|date=April 1997|title=Comparing the sensitivities and specificities of two diagnostic procedures performed on the same group of patients.|journal=The British Journal of Radiology|volume=70|issue=832|pages=360–366|doi=10.1259/bjr.70.832.9166071|pmid=9166071|issn=0007-1285}}</ref>

=='''定义'''==
该检验应用于一个2 × 2的列联表，该表格统计了对''N''个受试者进行的两项测试的结果，如下所示。
{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || Test 2 positive || Test 2 negative || Row total
|-
| Test 1 positive || ''a'' || ''b'' || ''a'' + ''b''
|-
| Test 1 negative || ''c'' || ''d'' || ''c'' + ''d''
|-
| Column total || ''a'' + ''c'' || ''b'' + ''d'' || ''N''
|}
边际同质性的[[零假设]]指的是每个结果的两个边际概率相同，即''p''''a'' + ''p''''b'' = ''p''''a'' + ''p''''c'' 以及 ''p''''c'' + ''p''''d'' = ''p''''b'' + ''p''''d''。

因此，零假设和备选假设为<ref name=McNemar1947/>

[math]\begin{array}{l}H_{0}: p_{b}=p_{c} \\ H_{1}: p_{b} \neq p_{c}\end{array}[/math]

这里''p''''a''等表示对应单元格中发生概率的理论值。

麦克尼马尔的[[检验统计量]]为：

:[math]\chi^2 = {(b-c)^2 \over b+c}.[/math]

在零假设下，如果不一致单元格（b和c单元格）的数量足够大，[math]\chi^2[/math]将服从自由度为1的[[卡方分布]]。如果[math]\chi^2[/math]结果是[[统计显著性|显著的]]，这提供了拒绝零假设的充分证据，支持''pb'' ≠ ''pc''的备选假设，这意味着边际比例彼此显著不同。

===变体===
如果''b''或''c''较小（''b'' + ''c'' < 25），则[math]\chi^2[/math]不能很好地近似为卡方分布。{{Citation needed|date=June 2011}} 这时可以使用精确的二项式检验，其中''b''与参数为''n'' = ''b'' + ''c'' 和 ''p'' = 0.5的[[二项分布]]进行比较。实际上，精确二项式检验评估了不一致性''b''和''c''的不平衡。为了获得双侧P值，应该将极端尾部的P值乘以2。对于''b'' ≥ ''c''：

: [math] \text{exact-P-value} = 2 \sum_{i=b}^{n} {n\choose i}0.5^i(1-0.5)^{n-i},[/math]

这实际上是''p'' = 0.5和''n'' = ''b'' + ''c''的二项分布[[累积分布函数]]的两倍。

Edwards<ref name=Edwards1948>{{Cite journal| volume = 13| issue = 3| pages = 185–187| last = Edwards| first = A| title = Note on the "correction for continuity" in testing the significance of the difference between correlated proportions| journal = Psychometrika| date = 1948| doi=10.1007/bf02289261| pmid = 18885738| s2cid = 33607853}}</ref> 提出了麦克尼马尔检验的连续性校正版本，以近似二项式精确P值：
:[math]\chi^2 = {(|b-c|-1)^2 \over b+c}.[/math]

中位P值的麦克尼马尔检验（中位P值二项式检验）是通过从精确的单侧P值中减去观察到的''b''的概率的一半，然后加倍以获得双侧中位P值：<ref name=Lancaster1961>{{Cite journal| volume = 56| issue = 294| pages = 223–234| last = Lancaster| first = H.O.| title = Significance tests in discrete distributions.| journal = J Am Stat Assoc| date = 1961| doi=10.1080/01621459.1961.10482105}}</ref><ref name=Fagerland2013>{{Cite journal
| volume = 13
| pages = 91
| last1 = Fagerland| first1 = M.W.
| last2 = Lydersen| first2 = S.
| last3 = Laake| first3 = P.
| title = The McNemar test for binary matched-pairs data: mid-p and asymptotic are better than exact conditional
| journal = BMC Medical Research Methodology
| date = 2013
| doi=10.1186/1471-2288-13-91| pmid = 23848987
| pmc = 3716987
| doi-access = free
}}</ref>

: [math] \text{mid-p-value} = 2 \left( \sum_{i=b}^n {n\choose i} 0.5^i (1-0.5)^{n-i} - 0.5 {n\choose b} 0.5^b (1-0.5)^{n-b} \right)[/math]

这等同于：

: [math] \text{mid-p-value} = \text{exact-p-value} - {n\choose b}0.5^b(1-0.5)^{n-b}[/math]

其中第二项是二项分布[[probability mass function]]，且''n'' = ''b'' + ''c''。二项分布函数在常见软件包中都可轻松获得，因此可以轻松计算McNemar中P检验。<ref name=Fagerland2013 />

传统建议是当''b'' + ''c'' < 25时使用精确的二项式检验。然而，模拟研究显示，精确的二项式检验和连续性校正的McNemar检验都过于保守。<ref name=Fagerland2013 /> 当''b'' + ''c'' < 6时，精确P值总是超过常见的显著性水平0.05。原始的McNemar检验最有力，但通常稍微自由。中P版本几乎和渐近McNemar检验一样有力，并且没有发现超过名义显著性水平。

=='''例子'''==

在第一个例子中，研究者试图确定一种药物对特定疾病的效果。有314名患者，在使用药物前后都进行了诊断（疾病：''存在''或''不存在''），这意味着每个样本可以用4种组合中的1种来描述。
表中给出了个体的计数，治疗前的诊断（疾病：''存在''或''不存在''）在行中给出，治疗后的诊断在列中给出。测试要求在治疗前后的测量中包含相同的受试者（匹配对）。

{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || '''治疗后：''' 存在|| '''治疗后：''' 不存在|| 行总计
|-
| '''治疗前：''' 存在|| 101 || 121 || 222
|-
| '''治疗前：''' 不存在|| 59 || 33 || 92
|-
| 列总计 || 160 || 154 || 314
|}

在这个例子中，"边际同质性"的零假设意味着治疗没有效果。根据上述数据，McNemar检验统计量：

:[math]\chi^2 = {(121 - 59)^2 \over {121 + 59}}[/math]

的值是21.35，这在零假设所暗示的分布中极不可能出现（''p'' < 0.001）。因此，该测试为拒绝无治疗效果的零假设提供了强有力的证据。

第二个例子说明了渐近McNemar检验和其他替代方法之间的差异。<ref name=Fagerland2013 /> 数据表的格式如前所述，但单元格中的数字不同：
{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || '''治疗后：''' 存在|| '''治疗后：''' 不存在|| 行总计
|-
| '''治疗前：''' 存在|| 59 || 6 || 65
|-
| '''治疗前：''' 不存在|| 16 || 80 || 96
|-
| 列总计 || 75 || 86 || 161
|}

对于这些数据，样本量（161名患者）并不小，但McNemar检验和其他版本的结果不同。精确的二项式检验给出''p'' = 0.053，带连续性校正的McNemar检验给出[math]\chi^2[/math] = 3.68和''p'' = 0.055。渐近McNemar检验给出[math]\chi^2[/math] = 4.55和''p'' = 0.033，中P McNemar检验给出''p'' = 0.035。在这第二个例子中，McNemar检验和中P版本都为统计学上显著的治疗效果提供了更强的证据。

=='''讨论'''==

解释McNemar检验时的一个有趣观察是，主对角线的元素不会对决定（在上述示例中）治疗前或治疗后条件是否更有利产生贡献。因此，即使''a'' + ''b'' + ''c'' + ''d''的对数很大（参见上面的第二个例子），''b'' + ''c''的和可以很小，上述测试的统计功效也可以很低。

麦克尼马尔检验的扩展存在于成对数据间不必然独立的情况；相反，存在成对数据的集群，集群内的成对数据可能不独立，但不同集群间保持独立性。<ref>{{Cite journal | doi = 10.1002/bimj.201000035 | title = 关于成群匹配成对二元数据的测试的注记 | year = 2010 | journal = 生物统计学杂志 | pages = 638–652 | volume = 52 | issue = 5 | last1 = 杨 | first1 = Z. | last2 = 孙 | first2 = X. | last3 = 哈丁 | first3 = J.W. | pmid = 20976694| s2cid = 29461324 }}</ref> 一个例子是分析牙科手术的效果；在这种情况下，一对对应于对患者的单个牙齿的治疗；同一患者两颗牙齿的治疗效果可能不独立，但不同患者两颗牙齿的治疗效果更可能独立。<ref>{{Cite journal | doi = 10.1002/sim.1438 | url = http://www3.interscience.wiley.com/journal/104545274/abstract | archive-url = https://archive.today/20130105071155/http://www3.interscience.wiley.com/journal/104545274/abstract | url-status = dead | archive-date = January 5, 2013 | title = 成群匹配成对数据的分析 | year = 2003 | journal = 医学统计学 | pages = 2417–28 | volume = 22 | issue = 15 | last1 = Durkalski | first1 = V.L. | last2 = Palesch | first2 = Y.Y. | last3 = Lipsitz | first3 = S.R. | last4 = Rust | first4 = P.F. | access-date = April 1, 2009 | pmid = 12872299 | s2cid = 25909362 }}</ref>

===配对信息===

在1970年代，人们推测保留扁桃体可能有助于预防[[霍奇金淋巴瘤]]。约翰·赖斯写道：<ref name=Rice1995>{{cite book | year=1995| author=Rice, John | title = Mathematical Statistics and Data Analysis | url=https://archive.org/details/mathematicalstat00rice_559| url-access=limited| edition=Second | publisher= [[Duxbury Press]] | location=Belmont, California | isbn=978-0-534-20934-6 | pages=[https://archive.org/details/mathematicalstat00rice_559/page/n510 492]–494 }}</ref>
<blockquote>
85名霍奇金病（Hodgkin's）患者……拥有一个同性别的兄弟姐妹，这位兄弟姐妹未患此病且其年龄与患者相差不超过5年。这些研究者展示了以下表格：

[math]\begin{array}{c|c|c}
\hline & Tonsillectomy & No tonsillectomy \\
\hline Hodgkins & 41 & 44 \\
\hline Control & 33 & 52
\end{array}[/math]

他们计算了一个[[chi-squared test|卡方统计量]]……[他们]在分析中犯了一个错误，忽视了配对……[他们的]样本并不独立，因为兄弟姐妹是配对的……我们建立了一个展示配对的表格：

[math]
\begin{array}{cc}
& \text{Sibling} \\
\text{Patient} &
\begin{array}{c|c|c}
\hline & \text{No tonsillectomy} & \text{Tonsillectomy} \\
\hline\text{No tonsillectomy} & 37 & 7 \\
\hline\text{Tonsillectomy} & 15 & 26
\end{array}
\end{array}
[/math]
</blockquote>
麦克内马尔检验可以应用于第二张表格。注意，第二张表格中的数字总和是85——兄弟姐妹的“对”数——而第一张表格中的数字总和是170的两倍——个体的数量。第二张表格提供的信息比第一张更多。第一张表格中的数字可以通过使用第二张表格中的数字找到，但反之则不行。第一张表格中的数字仅提供了第二张表格中数字的边际总和。麦克内马尔检验允许比较15和7对兄弟姐妹以前接受过不同的扁桃体治疗，作为与假设相关，同时忽略了信息较少的37和26对兄弟姐妹以前都接受过治疗或都没有。

== '''相关测试''' ==
* 二项式[[sign test|符号检验]]为McNemar检验提供了一个精确测试。
* [[Cochran's Q test|科克兰Q检验]]是McNemar检验的扩展，适用于两种以上的“处理”。
* [[Liddell's exact test|利德尔精确检验]]是McNemar检验的一个精确替代。<ref>{{cite journal|jstor=2988087|pages=295–304|last1=Liddell|first1=D.|title=Practical Tests of 2 × 2 Contingency Tables|volume=25|issue=4|journal=Journal of the Royal Statistical Society|year=1976|doi=10.2307/2988087 }}</ref><ref>{{cite web|url=http://rimarcik.com/en/navigator/z-nominal.html |title=Maxwell's test, McNemar's test, Kappa test |publisher=Rimarcik.com |access-date=2012-11-22}}</ref>
* [[Stuart–Maxwell test|斯图尔特-马克斯韦尔检验]]是McNemar检验的不同推广，用于测试超过两行/列的正方形表中的边际同质性。<ref>{{cite web|url=http://www2.sas.com/proceedings/forum2008/382-2008.pdf|title=Generalized McNemar's Test for Homogeneity of the Marginal Distributions|first1=Xuezheng|last1=Sun|first2=Zhao|last2=Yang|publisher=[[SAS (software)|SAS]] Global Forum|year=2008}}</ref><ref>{{cite journal|jstor=2333387|title=A Test for Homogeneity of the Marginal Distributions in a Two-Way Classification|journal=Biometrika|volume=42|issue=3/4|pages=412–416|first1=Alan|last1=Stuart|year=1955|doi=10.1093/biomet/42.3-4.412}}</ref><ref>{{cite journal|title=Comparing the Classification of Subjects by Two Independent Judges|journal=The British Journal of Psychiatry|volume=116|issue=535|pages=651–655|first1=A.E.|last1=Maxwell|year=1970|doi=10.1192/bjp.116.535.651|pmid=5452368|s2cid=9211848 }}</ref>
* [[Bhapkar's test|巴普卡检验]] (1966) 是斯图尔特-马克斯韦尔检验的一个更强大的替代品,<ref>{{cite web|url=http://www.john-uebersax.com/stat/mcnemar.htm#bhapkar |title=McNemar Tests of Marginal Homogeneity |publisher=John-uebersax.com |date=2006-08-30 |access-date=2012-11-22}}</ref><ref>{{cite journal|jstor=2283057|title=A Note on the Equivalence of Two Test Criteria for Hypotheses in Categorical Data|journal=Journal of the American Statistical Association|volume=61|issue=313|pages=228–235|first1=V.P.|last1= Bhapkar|year=1966|doi=10.1080/01621459.1966.10502021}}</ref> 但它倾向于偏自由。现有方法的竞争性替代品是可用的。<ref>{{Cite journal
| doi = 10.1177/0092861512442021
| title = Testing Marginal Homogeneity in Matched-Pair Polytomous Data
| year = 2012
| journal = Therapeutic Innovation & Regulatory Science
| pages = 434–438
| volume = 46
| issue = 4
| last1 = Yang | first1 = Z.
| last2 = Sun | first2 = X.
| last3 = Hardin | first3 = J.W.| s2cid = 123109340
}}</ref>
* McNemar检验是[[Cochran–Mantel–Haenszel test|科克兰-曼特尔-汉斯泽尔检验]]的一个特例；它相当于一个CMH检验，每对N对中有一个阶层，在每个阶层中，有一个2x2表显示成对的二元响应。<ref>{{cite book |last=Agresti |first=Alan |date=2002 |title=Categorical Data Analysis |url=https://mathdept.iut.ac.ir/sites/mathdept.iut.ac.ir/files/AGRESTI.PDF |location=Hooken, New Jersey |publisher= John Wiley & Sons, Inc. |page=413 |isbn=978-0-471-36093-3}}</ref>

== '''节点使用的R语言示例代码''' ==
=== McNemar检验 ===
<syntaxhighlight lang="R">

mcnemar.test(x, y = NULL, correct = TRUE)

</syntaxhighlight>

== '''节点使用指南''' ==
* 一种非参数统计检验，用于配对名义数据
* 适用于研究设计中的“前-后”比较，或者任何两个条件在相同的样本上得到的二分类结果
* 通常用于判断两种治疗方法、诊断测试或任何两种条件下是否存在差异

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量1：选择二分类变量
* 统计变量2：选择一个或多个二分类变量，每个变量将与变量1做一次McNemar检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* McNemar检验不适用于独立样本，也不适用于多于两个时间点的数据
* 当数据包含大量配对中只有一个条件为正面或负面的情况时，标准的McNemar检验可能过于保守

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:频数表检验]]

McNemar检验

2024-01-24T09:23:10Z

RainW：

{{Infobox nodebasic
|nodename=McNemar检验
|nodeimage=McNemar Test.png
|icon=McNemar Test.svg
|simpleicon=McNemar Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=McNemar Test
|abbreviation=McNeTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::频数表检验]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=McNemar检验是用于配对名义数据的统计检验, 又称非独立样本比率数的卡方检验。它应用于具有二分特征的2 × 2列联表，变量需要是二分类, 具有匹配的主题对，以确定行和列的边际频率是否相等,即是否存在边际同质性。例如：由失败变成功或由否变是的比例是否相等, 探讨事件发生前后表格内比例是否有显著改变。用途：一种非参数统计方法，用于分析两个配对的分类变量之间的关系，特别是在前后重复测量设计中。也用于分析在两个时间点或两种不同条件下，同一组受试者的分类结果是否有显著差异。参数：选择二分类变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Chi-Value;P-Value;df
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/McNemar检验
|previousnode=[[Mantel-Haenszel检验]]
|nextnode=[[G检验]]
}}

在[[统计学]]领域中，'''麦克尼马尔检验'''（McNemar's test）是一种应用于[[Blocking (statistics)|成对]][[名义数据]]的统计检验方法。它用于2 × 2的[[列联表]]，其中特征为[[二分]]，对配对的受试对象进行匹配，以确定行和列边际频率是否相等（即是否存在"边际同质性"）。该检验以[[Quinn McNemar]]命名，他于1947年首次提出此方法。<ref name=McNemar1947>{{Cite journal| doi = 10.1007/BF02295996| volume = 12| issue = 2| pages = 153–157| last = McNemar| first = Quinn| title = Note on the sampling error of the difference between correlated proportions or percentages| journal = Psychometrika| date = June 18, 1947| pmid = 20254758| s2cid = 46226024}}</ref> 该检验在遗传学中的应用是用于检测[[连锁不平衡]]的[[传输不平衡检验]]。<ref name=Spielman93>{{cite journal |author1=Spielman RS |author2 = McGinnis RE | author3= Ewens WJ | author-link3= Warren Ewens | title=Transmission test for linkage disequilibrium: the insulin gene region and insulin-dependent diabetes mellitus (IDDM) |journal=Am J Hum Genet |volume=52 |issue=3 |pages=506–16 |date=Mar 1993 |pmid=8447318 |pmc=1682161 }}</ref>

在医学科学中评估[[Medical test|诊断测试]]时常用的参数是[[灵敏度和特异性]]。灵敏度（或召回率）是指测试准确识别出患病人群的能力。特异性是指测试准确识别出未患病人群的能力。

现在假设对同一组患者进行了两项测试。并且假设这些测试的灵敏度和特异性相同。在这种情况下，人们可能会被这些发现所误导，认为两项测试是等效的。然而，情况可能并非如此。为此，我们必须研究患病和未患病的患者（通过参考测试）。我们还必须找出这两项测试之间的不一致之处。这正是麦克尼马尔检验的基础。这项检验比较了两个诊断测试对同一组患者的灵敏度和特异性。<ref>{{Cite journal|last=Hawass|first=N E|date=April 1997|title=Comparing the sensitivities and specificities of two diagnostic procedures performed on the same group of patients.|journal=The British Journal of Radiology|volume=70|issue=832|pages=360–366|doi=10.1259/bjr.70.832.9166071|pmid=9166071|issn=0007-1285}}</ref>

=='''定义'''==
该检验应用于一个2 × 2的列联表，该表格统计了对''N''个受试者进行的两项测试的结果，如下所示。
{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || Test 2 positive || Test 2 negative || Row total
|-
| Test 1 positive || ''a'' || ''b'' || ''a'' + ''b''
|-
| Test 1 negative || ''c'' || ''d'' || ''c'' + ''d''
|-
| Column total || ''a'' + ''c'' || ''b'' + ''d'' || ''N''
|}
边际同质性的[[零假设]]指的是每个结果的两个边际概率相同，即''p''''a'' + ''p''''b'' = ''p''''a'' + ''p''''c'' 以及 ''p''''c'' + ''p''''d'' = ''p''''b'' + ''p''''d''。

因此，零假设和备选假设为<ref name=McNemar1947/>

[math]\begin{array}{l}H_{0}: p_{b}=p_{c} \\ H_{1}: p_{b} \neq p_{c}\end{array}[/math]

这里''p''''a''等表示对应单元格中发生概率的理论值。

麦克尼马尔的[[检验统计量]]为：

:[math]\chi^2 = {(b-c)^2 \over b+c}.[/math]

在零假设下，如果不一致单元格（b和c单元格）的数量足够大，[math]\chi^2[/math]将服从自由度为1的[[卡方分布]]。如果[math]\chi^2[/math]结果是[[统计显著性|显著的]]，这提供了拒绝零假设的充分证据，支持''pb'' ≠ ''pc''的备选假设，这意味着边际比例彼此显著不同。

===变体===
如果''b''或''c''较小（''b'' + ''c'' < 25），则[math]\chi^2[/math]不能很好地近似为卡方分布。{{Citation needed|date=June 2011}} 这时可以使用精确的二项式检验，其中''b''与参数为''n'' = ''b'' + ''c'' 和 ''p'' = 0.5的[[二项分布]]进行比较。实际上，精确二项式检验评估了不一致性''b''和''c''的不平衡。为了获得双侧P值，应该将极端尾部的P值乘以2。对于''b'' ≥ ''c''：

: [math] \text{exact-P-value} = 2 \sum_{i=b}^{n} {n\choose i}0.5^i(1-0.5)^{n-i},[/math]

这实际上是''p'' = 0.5和''n'' = ''b'' + ''c''的二项分布[[累积分布函数]]的两倍。

Edwards<ref name=Edwards1948>{{Cite journal| volume = 13| issue = 3| pages = 185–187| last = Edwards| first = A| title = Note on the "correction for continuity" in testing the significance of the difference between correlated proportions| journal = Psychometrika| date = 1948| doi=10.1007/bf02289261| pmid = 18885738| s2cid = 33607853}}</ref> 提出了麦克尼马尔检验的连续性校正版本，以近似二项式精确P值：
:[math]\chi^2 = {(|b-c|-1)^2 \over b+c}.[/math]

中位P值的麦克尼马尔检验（中位P值二项式检验）是通过从精确的单侧P值中减去观察到的''b''的概率的一半，然后加倍以获得双侧中位P值：<ref name=Lancaster1961>{{Cite journal| volume = 56| issue = 294| pages = 223–234| last = Lancaster| first = H.O.| title = Significance tests in discrete distributions.| journal = J Am Stat Assoc| date = 1961| doi=10.1080/01621459.1961.10482105}}</ref><ref name=Fagerland2013>{{Cite journal
| volume = 13
| pages = 91
| last1 = Fagerland| first1 = M.W.
| last2 = Lydersen| first2 = S.
| last3 = Laake| first3 = P.
| title = The McNemar test for binary matched-pairs data: mid-p and asymptotic are better than exact conditional
| journal = BMC Medical Research Methodology
| date = 2013
| doi=10.1186/1471-2288-13-91| pmid = 23848987
| pmc = 3716987
| doi-access = free
}}</ref>

: [math] \text{mid-p-value} = 2 \left( \sum_{i=b}^n {n\choose i} 0.5^i (1-0.5)^{n-i} - 0.5 {n\choose b} 0.5^b (1-0.5)^{n-b} \right)[/math]

这等同于：

: [math] \text{mid-p-value} = \text{exact-p-value} - {n\choose b}0.5^b(1-0.5)^{n-b}[/math]

其中第二项是二项分布[[probability mass function]]，且''n'' = ''b'' + ''c''。二项分布函数在常见软件包中都可轻松获得，因此可以轻松计算McNemar中P检验。<ref name=Fagerland2013 />

传统建议是当''b'' + ''c'' < 25时使用精确的二项式检验。然而，模拟研究显示，精确的二项式检验和连续性校正的McNemar检验都过于保守。<ref name=Fagerland2013 /> 当''b'' + ''c'' < 6时，精确P值总是超过常见的显著性水平0.05。原始的McNemar检验最有力，但通常稍微自由。中P版本几乎和渐近McNemar检验一样有力，并且没有发现超过名义显著性水平。

=='''例子'''==

在第一个例子中，研究者试图确定一种药物对特定疾病的效果。有314名患者，在使用药物前后都进行了诊断（疾病：''存在''或''不存在''），这意味着每个样本可以用4种组合中的1种来描述。
表中给出了个体的计数，治疗前的诊断（疾病：''存在''或''不存在''）在行中给出，治疗后的诊断在列中给出。测试要求在治疗前后的测量中包含相同的受试者（匹配对）。

{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || '''治疗后：''' 存在|| '''治疗后：''' 不存在|| 行总计
|-
| '''治疗前：''' 存在|| 101 || 121 || 222
|-
| '''治疗前：''' 不存在|| 59 || 33 || 92
|-
| 列总计 || 160 || 154 || 314
|}

在这个例子中，"边际同质性"的零假设意味着治疗没有效果。根据上述数据，McNemar检验统计量：

:[math]\chi^2 = {(121 - 59)^2 \over {121 + 59}}[/math]

的值是21.35，这在零假设所暗示的分布中极不可能出现（''p'' < 0.001）。因此，该测试为拒绝无治疗效果的零假设提供了强有力的证据。

第二个例子说明了渐近McNemar检验和其他替代方法之间的差异。<ref name=Fagerland2013 /> 数据表的格式如前所述，但单元格中的数字不同：
{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || '''治疗后：''' 存在|| '''治疗后：''' 不存在|| 行总计
|-
| '''治疗前：''' 存在|| 59 || 6 || 65
|-
| '''治疗前：''' 不存在|| 16 || 80 || 96
|-
| 列总计 || 75 || 86 || 161
|}

对于这些数据，样本量（161名患者）并不小，但McNemar检验和其他版本的结果不同。精确的二项式检验给出''p'' = 0.053，带连续性校正的McNemar检验给出[math]\chi^2[/math] = 3.68和''p'' = 0.055。渐近McNemar检验给出[math]\chi^2[/math] = 4.55和''p'' = 0.033，中P McNemar检验给出''p'' = 0.035。在这第二个例子中，McNemar检验和中P版本都为统计学上显著的治疗效果提供了更强的证据。

=='''讨论'''==

解释McNemar检验时的一个有趣观察是，主对角线的元素不会对决定（在上述示例中）治疗前或治疗后条件是否更有利产生贡献。因此，即使''a'' + ''b'' + ''c'' + ''d''的对数很大（参见上面的第二个例子），''b'' + ''c''的和可以很小，上述测试的统计功效也可以很低。

麦克尼马尔检验的扩展存在于成对数据间不必然独立的情况；相反，存在成对数据的集群，集群内的成对数据可能不独立，但不同集群间保持独立性。<ref>{{Cite journal | doi = 10.1002/bimj.201000035 | title = 关于成群匹配成对二元数据的测试的注记 | year = 2010 | journal = 生物统计学杂志 | pages = 638–652 | volume = 52 | issue = 5 | last1 = 杨 | first1 = Z. | last2 = 孙 | first2 = X. | last3 = 哈丁 | first3 = J.W. | pmid = 20976694| s2cid = 29461324 }}</ref> 一个例子是分析牙科手术的效果；在这种情况下，一对对应于对患者的单个牙齿的治疗；同一患者两颗牙齿的治疗效果可能不独立，但不同患者两颗牙齿的治疗效果更可能独立。<ref>{{Cite journal | doi = 10.1002/sim.1438 | url = http://www3.interscience.wiley.com/journal/104545274/abstract | archive-url = https://archive.today/20130105071155/http://www3.interscience.wiley.com/journal/104545274/abstract | url-status = dead | archive-date = January 5, 2013 | title = 成群匹配成对数据的分析 | year = 2003 | journal = 医学统计学 | pages = 2417–28 | volume = 22 | issue = 15 | last1 = Durkalski | first1 = V.L. | last2 = Palesch | first2 = Y.Y. | last3 = Lipsitz | first3 = S.R. | last4 = Rust | first4 = P.F. | access-date = April 1, 2009 | pmid = 12872299 | s2cid = 25909362 }}</ref>

===配对信息===

在1970年代，人们推测保留扁桃体可能有助于预防[[霍奇金淋巴瘤]]。约翰·赖斯写道：<ref name=Rice1995>{{cite book | year=1995| author=Rice, John | title = Mathematical Statistics and Data Analysis | url=https://archive.org/details/mathematicalstat00rice_559| url-access=limited| edition=Second | publisher= [[Duxbury Press]] | location=Belmont, California | isbn=978-0-534-20934-6 | pages=[https://archive.org/details/mathematicalstat00rice_559/page/n510 492]–494 }}</ref>
<blockquote>
85名霍奇金病（Hodgkin's）患者……拥有一个同性别的兄弟姐妹，这位兄弟姐妹未患此病且其年龄与患者相差不超过5年。这些研究者展示了以下表格：

[math]\begin{array}{c|c|c}
\hline & Tonsillectomy & No tonsillectomy \\
\hline Hodgkins & 41 & 44 \\
\hline Control & 33 & 52
\end{array}[/math]

他们计算了一个[[chi-squared test|卡方统计量]]……[他们]在分析中犯了一个错误，忽视了配对……[他们的]样本并不独立，因为兄弟姐妹是配对的……我们建立了一个展示配对的表格：

[math]\begin{array}{cc|c|c}
& \multicolumn{3}{c}{ Sibling } \\
\hline { 2 - 4 } Patient & No tonsillectomy & Tonsillectomy \\
\hline { 2 - 4 } & No tonsillectomy & 37 & 7 \\
\hline { 2 - 4 } Tonsillectomy & 15 & 26
\end{array}[/math]
</blockquote>
麦克内马尔检验可以应用于第二张表格。注意，第二张表格中的数字总和是85——兄弟姐妹的“对”数——而第一张表格中的数字总和是170的两倍——个体的数量。第二张表格提供的信息比第一张更多。第一张表格中的数字可以通过使用第二张表格中的数字找到，但反之则不行。第一张表格中的数字仅提供了第二张表格中数字的边际总和。麦克内马尔检验允许比较15和7对兄弟姐妹以前接受过不同的扁桃体治疗，作为与假设相关，同时忽略了信息较少的37和26对兄弟姐妹以前都接受过治疗或都没有。

== '''相关测试''' ==
* 二项式[[sign test|符号检验]]为McNemar检验提供了一个精确测试。
* [[Cochran's Q test|科克兰Q检验]]是McNemar检验的扩展，适用于两种以上的“处理”。
* [[Liddell's exact test|利德尔精确检验]]是McNemar检验的一个精确替代。<ref>{{cite journal|jstor=2988087|pages=295–304|last1=Liddell|first1=D.|title=Practical Tests of 2 × 2 Contingency Tables|volume=25|issue=4|journal=Journal of the Royal Statistical Society|year=1976|doi=10.2307/2988087 }}</ref><ref>{{cite web|url=http://rimarcik.com/en/navigator/z-nominal.html |title=Maxwell's test, McNemar's test, Kappa test |publisher=Rimarcik.com |access-date=2012-11-22}}</ref>
* [[Stuart–Maxwell test|斯图尔特-马克斯韦尔检验]]是McNemar检验的不同推广，用于测试超过两行/列的正方形表中的边际同质性。<ref>{{cite web|url=http://www2.sas.com/proceedings/forum2008/382-2008.pdf|title=Generalized McNemar's Test for Homogeneity of the Marginal Distributions|first1=Xuezheng|last1=Sun|first2=Zhao|last2=Yang|publisher=[[SAS (software)|SAS]] Global Forum|year=2008}}</ref><ref>{{cite journal|jstor=2333387|title=A Test for Homogeneity of the Marginal Distributions in a Two-Way Classification|journal=Biometrika|volume=42|issue=3/4|pages=412–416|first1=Alan|last1=Stuart|year=1955|doi=10.1093/biomet/42.3-4.412}}</ref><ref>{{cite journal|title=Comparing the Classification of Subjects by Two Independent Judges|journal=The British Journal of Psychiatry|volume=116|issue=535|pages=651–655|first1=A.E.|last1=Maxwell|year=1970|doi=10.1192/bjp.116.535.651|pmid=5452368|s2cid=9211848 }}</ref>
* [[Bhapkar's test|巴普卡检验]] (1966) 是斯图尔特-马克斯韦尔检验的一个更强大的替代品,<ref>{{cite web|url=http://www.john-uebersax.com/stat/mcnemar.htm#bhapkar |title=McNemar Tests of Marginal Homogeneity |publisher=John-uebersax.com |date=2006-08-30 |access-date=2012-11-22}}</ref><ref>{{cite journal|jstor=2283057|title=A Note on the Equivalence of Two Test Criteria for Hypotheses in Categorical Data|journal=Journal of the American Statistical Association|volume=61|issue=313|pages=228–235|first1=V.P.|last1= Bhapkar|year=1966|doi=10.1080/01621459.1966.10502021}}</ref> 但它倾向于偏自由。现有方法的竞争性替代品是可用的。<ref>{{Cite journal
| doi = 10.1177/0092861512442021
| title = Testing Marginal Homogeneity in Matched-Pair Polytomous Data
| year = 2012
| journal = Therapeutic Innovation & Regulatory Science
| pages = 434–438
| volume = 46
| issue = 4
| last1 = Yang | first1 = Z.
| last2 = Sun | first2 = X.
| last3 = Hardin | first3 = J.W.| s2cid = 123109340
}}</ref>
* McNemar检验是[[Cochran–Mantel–Haenszel test|科克兰-曼特尔-汉斯泽尔检验]]的一个特例；它相当于一个CMH检验，每对N对中有一个阶层，在每个阶层中，有一个2x2表显示成对的二元响应。<ref>{{cite book |last=Agresti |first=Alan |date=2002 |title=Categorical Data Analysis |url=https://mathdept.iut.ac.ir/sites/mathdept.iut.ac.ir/files/AGRESTI.PDF |location=Hooken, New Jersey |publisher= John Wiley & Sons, Inc. |page=413 |isbn=978-0-471-36093-3}}</ref>

== '''节点使用的R语言示例代码''' ==
=== McNemar检验 ===
<syntaxhighlight lang="R">

mcnemar.test(x, y = NULL, correct = TRUE)

</syntaxhighlight>

== '''节点使用指南''' ==
* 一种非参数统计检验，用于配对名义数据
* 适用于研究设计中的“前-后”比较，或者任何两个条件在相同的样本上得到的二分类结果
* 通常用于判断两种治疗方法、诊断测试或任何两种条件下是否存在差异

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量1：选择二分类变量
* 统计变量2：选择一个或多个二分类变量，每个变量将与变量1做一次McNemar检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* McNemar检验不适用于独立样本，也不适用于多于两个时间点的数据
* 当数据包含大量配对中只有一个条件为正面或负面的情况时，标准的McNemar检验可能过于保守

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:频数表检验]]

McNemar检验

2024-01-24T09:18:20Z

RainW：

{{Infobox nodebasic
|nodename=McNemar检验
|nodeimage=McNemar Test.png
|icon=McNemar Test.svg
|simpleicon=McNemar Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=McNemar Test
|abbreviation=McNeTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::频数表检验]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=McNemar检验是用于配对名义数据的统计检验, 又称非独立样本比率数的卡方检验。它应用于具有二分特征的2 × 2列联表，变量需要是二分类, 具有匹配的主题对，以确定行和列的边际频率是否相等,即是否存在边际同质性。例如：由失败变成功或由否变是的比例是否相等, 探讨事件发生前后表格内比例是否有显著改变。用途：一种非参数统计方法，用于分析两个配对的分类变量之间的关系，特别是在前后重复测量设计中。也用于分析在两个时间点或两种不同条件下，同一组受试者的分类结果是否有显著差异。参数：选择二分类变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Chi-Value;P-Value;df
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/McNemar检验
|previousnode=[[Mantel-Haenszel检验]]
|nextnode=[[G检验]]
}}

在[[统计学]]领域中，'''麦克尼马尔检验'''（McNemar's test）是一种应用于[[Blocking (statistics)|成对]][[名义数据]]的统计检验方法。它用于2 × 2的[[列联表]]，其中特征为[[二分]]，对配对的受试对象进行匹配，以确定行和列边际频率是否相等（即是否存在"边际同质性"）。该检验以[[Quinn McNemar]]命名，他于1947年首次提出此方法。<ref name=McNemar1947>{{Cite journal| doi = 10.1007/BF02295996| volume = 12| issue = 2| pages = 153–157| last = McNemar| first = Quinn| title = Note on the sampling error of the difference between correlated proportions or percentages| journal = Psychometrika| date = June 18, 1947| pmid = 20254758| s2cid = 46226024}}</ref> 该检验在遗传学中的应用是用于检测[[连锁不平衡]]的[[传输不平衡检验]]。<ref name=Spielman93>{{cite journal |author1=Spielman RS |author2 = McGinnis RE | author3= Ewens WJ | author-link3= Warren Ewens | title=Transmission test for linkage disequilibrium: the insulin gene region and insulin-dependent diabetes mellitus (IDDM) |journal=Am J Hum Genet |volume=52 |issue=3 |pages=506–16 |date=Mar 1993 |pmid=8447318 |pmc=1682161 }}</ref>

在医学科学中评估[[Medical test|诊断测试]]时常用的参数是[[灵敏度和特异性]]。灵敏度（或召回率）是指测试准确识别出患病人群的能力。特异性是指测试准确识别出未患病人群的能力。

现在假设对同一组患者进行了两项测试。并且假设这些测试的灵敏度和特异性相同。在这种情况下，人们可能会被这些发现所误导，认为两项测试是等效的。然而，情况可能并非如此。为此，我们必须研究患病和未患病的患者（通过参考测试）。我们还必须找出这两项测试之间的不一致之处。这正是麦克尼马尔检验的基础。这项检验比较了两个诊断测试对同一组患者的灵敏度和特异性。<ref>{{Cite journal|last=Hawass|first=N E|date=April 1997|title=Comparing the sensitivities and specificities of two diagnostic procedures performed on the same group of patients.|journal=The British Journal of Radiology|volume=70|issue=832|pages=360–366|doi=10.1259/bjr.70.832.9166071|pmid=9166071|issn=0007-1285}}</ref>

=='''定义'''==
该检验应用于一个2 × 2的列联表，该表格统计了对''N''个受试者进行的两项测试的结果，如下所示。
{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || Test 2 positive || Test 2 negative || Row total
|-
| Test 1 positive || ''a'' || ''b'' || ''a'' + ''b''
|-
| Test 1 negative || ''c'' || ''d'' || ''c'' + ''d''
|-
| Column total || ''a'' + ''c'' || ''b'' + ''d'' || ''N''
|}
边际同质性的[[零假设]]指的是每个结果的两个边际概率相同，即''p''''a'' + ''p''''b'' = ''p''''a'' + ''p''''c'' 以及 ''p''''c'' + ''p''''d'' = ''p''''b'' + ''p''''d''。

因此，零假设和备选假设为<ref name=McNemar1947/>

[math]\begin{array}{l}H_{0}: p_{b}=p_{c} \\ H_{1}: p_{b} \neq p_{c}\end{array}[/math]

这里''p''''a''等表示对应单元格中发生概率的理论值。

麦克尼马尔的[[检验统计量]]为：

:[math]\chi^2 = {(b-c)^2 \over b+c}.[/math]

在零假设下，如果不一致单元格（b和c单元格）的数量足够大，[math]\chi^2[/math]将服从自由度为1的[[卡方分布]]。如果[math]\chi^2[/math]结果是[[统计显著性|显著的]]，这提供了拒绝零假设的充分证据，支持''pb'' ≠ ''pc''的备选假设，这意味着边际比例彼此显著不同。

===变体===
如果''b''或''c''较小（''b'' + ''c'' < 25），则[math]\chi^2[/math]不能很好地近似为卡方分布。{{Citation needed|date=June 2011}} 这时可以使用精确的二项式检验，其中''b''与参数为''n'' = ''b'' + ''c'' 和 ''p'' = 0.5的[[二项分布]]进行比较。实际上，精确二项式检验评估了不一致性''b''和''c''的不平衡。为了获得双侧P值，应该将极端尾部的P值乘以2。对于''b'' ≥ ''c''：

: [math] \text{exact-P-value} = 2 \sum_{i=b}^{n} {n\choose i}0.5^i(1-0.5)^{n-i},[/math]

这实际上是''p'' = 0.5和''n'' = ''b'' + ''c''的二项分布[[累积分布函数]]的两倍。

Edwards<ref name=Edwards1948>{{Cite journal| volume = 13| issue = 3| pages = 185–187| last = Edwards| first = A| title = Note on the "correction for continuity" in testing the significance of the difference between correlated proportions| journal = Psychometrika| date = 1948| doi=10.1007/bf02289261| pmid = 18885738| s2cid = 33607853}}</ref> 提出了麦克尼马尔检验的连续性校正版本，以近似二项式精确P值：
:[math]\chi^2 = {(|b-c|-1)^2 \over b+c}.[/math]

中位P值的麦克尼马尔检验（中位P值二项式检验）是通过从精确的单侧P值中减去观察到的''b''的概率的一半，然后加倍以获得双侧中位P值：<ref name=Lancaster1961>{{Cite journal| volume = 56| issue = 294| pages = 223–234| last = Lancaster| first = H.O.| title = Significance tests in discrete distributions.| journal = J Am Stat Assoc| date = 1961| doi=10.1080/01621459.1961.10482105}}</ref><ref name=Fagerland2013>{{Cite journal
| volume = 13
| pages = 91
| last1 = Fagerland| first1 = M.W.
| last2 = Lydersen| first2 = S.
| last3 = Laake| first3 = P.
| title = The McNemar test for binary matched-pairs data: mid-p and asymptotic are better than exact conditional
| journal = BMC Medical Research Methodology
| date = 2013
| doi=10.1186/1471-2288-13-91| pmid = 23848987
| pmc = 3716987
| doi-access = free
}}</ref>

: [math] \text{mid-p-value} = 2 \left( \sum_{i=b}^n {n\choose i} 0.5^i (1-0.5)^{n-i} - 0.5 {n\choose b} 0.5^b (1-0.5)^{n-b} \right)[/math]

这等同于：

: [math] \text{mid-p-value} = \text{exact-p-value} - {n\choose b}0.5^b(1-0.5)^{n-b}[/math]

其中第二项是二项分布[[probability mass function]]，且''n'' = ''b'' + ''c''。二项分布函数在常见软件包中都可轻松获得，因此可以轻松计算McNemar中P检验。<ref name=Fagerland2013 />

传统建议是当''b'' + ''c'' < 25时使用精确的二项式检验。然而，模拟研究显示，精确的二项式检验和连续性校正的McNemar检验都过于保守。<ref name=Fagerland2013 /> 当''b'' + ''c'' < 6时，精确P值总是超过常见的显著性水平0.05。原始的McNemar检验最有力，但通常稍微自由。中P版本几乎和渐近McNemar检验一样有力，并且没有发现超过名义显著性水平。

=='''例子'''==

在第一个例子中，研究者试图确定一种药物对特定疾病的效果。有314名患者，在使用药物前后都进行了诊断（疾病：''存在''或''不存在''），这意味着每个样本可以用4种组合中的1种来描述。
表中给出了个体的计数，治疗前的诊断（疾病：''存在''或''不存在''）在行中给出，治疗后的诊断在列中给出。测试要求在治疗前后的测量中包含相同的受试者（匹配对）。

{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || '''治疗后：''' 存在|| '''治疗后：''' 不存在|| 行总计
|-
| '''治疗前：''' 存在|| 101 || 121 || 222
|-
| '''治疗前：''' 不存在|| 59 || 33 || 92
|-
| 列总计 || 160 || 154 || 314
|}

在这个例子中，"边际同质性"的零假设意味着治疗没有效果。根据上述数据，McNemar检验统计量：

:[math]\chi^2 = {(121 - 59)^2 \over {121 + 59}}[/math]

的值是21.35，这在零假设所暗示的分布中极不可能出现（''p'' < 0.001）。因此，该测试为拒绝无治疗效果的零假设提供了强有力的证据。

第二个例子说明了渐近McNemar检验和其他替代方法之间的差异。<ref name=Fagerland2013 /> 数据表的格式如前所述，但单元格中的数字不同：
{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || '''治疗后：''' 存在|| '''治疗后：''' 不存在|| 行总计
|-
| '''治疗前：''' 存在|| 59 || 6 || 65
|-
| '''治疗前：''' 不存在|| 16 || 80 || 96
|-
| 列总计 || 75 || 86 || 161
|}

对于这些数据，样本量（161名患者）并不小，但McNemar检验和其他版本的结果不同。精确的二项式检验给出''p'' = 0.053，带连续性校正的McNemar检验给出[math]\chi^2[/math] = 3.68和''p'' = 0.055。渐近McNemar检验给出[math]\chi^2[/math] = 4.55和''p'' = 0.033，中P McNemar检验给出''p'' = 0.035。在这第二个例子中，McNemar检验和中P版本都为统计学上显著的治疗效果提供了更强的证据。

=='''讨论'''==

解释McNemar检验时的一个有趣观察是，主对角线的元素不会对决定（在上述示例中）治疗前或治疗后条件是否更有利产生贡献。因此，即使''a'' + ''b'' + ''c'' + ''d''的对数很大（参见上面的第二个例子），''b'' + ''c''的和可以很小，上述测试的统计功效也可以很低。

麦克尼马尔检验的扩展存在于成对数据间不必然独立的情况；相反，存在成对数据的集群，集群内的成对数据可能不独立，但不同集群间保持独立性。<ref>{{Cite journal | doi = 10.1002/bimj.201000035 | title = 关于成群匹配成对二元数据的测试的注记 | year = 2010 | journal = 生物统计学杂志 | pages = 638–652 | volume = 52 | issue = 5 | last1 = 杨 | first1 = Z. | last2 = 孙 | first2 = X. | last3 = 哈丁 | first3 = J.W. | pmid = 20976694| s2cid = 29461324 }}</ref> 一个例子是分析牙科手术的效果；在这种情况下，一对对应于对患者的单个牙齿的治疗；同一患者两颗牙齿的治疗效果可能不独立，但不同患者两颗牙齿的治疗效果更可能独立。<ref>{{Cite journal | doi = 10.1002/sim.1438 | url = http://www3.interscience.wiley.com/journal/104545274/abstract | archive-url = https://archive.today/20130105071155/http://www3.interscience.wiley.com/journal/104545274/abstract | url-status = dead | archive-date = January 5, 2013 | title = 成群匹配成对数据的分析 | year = 2003 | journal = 医学统计学 | pages = 2417–28 | volume = 22 | issue = 15 | last1 = Durkalski | first1 = V.L. | last2 = Palesch | first2 = Y.Y. | last3 = Lipsitz | first3 = S.R. | last4 = Rust | first4 = P.F. | access-date = April 1, 2009 | pmid = 12872299 | s2cid = 25909362 }}</ref>

===配对信息===

在1970年代，人们推测保留扁桃体可能有助于预防[[霍奇金淋巴瘤]]。约翰·赖斯写道：<ref name=Rice1995>{{cite book | year=1995| author=Rice, John | title = Mathematical Statistics and Data Analysis | url=https://archive.org/details/mathematicalstat00rice_559| url-access=limited| edition=Second | publisher= [[Duxbury Press]] | location=Belmont, California | isbn=978-0-534-20934-6 | pages=[https://archive.org/details/mathematicalstat00rice_559/page/n510 492]–494 }}</ref>
<blockquote>
85名霍奇金病（Hodgkin's）患者……拥有一个同性别的兄弟姐妹，这位兄弟姐妹未患此病且其年龄与患者相差不超过5年。这些研究者展示了以下表格：

[math]\begin{array}{c|c|c}
\hline & Tonsillectomy & No tonsillectomy \\
\hline Hodgkins & 41 & 44 \\
\hline Control & 33 & 52
\end{array}[/math]

他们计算了一个[[chi-squared test|卡方统计量]]……[他们]在分析中犯了一个错误，忽视了配对……[他们的]样本并不独立，因为兄弟姐妹是配对的……我们建立了一个展示配对的表格：

[math]\begin{array}{cc|c|c} & \multicolumn{3}{c}{ Sibling } \\\cline { 2 - 4 } Patient & No tonsillectomy & Tonsillectomy \\\cline { 2 - 4 } & No tonsillectomy & 37 & 7 \\\cline { 2 - 4 } Tonsillectomy & 15 & 26\end{array}[/math]

</blockquote>
麦克内马尔检验可以应用于第二张表格。注意，第二张表格中的数字总和是85——兄弟姐妹的“对”数——而第一张表格中的数字总和是170的两倍——个体的数量。第二张表格提供的信息比第一张更多。第一张表格中的数字可以通过使用第二张表格中的数字找到，但反之则不行。第一张表格中的数字仅提供了第二张表格中数字的边际总和。麦克内马尔检验允许比较15和7对兄弟姐妹以前接受过不同的扁桃体治疗，作为与假设相关，同时忽略了信息较少的37和26对兄弟姐妹以前都接受过治疗或都没有。

== '''相关测试''' ==
* 二项式[[sign test|符号检验]]为McNemar检验提供了一个精确测试。
* [[Cochran's Q test|科克兰Q检验]]是McNemar检验的扩展，适用于两种以上的“处理”。
* [[Liddell's exact test|利德尔精确检验]]是McNemar检验的一个精确替代。<ref>{{cite journal|jstor=2988087|pages=295–304|last1=Liddell|first1=D.|title=Practical Tests of 2 × 2 Contingency Tables|volume=25|issue=4|journal=Journal of the Royal Statistical Society|year=1976|doi=10.2307/2988087 }}</ref><ref>{{cite web|url=http://rimarcik.com/en/navigator/z-nominal.html |title=Maxwell's test, McNemar's test, Kappa test |publisher=Rimarcik.com |access-date=2012-11-22}}</ref>
* [[Stuart–Maxwell test|斯图尔特-马克斯韦尔检验]]是McNemar检验的不同推广，用于测试超过两行/列的正方形表中的边际同质性。<ref>{{cite web|url=http://www2.sas.com/proceedings/forum2008/382-2008.pdf|title=Generalized McNemar's Test for Homogeneity of the Marginal Distributions|first1=Xuezheng|last1=Sun|first2=Zhao|last2=Yang|publisher=[[SAS (software)|SAS]] Global Forum|year=2008}}</ref><ref>{{cite journal|jstor=2333387|title=A Test for Homogeneity of the Marginal Distributions in a Two-Way Classification|journal=Biometrika|volume=42|issue=3/4|pages=412–416|first1=Alan|last1=Stuart|year=1955|doi=10.1093/biomet/42.3-4.412}}</ref><ref>{{cite journal|title=Comparing the Classification of Subjects by Two Independent Judges|journal=The British Journal of Psychiatry|volume=116|issue=535|pages=651–655|first1=A.E.|last1=Maxwell|year=1970|doi=10.1192/bjp.116.535.651|pmid=5452368|s2cid=9211848 }}</ref>
* [[Bhapkar's test|巴普卡检验]] (1966) 是斯图尔特-马克斯韦尔检验的一个更强大的替代品,<ref>{{cite web|url=http://www.john-uebersax.com/stat/mcnemar.htm#bhapkar |title=McNemar Tests of Marginal Homogeneity |publisher=John-uebersax.com |date=2006-08-30 |access-date=2012-11-22}}</ref><ref>{{cite journal|jstor=2283057|title=A Note on the Equivalence of Two Test Criteria for Hypotheses in Categorical Data|journal=Journal of the American Statistical Association|volume=61|issue=313|pages=228–235|first1=V.P.|last1= Bhapkar|year=1966|doi=10.1080/01621459.1966.10502021}}</ref> 但它倾向于偏自由。现有方法的竞争性替代品是可用的。<ref>{{Cite journal
| doi = 10.1177/0092861512442021
| title = Testing Marginal Homogeneity in Matched-Pair Polytomous Data
| year = 2012
| journal = Therapeutic Innovation & Regulatory Science
| pages = 434–438
| volume = 46
| issue = 4
| last1 = Yang | first1 = Z.
| last2 = Sun | first2 = X.
| last3 = Hardin | first3 = J.W.| s2cid = 123109340
}}</ref>
* McNemar检验是[[Cochran–Mantel–Haenszel test|科克兰-曼特尔-汉斯泽尔检验]]的一个特例；它相当于一个CMH检验，每对N对中有一个阶层，在每个阶层中，有一个2x2表显示成对的二元响应。<ref>{{cite book |last=Agresti |first=Alan |date=2002 |title=Categorical Data Analysis |url=https://mathdept.iut.ac.ir/sites/mathdept.iut.ac.ir/files/AGRESTI.PDF |location=Hooken, New Jersey |publisher= John Wiley & Sons, Inc. |page=413 |isbn=978-0-471-36093-3}}</ref>

== '''节点使用的R语言示例代码''' ==
=== McNemar检验 ===
<syntaxhighlight lang="R">

mcnemar.test(x, y = NULL, correct = TRUE)

</syntaxhighlight>

== '''节点使用指南''' ==
* 一种非参数统计检验，用于配对名义数据
* 适用于研究设计中的“前-后”比较，或者任何两个条件在相同的样本上得到的二分类结果
* 通常用于判断两种治疗方法、诊断测试或任何两种条件下是否存在差异

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量1：选择二分类变量
* 统计变量2：选择一个或多个二分类变量，每个变量将与变量1做一次McNemar检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* McNemar检验不适用于独立样本，也不适用于多于两个时间点的数据
* 当数据包含大量配对中只有一个条件为正面或负面的情况时，标准的McNemar检验可能过于保守

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:频数表检验]]

McNemar检验

2024-01-24T09:15:42Z

RainW：

{{Infobox nodebasic
|nodename=McNemar检验
|nodeimage=McNemar Test.png
|icon=McNemar Test.svg
|simpleicon=McNemar Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=McNemar Test
|abbreviation=McNeTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::频数表检验]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=McNemar检验是用于配对名义数据的统计检验, 又称非独立样本比率数的卡方检验。它应用于具有二分特征的2 × 2列联表，变量需要是二分类, 具有匹配的主题对，以确定行和列的边际频率是否相等,即是否存在边际同质性。例如：由失败变成功或由否变是的比例是否相等, 探讨事件发生前后表格内比例是否有显著改变。用途：一种非参数统计方法，用于分析两个配对的分类变量之间的关系，特别是在前后重复测量设计中。也用于分析在两个时间点或两种不同条件下，同一组受试者的分类结果是否有显著差异。参数：选择二分类变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Chi-Value;P-Value;df
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/McNemar检验
|previousnode=[[Mantel-Haenszel检验]]
|nextnode=[[G检验]]
}}

在[[统计学]]领域中，'''麦克尼马尔检验'''（McNemar's test）是一种应用于[[Blocking (statistics)|成对]][[名义数据]]的统计检验方法。它用于2 × 2的[[列联表]]，其中特征为[[二分]]，对配对的受试对象进行匹配，以确定行和列边际频率是否相等（即是否存在"边际同质性"）。该检验以[[Quinn McNemar]]命名，他于1947年首次提出此方法。<ref name=McNemar1947>{{Cite journal| doi = 10.1007/BF02295996| volume = 12| issue = 2| pages = 153–157| last = McNemar| first = Quinn| title = Note on the sampling error of the difference between correlated proportions or percentages| journal = Psychometrika| date = June 18, 1947| pmid = 20254758| s2cid = 46226024}}</ref> 该检验在遗传学中的应用是用于检测[[连锁不平衡]]的[[传输不平衡检验]]。<ref name=Spielman93>{{cite journal |author1=Spielman RS |author2 = McGinnis RE | author3= Ewens WJ | author-link3= Warren Ewens | title=Transmission test for linkage disequilibrium: the insulin gene region and insulin-dependent diabetes mellitus (IDDM) |journal=Am J Hum Genet |volume=52 |issue=3 |pages=506–16 |date=Mar 1993 |pmid=8447318 |pmc=1682161 }}</ref>

在医学科学中评估[[Medical test|诊断测试]]时常用的参数是[[灵敏度和特异性]]。灵敏度（或召回率）是指测试准确识别出患病人群的能力。特异性是指测试准确识别出未患病人群的能力。

现在假设对同一组患者进行了两项测试。并且假设这些测试的灵敏度和特异性相同。在这种情况下，人们可能会被这些发现所误导，认为两项测试是等效的。然而，情况可能并非如此。为此，我们必须研究患病和未患病的患者（通过参考测试）。我们还必须找出这两项测试之间的不一致之处。这正是麦克尼马尔检验的基础。这项检验比较了两个诊断测试对同一组患者的灵敏度和特异性。<ref>{{Cite journal|last=Hawass|first=N E|date=April 1997|title=Comparing the sensitivities and specificities of two diagnostic procedures performed on the same group of patients.|journal=The British Journal of Radiology|volume=70|issue=832|pages=360–366|doi=10.1259/bjr.70.832.9166071|pmid=9166071|issn=0007-1285}}</ref>

=='''定义'''==
该检验应用于一个2 × 2的列联表，该表格统计了对''N''个受试者进行的两项测试的结果，如下所示。
{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || Test 2 positive || Test 2 negative || Row total
|-
| Test 1 positive || ''a'' || ''b'' || ''a'' + ''b''
|-
| Test 1 negative || ''c'' || ''d'' || ''c'' + ''d''
|-
| Column total || ''a'' + ''c'' || ''b'' + ''d'' || ''N''
|}
边际同质性的[[零假设]]指的是每个结果的两个边际概率相同，即''p''''a'' + ''p''''b'' = ''p''''a'' + ''p''''c'' 以及 ''p''''c'' + ''p''''d'' = ''p''''b'' + ''p''''d''。

因此，零假设和备选假设为<ref name=McNemar1947/>

[math]\begin{array}{l}H_{0}: p_{b}=p_{c} \\ H_{1}: p_{b} \neq p_{c}\end{array}[/math]

这里''p''''a''等表示对应单元格中发生概率的理论值。

麦克尼马尔的[[检验统计量]]为：

:[math]\chi^2 = {(b-c)^2 \over b+c}.[/math]

在零假设下，如果不一致单元格（b和c单元格）的数量足够大，[math]\chi^2[/math]将服从自由度为1的[[卡方分布]]。如果[math]\chi^2[/math]结果是[[统计显著性|显著的]]，这提供了拒绝零假设的充分证据，支持''pb'' ≠ ''pc''的备选假设，这意味着边际比例彼此显著不同。

===变体===
如果''b''或''c''较小（''b'' + ''c'' < 25），则[math]\chi^2[/math]不能很好地近似为卡方分布。{{Citation needed|date=June 2011}} 这时可以使用精确的二项式检验，其中''b''与参数为''n'' = ''b'' + ''c'' 和 ''p'' = 0.5的[[二项分布]]进行比较。实际上，精确二项式检验评估了不一致性''b''和''c''的不平衡。为了获得双侧P值，应该将极端尾部的P值乘以2。对于''b'' ≥ ''c''：

: [math] \text{exact-P-value} = 2 \sum_{i=b}^{n} {n\choose i}0.5^i(1-0.5)^{n-i},[/math]

这实际上是''p'' = 0.5和''n'' = ''b'' + ''c''的二项分布[[累积分布函数]]的两倍。

Edwards<ref name=Edwards1948>{{Cite journal| volume = 13| issue = 3| pages = 185–187| last = Edwards| first = A| title = Note on the "correction for continuity" in testing the significance of the difference between correlated proportions| journal = Psychometrika| date = 1948| doi=10.1007/bf02289261| pmid = 18885738| s2cid = 33607853}}</ref> 提出了麦克尼马尔检验的连续性校正版本，以近似二项式精确P值：
:[math]\chi^2 = {(|b-c|-1)^2 \over b+c}.[/math]

中位P值的麦克尼马尔检验（中位P值二项式检验）是通过从精确的单侧P值中减去观察到的''b''的概率的一半，然后加倍以获得双侧中位P值：<ref name=Lancaster1961>{{Cite journal| volume = 56| issue = 294| pages = 223–234| last = Lancaster| first = H.O.| title = Significance tests in discrete distributions.| journal = J Am Stat Assoc| date = 1961| doi=10.1080/01621459.1961.10482105}}</ref><ref name=Fagerland2013>{{Cite journal
| volume = 13
| pages = 91
| last1 = Fagerland| first1 = M.W.
| last2 = Lydersen| first2 = S.
| last3 = Laake| first3 = P.
| title = The McNemar test for binary matched-pairs data: mid-p and asymptotic are better than exact conditional
| journal = BMC Medical Research Methodology
| date = 2013
| doi=10.1186/1471-2288-13-91| pmid = 23848987
| pmc = 3716987
| doi-access = free
}}</ref>

: [math] \text{mid-p-value} = 2 \left( \sum_{i=b}^n {n\choose i} 0.5^i (1-0.5)^{n-i} - 0.5 {n\choose b} 0.5^b (1-0.5)^{n-b} \right)[/math]

这等同于：

: [math] \text{mid-p-value} = \text{exact-p-value} - {n\choose b}0.5^b(1-0.5)^{n-b}[/math]

其中第二项是二项分布[[probability mass function]]，且''n'' = ''b'' + ''c''。二项分布函数在常见软件包中都可轻松获得，因此可以轻松计算McNemar中P检验。<ref name=Fagerland2013 />

传统建议是当''b'' + ''c'' < 25时使用精确的二项式检验。然而，模拟研究显示，精确的二项式检验和连续性校正的McNemar检验都过于保守。<ref name=Fagerland2013 /> 当''b'' + ''c'' < 6时，精确P值总是超过常见的显著性水平0.05。原始的McNemar检验最有力，但通常稍微自由。中P版本几乎和渐近McNemar检验一样有力，并且没有发现超过名义显著性水平。

=='''例子'''==

在第一个例子中，研究者试图确定一种药物对特定疾病的效果。有314名患者，在使用药物前后都进行了诊断（疾病：''存在''或''不存在''），这意味着每个样本可以用4种组合中的1种来描述。
表中给出了个体的计数，治疗前的诊断（疾病：''存在''或''不存在''）在行中给出，治疗后的诊断在列中给出。测试要求在治疗前后的测量中包含相同的受试者（匹配对）。

{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || '''治疗后：''' 存在|| '''治疗后：''' 不存在|| 行总计
|-
| '''治疗前：''' 存在|| 101 || 121 || 222
|-
| '''治疗前：''' 不存在|| 59 || 33 || 92
|-
| 列总计 || 160 || 154 || 314
|}

在这个例子中，"边际同质性"的零假设意味着治疗没有效果。根据上述数据，McNemar检验统计量：

:[math]\chi^2 = {(121 - 59)^2 \over {121 + 59}}[/math]

的值是21.35，这在零假设所暗示的分布中极不可能出现（''p'' < 0.001）。因此，该测试为拒绝无治疗效果的零假设提供了强有力的证据。

第二个例子说明了渐近McNemar检验和其他替代方法之间的差异。<ref name=Fagerland2013 /> 数据表的格式如前所述，但单元格中的数字不同：
{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || '''治疗后：''' 存在|| '''治疗后：''' 不存在|| 行总计
|-
| '''治疗前：''' 存在|| 59 || 6 || 65
|-
| '''治疗前：''' 不存在|| 16 || 80 || 96
|-
| 列总计 || 75 || 86 || 161
|}

对于这些数据，样本量（161名患者）并不小，但McNemar检验和其他版本的结果不同。精确的二项式检验给出''p'' = 0.053，带连续性校正的McNemar检验给出[math]\chi^2[/math] = 3.68和''p'' = 0.055。渐近McNemar检验给出[math]\chi^2[/math] = 4.55和''p'' = 0.033，中P McNemar检验给出''p'' = 0.035。在这第二个例子中，McNemar检验和中P版本都为统计学上显著的治疗效果提供了更强的证据。

=='''讨论'''==

解释McNemar检验时的一个有趣观察是，主对角线的元素不会对决定（在上述示例中）治疗前或治疗后条件是否更有利产生贡献。因此，即使''a'' + ''b'' + ''c'' + ''d''的对数很大（参见上面的第二个例子），''b'' + ''c''的和可以很小，上述测试的统计功效也可以很低。

麦克尼马尔检验的扩展存在于成对数据间不必然独立的情况；相反，存在成对数据的集群，集群内的成对数据可能不独立，但不同集群间保持独立性。<ref>{{Cite journal | doi = 10.1002/bimj.201000035 | title = 关于成群匹配成对二元数据的测试的注记 | year = 2010 | journal = 生物统计学杂志 | pages = 638–652 | volume = 52 | issue = 5 | last1 = 杨 | first1 = Z. | last2 = 孙 | first2 = X. | last3 = 哈丁 | first3 = J.W. | pmid = 20976694| s2cid = 29461324 }}</ref> 一个例子是分析牙科手术的效果；在这种情况下，一对对应于对患者的单个牙齿的治疗；同一患者两颗牙齿的治疗效果可能不独立，但不同患者两颗牙齿的治疗效果更可能独立。<ref>{{Cite journal | doi = 10.1002/sim.1438 | url = http://www3.interscience.wiley.com/journal/104545274/abstract | archive-url = https://archive.today/20130105071155/http://www3.interscience.wiley.com/journal/104545274/abstract | url-status = dead | archive-date = January 5, 2013 | title = 成群匹配成对数据的分析 | year = 2003 | journal = 医学统计学 | pages = 2417–28 | volume = 22 | issue = 15 | last1 = Durkalski | first1 = V.L. | last2 = Palesch | first2 = Y.Y. | last3 = Lipsitz | first3 = S.R. | last4 = Rust | first4 = P.F. | access-date = April 1, 2009 | pmid = 12872299 | s2cid = 25909362 }}</ref>

===配对信息===

在1970年代，人们推测保留扁桃体可能有助于预防[[霍奇金淋巴瘤]]。约翰·赖斯写道：<ref name=Rice1995>{{cite book | year=1995| author=Rice, John | title = Mathematical Statistics and Data Analysis | url=https://archive.org/details/mathematicalstat00rice_559| url-access=limited| edition=Second | publisher= [[Duxbury Press]] | location=Belmont, California | isbn=978-0-534-20934-6 | pages=[https://archive.org/details/mathematicalstat00rice_559/page/n510 492]–494 }}</ref>
<blockquote>
85名霍奇金病（Hodgkin's）患者……拥有一个同性别的兄弟姐妹，这位兄弟姐妹未患此病且其年龄与患者相差不超过5年。这些研究者展示了以下表格：

[math]\begin{array}{c|c|c}
\hline & Tonsillectomy & No tonsillectomy \\
\hline Hodgkins & 41 & 44 \\
\hline Control & 33 & 52
\end{array}[/math]

他们计算了一个[[chi-squared test|卡方统计量]]……[他们]在分析中犯了一个错误，忽视了配对……[他们的]样本并不独立，因为兄弟姐妹是配对的……我们建立了一个展示配对的表格：

[math]\begin{array}{cc|c|c}
& \multicolumn{3}{c}{ Sibling } \\
\cline { 2 - 4 } Patient & No tonsillectomy & Tonsillectomy \\
\cline { 2 - 4 } & No tonsillectomy & 37 & 7 \\
\cline { 2 - 4 } Tonsillectomy & 15 & 26
\end{array}[/math]

</blockquote>
麦克内马尔检验可以应用于第二张表格。注意，第二张表格中的数字总和是85——兄弟姐妹的“对”数——而第一张表格中的数字总和是170的两倍——个体的数量。第二张表格提供的信息比第一张更多。第一张表格中的数字可以通过使用第二张表格中的数字找到，但反之则不行。第一张表格中的数字仅提供了第二张表格中数字的边际总和。麦克内马尔检验允许比较15和7对兄弟姐妹以前接受过不同的扁桃体治疗，作为与假设相关，同时忽略了信息较少的37和26对兄弟姐妹以前都接受过治疗或都没有。

== '''相关测试''' ==
* 二项式[[sign test|符号检验]]为McNemar检验提供了一个精确测试。
* [[Cochran's Q test|科克兰Q检验]]是McNemar检验的扩展，适用于两种以上的“处理”。
* [[Liddell's exact test|利德尔精确检验]]是McNemar检验的一个精确替代。<ref>{{cite journal|jstor=2988087|pages=295–304|last1=Liddell|first1=D.|title=Practical Tests of 2 × 2 Contingency Tables|volume=25|issue=4|journal=Journal of the Royal Statistical Society|year=1976|doi=10.2307/2988087 }}</ref><ref>{{cite web|url=http://rimarcik.com/en/navigator/z-nominal.html |title=Maxwell's test, McNemar's test, Kappa test |publisher=Rimarcik.com |access-date=2012-11-22}}</ref>
* [[Stuart–Maxwell test|斯图尔特-马克斯韦尔检验]]是McNemar检验的不同推广，用于测试超过两行/列的正方形表中的边际同质性。<ref>{{cite web|url=http://www2.sas.com/proceedings/forum2008/382-2008.pdf|title=Generalized McNemar's Test for Homogeneity of the Marginal Distributions|first1=Xuezheng|last1=Sun|first2=Zhao|last2=Yang|publisher=[[SAS (software)|SAS]] Global Forum|year=2008}}</ref><ref>{{cite journal|jstor=2333387|title=A Test for Homogeneity of the Marginal Distributions in a Two-Way Classification|journal=Biometrika|volume=42|issue=3/4|pages=412–416|first1=Alan|last1=Stuart|year=1955|doi=10.1093/biomet/42.3-4.412}}</ref><ref>{{cite journal|title=Comparing the Classification of Subjects by Two Independent Judges|journal=The British Journal of Psychiatry|volume=116|issue=535|pages=651–655|first1=A.E.|last1=Maxwell|year=1970|doi=10.1192/bjp.116.535.651|pmid=5452368|s2cid=9211848 }}</ref>
* [[Bhapkar's test|巴普卡检验]] (1966) 是斯图尔特-马克斯韦尔检验的一个更强大的替代品,<ref>{{cite web|url=http://www.john-uebersax.com/stat/mcnemar.htm#bhapkar |title=McNemar Tests of Marginal Homogeneity |publisher=John-uebersax.com |date=2006-08-30 |access-date=2012-11-22}}</ref><ref>{{cite journal|jstor=2283057|title=A Note on the Equivalence of Two Test Criteria for Hypotheses in Categorical Data|journal=Journal of the American Statistical Association|volume=61|issue=313|pages=228–235|first1=V.P.|last1= Bhapkar|year=1966|doi=10.1080/01621459.1966.10502021}}</ref> 但它倾向于偏自由。现有方法的竞争性替代品是可用的。<ref>{{Cite journal
| doi = 10.1177/0092861512442021
| title = Testing Marginal Homogeneity in Matched-Pair Polytomous Data
| year = 2012
| journal = Therapeutic Innovation & Regulatory Science
| pages = 434–438
| volume = 46
| issue = 4
| last1 = Yang | first1 = Z.
| last2 = Sun | first2 = X.
| last3 = Hardin | first3 = J.W.| s2cid = 123109340
}}</ref>
* McNemar检验是[[Cochran–Mantel–Haenszel test|科克兰-曼特尔-汉斯泽尔检验]]的一个特例；它相当于一个CMH检验，每对N对中有一个阶层，在每个阶层中，有一个2x2表显示成对的二元响应。<ref>{{cite book |last=Agresti |first=Alan |date=2002 |title=Categorical Data Analysis |url=https://mathdept.iut.ac.ir/sites/mathdept.iut.ac.ir/files/AGRESTI.PDF |location=Hooken, New Jersey |publisher= John Wiley & Sons, Inc. |page=413 |isbn=978-0-471-36093-3}}</ref>

== '''节点使用的R语言示例代码''' ==
=== McNemar检验 ===
<syntaxhighlight lang="R">

mcnemar.test(x, y = NULL, correct = TRUE)

</syntaxhighlight>

== '''节点使用指南''' ==
* 一种非参数统计检验，用于配对名义数据
* 适用于研究设计中的“前-后”比较，或者任何两个条件在相同的样本上得到的二分类结果
* 通常用于判断两种治疗方法、诊断测试或任何两种条件下是否存在差异

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量1：选择二分类变量
* 统计变量2：选择一个或多个二分类变量，每个变量将与变量1做一次McNemar检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* McNemar检验不适用于独立样本，也不适用于多于两个时间点的数据
* 当数据包含大量配对中只有一个条件为正面或负面的情况时，标准的McNemar检验可能过于保守

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:频数表检验]]

McNemar检验

2024-01-24T09:12:56Z

RainW：

{{Infobox nodebasic
|nodename=McNemar检验
|nodeimage=McNemar Test.png
|icon=McNemar Test.svg
|simpleicon=McNemar Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=McNemar Test
|abbreviation=McNeTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::频数表检验]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=McNemar检验是用于配对名义数据的统计检验, 又称非独立样本比率数的卡方检验。它应用于具有二分特征的2 × 2列联表，变量需要是二分类, 具有匹配的主题对，以确定行和列的边际频率是否相等,即是否存在边际同质性。例如：由失败变成功或由否变是的比例是否相等, 探讨事件发生前后表格内比例是否有显著改变。用途：一种非参数统计方法，用于分析两个配对的分类变量之间的关系，特别是在前后重复测量设计中。也用于分析在两个时间点或两种不同条件下，同一组受试者的分类结果是否有显著差异。参数：选择二分类变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Chi-Value;P-Value;df
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/McNemar检验
|previousnode=[[Mantel-Haenszel检验]]
|nextnode=[[G检验]]
}}

在[[统计学]]领域中，'''麦克尼马尔检验'''（McNemar's test）是一种应用于[[Blocking (statistics)|成对]][[名义数据]]的统计检验方法。它用于2 × 2的[[列联表]]，其中特征为[[二分]]，对配对的受试对象进行匹配，以确定行和列边际频率是否相等（即是否存在"边际同质性"）。该检验以[[Quinn McNemar]]命名，他于1947年首次提出此方法。<ref name=McNemar1947>{{Cite journal| doi = 10.1007/BF02295996| volume = 12| issue = 2| pages = 153–157| last = McNemar| first = Quinn| title = Note on the sampling error of the difference between correlated proportions or percentages| journal = Psychometrika| date = June 18, 1947| pmid = 20254758| s2cid = 46226024}}</ref> 该检验在遗传学中的应用是用于检测[[连锁不平衡]]的[[传输不平衡检验]]。<ref name=Spielman93>{{cite journal |author1=Spielman RS |author2 = McGinnis RE | author3= Ewens WJ | author-link3= Warren Ewens | title=Transmission test for linkage disequilibrium: the insulin gene region and insulin-dependent diabetes mellitus (IDDM) |journal=Am J Hum Genet |volume=52 |issue=3 |pages=506–16 |date=Mar 1993 |pmid=8447318 |pmc=1682161 }}</ref>

在医学科学中评估[[Medical test|诊断测试]]时常用的参数是[[灵敏度和特异性]]。灵敏度（或召回率）是指测试准确识别出患病人群的能力。特异性是指测试准确识别出未患病人群的能力。

现在假设对同一组患者进行了两项测试。并且假设这些测试的灵敏度和特异性相同。在这种情况下，人们可能会被这些发现所误导，认为两项测试是等效的。然而，情况可能并非如此。为此，我们必须研究患病和未患病的患者（通过参考测试）。我们还必须找出这两项测试之间的不一致之处。这正是麦克尼马尔检验的基础。这项检验比较了两个诊断测试对同一组患者的灵敏度和特异性。<ref>{{Cite journal|last=Hawass|first=N E|date=April 1997|title=Comparing the sensitivities and specificities of two diagnostic procedures performed on the same group of patients.|journal=The British Journal of Radiology|volume=70|issue=832|pages=360–366|doi=10.1259/bjr.70.832.9166071|pmid=9166071|issn=0007-1285}}</ref>

=='''定义'''==
该检验应用于一个2 × 2的列联表，该表格统计了对''N''个受试者进行的两项测试的结果，如下所示。
{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || Test 2 positive || Test 2 negative || Row total
|-
| Test 1 positive || ''a'' || ''b'' || ''a'' + ''b''
|-
| Test 1 negative || ''c'' || ''d'' || ''c'' + ''d''
|-
| Column total || ''a'' + ''c'' || ''b'' + ''d'' || ''N''
|}
边际同质性的[[零假设]]指的是每个结果的两个边际概率相同，即''p''''a'' + ''p''''b'' = ''p''''a'' + ''p''''c'' 以及 ''p''''c'' + ''p''''d'' = ''p''''b'' + ''p''''d''。

因此，零假设和备选假设为<ref name=McNemar1947/>

[math]\begin{array}{l}H_{0}: p_{b}=p_{c} \\ H_{1}: p_{b} \neq p_{c}\end{array}[/math]

这里''p''''a''等表示对应单元格中发生概率的理论值。

麦克尼马尔的[[检验统计量]]为：

:[math]\chi^2 = {(b-c)^2 \over b+c}.[/math]

在零假设下，如果不一致单元格（b和c单元格）的数量足够大，[math]\chi^2[/math]将服从自由度为1的[[卡方分布]]。如果[math]\chi^2[/math]结果是[[统计显著性|显著的]]，这提供了拒绝零假设的充分证据，支持''pb'' ≠ ''pc''的备选假设，这意味着边际比例彼此显著不同。

===变体===
如果''b''或''c''较小（''b'' + ''c'' < 25），则[math]\chi^2[/math]不能很好地近似为卡方分布。{{Citation needed|date=June 2011}} 这时可以使用精确的二项式检验，其中''b''与参数为''n'' = ''b'' + ''c'' 和 ''p'' = 0.5的[[二项分布]]进行比较。实际上，精确二项式检验评估了不一致性''b''和''c''的不平衡。为了获得双侧P值，应该将极端尾部的P值乘以2。对于''b'' ≥ ''c''：

: [math] \text{exact-P-value} = 2 \sum_{i=b}^{n} {n\choose i}0.5^i(1-0.5)^{n-i},[/math]

这实际上是''p'' = 0.5和''n'' = ''b'' + ''c''的二项分布[[累积分布函数]]的两倍。

Edwards<ref name=Edwards1948>{{Cite journal| volume = 13| issue = 3| pages = 185–187| last = Edwards| first = A| title = Note on the "correction for continuity" in testing the significance of the difference between correlated proportions| journal = Psychometrika| date = 1948| doi=10.1007/bf02289261| pmid = 18885738| s2cid = 33607853}}</ref> 提出了麦克尼马尔检验的连续性校正版本，以近似二项式精确P值：
:[math]\chi^2 = {(|b-c|-1)^2 \over b+c}.[/math]

中位P值的麦克尼马尔检验（中位P值二项式检验）是通过从精确的单侧P值中减去观察到的''b''的概率的一半，然后加倍以获得双侧中位P值：<ref name=Lancaster1961>{{Cite journal| volume = 56| issue = 294| pages = 223–234| last = Lancaster| first = H.O.| title = Significance tests in discrete distributions.| journal = J Am Stat Assoc| date = 1961| doi=10.1080/01621459.1961.10482105}}</ref><ref name=Fagerland2013>{{Cite journal
| volume = 13
| pages = 91
| last1 = Fagerland| first1 = M.W.
| last2 = Lydersen| first2 = S.
| last3 = Laake| first3 = P.
| title = The McNemar test for binary matched-pairs data: mid-p and asymptotic are better than exact conditional
| journal = BMC Medical Research Methodology
| date = 2013
| doi=10.1186/1471-2288-13-91| pmid = 23848987
| pmc = 3716987
| doi-access = free
}}</ref>

: [math] \text{mid-p-value} = 2 \left( \sum_{i=b}^n {n\choose i} 0.5^i (1-0.5)^{n-i} - 0.5 {n\choose b} 0.5^b (1-0.5)^{n-b} \right)[/math]

这等同于：

: [math] \text{mid-p-value} = \text{exact-p-value} - {n\choose b}0.5^b(1-0.5)^{n-b}[/math]

其中第二项是二项分布[[probability mass function]]，且''n'' = ''b'' + ''c''。二项分布函数在常见软件包中都可轻松获得，因此可以轻松计算McNemar中P检验。<ref name=Fagerland2013 />

传统建议是当''b'' + ''c'' < 25时使用精确的二项式检验。然而，模拟研究显示，精确的二项式检验和连续性校正的McNemar检验都过于保守。<ref name=Fagerland2013 /> 当''b'' + ''c'' < 6时，精确P值总是超过常见的显著性水平0.05。原始的McNemar检验最有力，但通常稍微自由。中P版本几乎和渐近McNemar检验一样有力，并且没有发现超过名义显著性水平。

=='''例子'''==

在第一个例子中，研究者试图确定一种药物对特定疾病的效果。有314名患者，在使用药物前后都进行了诊断（疾病：''存在''或''不存在''），这意味着每个样本可以用4种组合中的1种来描述。
表中给出了个体的计数，治疗前的诊断（疾病：''存在''或''不存在''）在行中给出，治疗后的诊断在列中给出。测试要求在治疗前后的测量中包含相同的受试者（匹配对）。

{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || '''治疗后：''' 存在|| '''治疗后：''' 不存在|| 行总计
|-
| '''治疗前：''' 存在|| 101 || 121 || 222
|-
| '''治疗前：''' 不存在|| 59 || 33 || 92
|-
| 列总计 || 160 || 154 || 314
|}

在这个例子中，"边际同质性"的零假设意味着治疗没有效果。根据上述数据，McNemar检验统计量：

:[math]\chi^2 = {(121 - 59)^2 \over {121 + 59}}[/math]

的值是21.35，这在零假设所暗示的分布中极不可能出现（''p'' < 0.001）。因此，该测试为拒绝无治疗效果的零假设提供了强有力的证据。

第二个例子说明了渐近McNemar检验和其他替代方法之间的差异。<ref name=Fagerland2013 /> 数据表的格式如前所述，但单元格中的数字不同：
{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || '''治疗后：''' 存在|| '''治疗后：''' 不存在|| 行总计
|-
| '''治疗前：''' 存在|| 59 || 6 || 65
|-
| '''治疗前：''' 不存在|| 16 || 80 || 96
|-
| 列总计 || 75 || 86 || 161
|}

对于这些数据，样本量（161名患者）并不小，但McNemar检验和其他版本的结果不同。精确的二项式检验给出''p'' = 0.053，带连续性校正的McNemar检验给出[math]\chi^2[/math] = 3.68和''p'' = 0.055。渐近McNemar检验给出[math]\chi^2[/math] = 4.55和''p'' = 0.033，中P McNemar检验给出''p'' = 0.035。在这第二个例子中，McNemar检验和中P版本都为统计学上显著的治疗效果提供了更强的证据。

=='''讨论'''==

解释McNemar检验时的一个有趣观察是，主对角线的元素不会对决定（在上述示例中）治疗前或治疗后条件是否更有利产生贡献。因此，即使''a'' + ''b'' + ''c'' + ''d''的对数很大（参见上面的第二个例子），''b'' + ''c''的和可以很小，上述测试的统计功效也可以很低。

麦克尼马尔检验的扩展存在于成对数据间不必然独立的情况；相反，存在成对数据的集群，集群内的成对数据可能不独立，但不同集群间保持独立性。<ref>{{Cite journal | doi = 10.1002/bimj.201000035 | title = 关于成群匹配成对二元数据的测试的注记 | year = 2010 | journal = 生物统计学杂志 | pages = 638–652 | volume = 52 | issue = 5 | last1 = 杨 | first1 = Z. | last2 = 孙 | first2 = X. | last3 = 哈丁 | first3 = J.W. | pmid = 20976694| s2cid = 29461324 }}</ref> 一个例子是分析牙科手术的效果；在这种情况下，一对对应于对患者的单个牙齿的治疗；同一患者两颗牙齿的治疗效果可能不独立，但不同患者两颗牙齿的治疗效果更可能独立。<ref>{{Cite journal | doi = 10.1002/sim.1438 | url = http://www3.interscience.wiley.com/journal/104545274/abstract | archive-url = https://archive.today/20130105071155/http://www3.interscience.wiley.com/journal/104545274/abstract | url-status = dead | archive-date = January 5, 2013 | title = 成群匹配成对数据的分析 | year = 2003 | journal = 医学统计学 | pages = 2417–28 | volume = 22 | issue = 15 | last1 = Durkalski | first1 = V.L. | last2 = Palesch | first2 = Y.Y. | last3 = Lipsitz | first3 = S.R. | last4 = Rust | first4 = P.F. | access-date = April 1, 2009 | pmid = 12872299 | s2cid = 25909362 }}</ref>

===配对信息===

在1970年代，人们推测保留扁桃体可能有助于预防[[霍奇金淋巴瘤]]。约翰·赖斯写道：<ref name=Rice1995>{{cite book | year=1995| author=Rice, John | title = Mathematical Statistics and Data Analysis | url=https://archive.org/details/mathematicalstat00rice_559| url-access=limited| edition=Second | publisher= [[Duxbury Press]] | location=Belmont, California | isbn=978-0-534-20934-6 | pages=[https://archive.org/details/mathematicalstat00rice_559/page/n510 492]–494 }}</ref>
<blockquote>
85名霍奇金病（Hodgkin's）患者……拥有一个同性别的兄弟姐妹，这位兄弟姐妹未患此病且其年龄与患者相差不超过5年。这些研究者展示了以下表格：

[math]\begin{tabular}{c|c|c}
\hline & Tonsillectomy & No tonsillectomy \\
\hline Hodgkins & 41 & 44 \\
\hline Control & 33 & 52
\end{tabular}[/math]

他们计算了一个[[chi-squared test|卡方统计量]]……[他们]在分析中犯了一个错误，忽视了配对……[他们的]样本并不独立，因为兄弟姐妹是配对的……我们建立了一个展示配对的表格：

[math]\begin{tabular}{cc|c|c}
& \multicolumn{3}{c}{ Sibling } \\
\cline { 2 - 4 } Patient & No tonsillectomy & Tonsillectomy \\
\cline { 2 - 4 } & No tonsillectomy & 37 & 7 \\
\cline { 2 - 4 } Tonsillectomy & 15 & 26
\end{tabular}[/math]

</blockquote>
麦克内马尔检验可以应用于第二张表格。注意，第二张表格中的数字总和是85——兄弟姐妹的“对”数——而第一张表格中的数字总和是170的两倍——个体的数量。第二张表格提供的信息比第一张更多。第一张表格中的数字可以通过使用第二张表格中的数字找到，但反之则不行。第一张表格中的数字仅提供了第二张表格中数字的边际总和。麦克内马尔检验允许比较15和7对兄弟姐妹以前接受过不同的扁桃体治疗，作为与假设相关，同时忽略了信息较少的37和26对兄弟姐妹以前都接受过治疗或都没有。

== '''相关测试''' ==
* 二项式[[sign test|符号检验]]为McNemar检验提供了一个精确测试。
* [[Cochran's Q test|科克兰Q检验]]是McNemar检验的扩展，适用于两种以上的“处理”。
* [[Liddell's exact test|利德尔精确检验]]是McNemar检验的一个精确替代。<ref>{{cite journal|jstor=2988087|pages=295–304|last1=Liddell|first1=D.|title=Practical Tests of 2 × 2 Contingency Tables|volume=25|issue=4|journal=Journal of the Royal Statistical Society|year=1976|doi=10.2307/2988087 }}</ref><ref>{{cite web|url=http://rimarcik.com/en/navigator/z-nominal.html |title=Maxwell's test, McNemar's test, Kappa test |publisher=Rimarcik.com |access-date=2012-11-22}}</ref>
* [[Stuart–Maxwell test|斯图尔特-马克斯韦尔检验]]是McNemar检验的不同推广，用于测试超过两行/列的正方形表中的边际同质性。<ref>{{cite web|url=http://www2.sas.com/proceedings/forum2008/382-2008.pdf|title=Generalized McNemar's Test for Homogeneity of the Marginal Distributions|first1=Xuezheng|last1=Sun|first2=Zhao|last2=Yang|publisher=[[SAS (software)|SAS]] Global Forum|year=2008}}</ref><ref>{{cite journal|jstor=2333387|title=A Test for Homogeneity of the Marginal Distributions in a Two-Way Classification|journal=Biometrika|volume=42|issue=3/4|pages=412–416|first1=Alan|last1=Stuart|year=1955|doi=10.1093/biomet/42.3-4.412}}</ref><ref>{{cite journal|title=Comparing the Classification of Subjects by Two Independent Judges|journal=The British Journal of Psychiatry|volume=116|issue=535|pages=651–655|first1=A.E.|last1=Maxwell|year=1970|doi=10.1192/bjp.116.535.651|pmid=5452368|s2cid=9211848 }}</ref>
* [[Bhapkar's test|巴普卡检验]] (1966) 是斯图尔特-马克斯韦尔检验的一个更强大的替代品,<ref>{{cite web|url=http://www.john-uebersax.com/stat/mcnemar.htm#bhapkar |title=McNemar Tests of Marginal Homogeneity |publisher=John-uebersax.com |date=2006-08-30 |access-date=2012-11-22}}</ref><ref>{{cite journal|jstor=2283057|title=A Note on the Equivalence of Two Test Criteria for Hypotheses in Categorical Data|journal=Journal of the American Statistical Association|volume=61|issue=313|pages=228–235|first1=V.P.|last1= Bhapkar|year=1966|doi=10.1080/01621459.1966.10502021}}</ref> 但它倾向于偏自由。现有方法的竞争性替代品是可用的。<ref>{{Cite journal
| doi = 10.1177/0092861512442021
| title = Testing Marginal Homogeneity in Matched-Pair Polytomous Data
| year = 2012
| journal = Therapeutic Innovation & Regulatory Science
| pages = 434–438
| volume = 46
| issue = 4
| last1 = Yang | first1 = Z.
| last2 = Sun | first2 = X.
| last3 = Hardin | first3 = J.W.| s2cid = 123109340
}}</ref>
* McNemar检验是[[Cochran–Mantel–Haenszel test|科克兰-曼特尔-汉斯泽尔检验]]的一个特例；它相当于一个CMH检验，每对N对中有一个阶层，在每个阶层中，有一个2x2表显示成对的二元响应。<ref>{{cite book |last=Agresti |first=Alan |date=2002 |title=Categorical Data Analysis |url=https://mathdept.iut.ac.ir/sites/mathdept.iut.ac.ir/files/AGRESTI.PDF |location=Hooken, New Jersey |publisher= John Wiley & Sons, Inc. |page=413 |isbn=978-0-471-36093-3}}</ref>

== '''节点使用的R语言示例代码''' ==
=== McNemar检验 ===
<syntaxhighlight lang="R">

mcnemar.test(x, y = NULL, correct = TRUE)

</syntaxhighlight>

== '''节点使用指南''' ==
* 一种非参数统计检验，用于配对名义数据
* 适用于研究设计中的“前-后”比较，或者任何两个条件在相同的样本上得到的二分类结果
* 通常用于判断两种治疗方法、诊断测试或任何两种条件下是否存在差异

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量1：选择二分类变量
* 统计变量2：选择一个或多个二分类变量，每个变量将与变量1做一次McNemar检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* McNemar检验不适用于独立样本，也不适用于多于两个时间点的数据
* 当数据包含大量配对中只有一个条件为正面或负面的情况时，标准的McNemar检验可能过于保守

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:频数表检验]]

McNemar检验

2024-01-24T09:09:01Z

RainW：

{{Infobox nodebasic
|nodename=McNemar检验
|nodeimage=McNemar Test.png
|icon=McNemar Test.svg
|simpleicon=McNemar Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=McNemar Test
|abbreviation=McNeTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::频数表检验]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=McNemar检验是用于配对名义数据的统计检验, 又称非独立样本比率数的卡方检验。它应用于具有二分特征的2 × 2列联表，变量需要是二分类, 具有匹配的主题对，以确定行和列的边际频率是否相等,即是否存在边际同质性。例如：由失败变成功或由否变是的比例是否相等, 探讨事件发生前后表格内比例是否有显著改变。用途：一种非参数统计方法，用于分析两个配对的分类变量之间的关系，特别是在前后重复测量设计中。也用于分析在两个时间点或两种不同条件下，同一组受试者的分类结果是否有显著差异。参数：选择二分类变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Chi-Value;P-Value;df
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/McNemar检验
|previousnode=[[Mantel-Haenszel检验]]
|nextnode=[[G检验]]
}}

在[[统计学]]领域中，'''麦克尼马尔检验'''（McNemar's test）是一种应用于[[Blocking (statistics)|成对]][[名义数据]]的统计检验方法。它用于2 × 2的[[列联表]]，其中特征为[[二分]]，对配对的受试对象进行匹配，以确定行和列边际频率是否相等（即是否存在"边际同质性"）。该检验以[[Quinn McNemar]]命名，他于1947年首次提出此方法。<ref name=McNemar1947>{{Cite journal| doi = 10.1007/BF02295996| volume = 12| issue = 2| pages = 153–157| last = McNemar| first = Quinn| title = Note on the sampling error of the difference between correlated proportions or percentages| journal = Psychometrika| date = June 18, 1947| pmid = 20254758| s2cid = 46226024}}</ref> 该检验在遗传学中的应用是用于检测[[连锁不平衡]]的[[传输不平衡检验]]。<ref name=Spielman93>{{cite journal |author1=Spielman RS |author2 = McGinnis RE | author3= Ewens WJ | author-link3= Warren Ewens | title=Transmission test for linkage disequilibrium: the insulin gene region and insulin-dependent diabetes mellitus (IDDM) |journal=Am J Hum Genet |volume=52 |issue=3 |pages=506–16 |date=Mar 1993 |pmid=8447318 |pmc=1682161 }}</ref>

在医学科学中评估[[Medical test|诊断测试]]时常用的参数是[[灵敏度和特异性]]。灵敏度（或召回率）是指测试准确识别出患病人群的能力。特异性是指测试准确识别出未患病人群的能力。

现在假设对同一组患者进行了两项测试。并且假设这些测试的灵敏度和特异性相同。在这种情况下，人们可能会被这些发现所误导，认为两项测试是等效的。然而，情况可能并非如此。为此，我们必须研究患病和未患病的患者（通过参考测试）。我们还必须找出这两项测试之间的不一致之处。这正是麦克尼马尔检验的基础。这项检验比较了两个诊断测试对同一组患者的灵敏度和特异性。<ref>{{Cite journal|last=Hawass|first=N E|date=April 1997|title=Comparing the sensitivities and specificities of two diagnostic procedures performed on the same group of patients.|journal=The British Journal of Radiology|volume=70|issue=832|pages=360–366|doi=10.1259/bjr.70.832.9166071|pmid=9166071|issn=0007-1285}}</ref>

=='''定义'''==
该检验应用于一个2 × 2的列联表，该表格统计了对''N''个受试者进行的两项测试的结果，如下所示。
{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || Test 2 positive || Test 2 negative || Row total
|-
| Test 1 positive || ''a'' || ''b'' || ''a'' + ''b''
|-
| Test 1 negative || ''c'' || ''d'' || ''c'' + ''d''
|-
| Column total || ''a'' + ''c'' || ''b'' + ''d'' || ''N''
|}
边际同质性的[[零假设]]指的是每个结果的两个边际概率相同，即''p''''a'' + ''p''''b'' = ''p''''a'' + ''p''''c'' 以及 ''p''''c'' + ''p''''d'' = ''p''''b'' + ''p''''d''。

因此，零假设和备选假设为<ref name=McNemar1947/>

[math]\begin{array}{l}H_{0}: p_{b}=p_{c} \\ H_{1}: p_{b} \neq p_{c}\end{array}[/math]

这里''p''''a''等表示对应单元格中发生概率的理论值。

麦克尼马尔的[[检验统计量]]为：

:[math]\chi^2 = {(b-c)^2 \over b+c}.[/math]

在零假设下，如果不一致单元格（b和c单元格）的数量足够大，[math]\chi^2[/math]将服从自由度为1的[[卡方分布]]。如果[math]\chi^2[/math]结果是[[统计显著性|显著的]]，这提供了拒绝零假设的充分证据，支持''pb'' ≠ ''pc''的备选假设，这意味着边际比例彼此显著不同。

===变体===
如果''b''或''c''较小（''b'' + ''c'' < 25），则[math]\chi^2[/math]不能很好地近似为卡方分布。{{Citation needed|date=June 2011}} 这时可以使用精确的二项式检验，其中''b''与参数为''n'' = ''b'' + ''c'' 和 ''p'' = 0.5的[[二项分布]]进行比较。实际上，精确二项式检验评估了不一致性''b''和''c''的不平衡。为了获得双侧P值，应该将极端尾部的P值乘以2。对于''b'' ≥ ''c''：

: [math] \text{exact-P-value} = 2 \sum_{i=b}^{n} {n\choose i}0.5^i(1-0.5)^{n-i},[/math]

这实际上是''p'' = 0.5和''n'' = ''b'' + ''c''的二项分布[[累积分布函数]]的两倍。

Edwards<ref name=Edwards1948>{{Cite journal| volume = 13| issue = 3| pages = 185–187| last = Edwards| first = A| title = Note on the "correction for continuity" in testing the significance of the difference between correlated proportions| journal = Psychometrika| date = 1948| doi=10.1007/bf02289261| pmid = 18885738| s2cid = 33607853}}</ref> 提出了麦克尼马尔检验的连续性校正版本，以近似二项式精确P值：
:[math]\chi^2 = {(|b-c|-1)^2 \over b+c}.[/math]

中位P值的麦克尼马尔检验（中位P值二项式检验）是通过从精确的单侧P值中减去观察到的''b''的概率的一半，然后加倍以获得双侧中位P值：<ref name=Lancaster1961>{{Cite journal| volume = 56| issue = 294| pages = 223–234| last = Lancaster| first = H.O.| title = Significance tests in discrete distributions.| journal = J Am Stat Assoc| date = 1961| doi=10.1080/01621459.1961.10482105}}</ref><ref name=Fagerland2013>{{Cite journal
| volume = 13
| pages = 91
| last1 = Fagerland| first1 = M.W.
| last2 = Lydersen| first2 = S.
| last3 = Laake| first3 = P.
| title = The McNemar test for binary matched-pairs data: mid-p and asymptotic are better than exact conditional
| journal = BMC Medical Research Methodology
| date = 2013
| doi=10.1186/1471-2288-13-91| pmid = 23848987
| pmc = 3716987
| doi-access = free
}}</ref>

: [math] \text{mid-p-value} = 2 \left( \sum_{i=b}^n {n\choose i} 0.5^i (1-0.5)^{n-i} - 0.5 {n\choose b} 0.5^b (1-0.5)^{n-b} \right)[/math]

这等同于：

: [math] \text{mid-p-value} = \text{exact-p-value} - {n\choose b}0.5^b(1-0.5)^{n-b}[/math]

其中第二项是二项分布[[probability mass function]]，且''n'' = ''b'' + ''c''。二项分布函数在常见软件包中都可轻松获得，因此可以轻松计算McNemar中P检验。<ref name=Fagerland2013 />

传统建议是当''b'' + ''c'' < 25时使用精确的二项式检验。然而，模拟研究显示，精确的二项式检验和连续性校正的McNemar检验都过于保守。<ref name=Fagerland2013 /> 当''b'' + ''c'' < 6时，精确P值总是超过常见的显著性水平0.05。原始的McNemar检验最有力，但通常稍微自由。中P版本几乎和渐近McNemar检验一样有力，并且没有发现超过名义显著性水平。

=='''例子'''==

在第一个例子中，研究者试图确定一种药物对特定疾病的效果。有314名患者，在使用药物前后都进行了诊断（疾病：''存在''或''不存在''），这意味着每个样本可以用4种组合中的1种来描述。
表中给出了个体的计数，治疗前的诊断（疾病：''存在''或''不存在''）在行中给出，治疗后的诊断在列中给出。测试要求在治疗前后的测量中包含相同的受试者（匹配对）。

{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || '''治疗后：''' 存在|| '''治疗后：''' 不存在|| 行总计
|-
| '''治疗前：''' 存在|| 101 || 121 || 222
|-
| '''治疗前：''' 不存在|| 59 || 33 || 92
|-
| 列总计 || 160 || 154 || 314
|}

在这个例子中，"边际同质性"的零假设意味着治疗没有效果。根据上述数据，McNemar检验统计量：

:[math]\chi^2 = {(121 - 59)^2 \over {121 + 59}}[/math]

的值是21.35，这在零假设所暗示的分布中极不可能出现（''p'' < 0.001）。因此，该测试为拒绝无治疗效果的零假设提供了强有力的证据。

第二个例子说明了渐近McNemar检验和其他替代方法之间的差异。<ref name=Fagerland2013 /> 数据表的格式如前所述，但单元格中的数字不同：
{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || '''治疗后：''' 存在|| '''治疗后：''' 不存在|| 行总计
|-
| '''治疗前：''' 存在|| 59 || 6 || 65
|-
| '''治疗前：''' 不存在|| 16 || 80 || 96
|-
| 列总计 || 75 || 86 || 161
|}

对于这些数据，样本量（161名患者）并不小，但McNemar检验和其他版本的结果不同。精确的二项式检验给出''p'' = 0.053，带连续性校正的McNemar检验给出[math]\chi^2[/math] = 3.68和''p'' = 0.055。渐近McNemar检验给出[math]\chi^2[/math] = 4.55和''p'' = 0.033，中P McNemar检验给出''p'' = 0.035。在这第二个例子中，McNemar检验和中P版本都为统计学上显著的治疗效果提供了更强的证据。

=='''讨论'''==

解释McNemar检验时的一个有趣观察是，主对角线的元素不会对决定（在上述示例中）治疗前或治疗后条件是否更有利产生贡献。因此，即使''a'' + ''b'' + ''c'' + ''d''的对数很大（参见上面的第二个例子），''b'' + ''c''的和可以很小，上述测试的统计功效也可以很低。

麦克尼马尔检验的扩展存在于成对数据间不必然独立的情况；相反，存在成对数据的集群，集群内的成对数据可能不独立，但不同集群间保持独立性。<ref>{{Cite journal | doi = 10.1002/bimj.201000035 | title = 关于成群匹配成对二元数据的测试的注记 | year = 2010 | journal = 生物统计学杂志 | pages = 638–652 | volume = 52 | issue = 5 | last1 = 杨 | first1 = Z. | last2 = 孙 | first2 = X. | last3 = 哈丁 | first3 = J.W. | pmid = 20976694| s2cid = 29461324 }}</ref> 一个例子是分析牙科手术的效果；在这种情况下，一对对应于对患者的单个牙齿的治疗；同一患者两颗牙齿的治疗效果可能不独立，但不同患者两颗牙齿的治疗效果更可能独立。<ref>{{Cite journal | doi = 10.1002/sim.1438 | url = http://www3.interscience.wiley.com/journal/104545274/abstract | archive-url = https://archive.today/20130105071155/http://www3.interscience.wiley.com/journal/104545274/abstract | url-status = dead | archive-date = January 5, 2013 | title = 成群匹配成对数据的分析 | year = 2003 | journal = 医学统计学 | pages = 2417–28 | volume = 22 | issue = 15 | last1 = Durkalski | first1 = V.L. | last2 = Palesch | first2 = Y.Y. | last3 = Lipsitz | first3 = S.R. | last4 = Rust | first4 = P.F. | access-date = April 1, 2009 | pmid = 12872299 | s2cid = 25909362 }}</ref>

===配对信息===

在1970年代，人们推测保留扁桃体可能有助于预防[[霍奇金淋巴瘤]]。约翰·赖斯写道：<ref name=Rice1995>{{cite book | year=1995| author=Rice, John | title = Mathematical Statistics and Data Analysis | url=https://archive.org/details/mathematicalstat00rice_559| url-access=limited| edition=Second | publisher= [[Duxbury Press]] | location=Belmont, California | isbn=978-0-534-20934-6 | pages=[https://archive.org/details/mathematicalstat00rice_559/page/n510 492]–494 }}</ref>
<blockquote>
85名霍奇金病（Hodgkin's）患者……拥有一个同性别的兄弟姐妹，这位兄弟姐妹未患此病且其年龄与患者相差不超过5年。这些研究者展示了以下表格：

:[math]
\begin{array}{c|c|c}
\hline & \text{Tonsillectomy} & \text{No tonsillectomy} \\
\hline\text{Hodgkins} & 41 & 44 \\
\hline\text{Control} & 33 & 52
\end{array}
[/math]

他们计算了一个[[chi-squared test|卡方统计量]]……[他们]在分析中犯了一个错误，忽视了配对……[他们的]样本并不独立，因为兄弟姐妹是配对的……我们建立了一个展示配对的表格：

:[math]
\begin{array}{cc}
& \text{Sibling} \\
\text{Patient} &
\begin{array}{c|c|c}
\hline & \text{No tonsillectomy} & \text{Tonsillectomy} \\
\hline\text{No tonsillectomy} & 37 & 7 \\
\hline\text{Tonsillectomy} & 15 & 26
\end{array}
\end{array}
[/math]
</blockquote>
麦克内马尔检验可以应用于第二张表格。注意，第二张表格中的数字总和是85——兄弟姐妹的“对”数——而第一张表格中的数字总和是170的两倍——个体的数量。第二张表格提供的信息比第一张更多。第一张表格中的数字可以通过使用第二张表格中的数字找到，但反之则不行。第一张表格中的数字仅提供了第二张表格中数字的边际总和。麦克内马尔检验允许比较15和7对兄弟姐妹以前接受过不同的扁桃体治疗，作为与假设相关，同时忽略了信息较少的37和26对兄弟姐妹以前都接受过治疗或都没有。

== '''相关测试''' ==
* 二项式[[sign test|符号检验]]为McNemar检验提供了一个精确测试。
* [[Cochran's Q test|科克兰Q检验]]是McNemar检验的扩展，适用于两种以上的“处理”。
* [[Liddell's exact test|利德尔精确检验]]是McNemar检验的一个精确替代。<ref>{{cite journal|jstor=2988087|pages=295–304|last1=Liddell|first1=D.|title=Practical Tests of 2 × 2 Contingency Tables|volume=25|issue=4|journal=Journal of the Royal Statistical Society|year=1976|doi=10.2307/2988087 }}</ref><ref>{{cite web|url=http://rimarcik.com/en/navigator/z-nominal.html |title=Maxwell's test, McNemar's test, Kappa test |publisher=Rimarcik.com |access-date=2012-11-22}}</ref>
* [[Stuart–Maxwell test|斯图尔特-马克斯韦尔检验]]是McNemar检验的不同推广，用于测试超过两行/列的正方形表中的边际同质性。<ref>{{cite web|url=http://www2.sas.com/proceedings/forum2008/382-2008.pdf|title=Generalized McNemar's Test for Homogeneity of the Marginal Distributions|first1=Xuezheng|last1=Sun|first2=Zhao|last2=Yang|publisher=[[SAS (software)|SAS]] Global Forum|year=2008}}</ref><ref>{{cite journal|jstor=2333387|title=A Test for Homogeneity of the Marginal Distributions in a Two-Way Classification|journal=Biometrika|volume=42|issue=3/4|pages=412–416|first1=Alan|last1=Stuart|year=1955|doi=10.1093/biomet/42.3-4.412}}</ref><ref>{{cite journal|title=Comparing the Classification of Subjects by Two Independent Judges|journal=The British Journal of Psychiatry|volume=116|issue=535|pages=651–655|first1=A.E.|last1=Maxwell|year=1970|doi=10.1192/bjp.116.535.651|pmid=5452368|s2cid=9211848 }}</ref>
* [[Bhapkar's test|巴普卡检验]] (1966) 是斯图尔特-马克斯韦尔检验的一个更强大的替代品,<ref>{{cite web|url=http://www.john-uebersax.com/stat/mcnemar.htm#bhapkar |title=McNemar Tests of Marginal Homogeneity |publisher=John-uebersax.com |date=2006-08-30 |access-date=2012-11-22}}</ref><ref>{{cite journal|jstor=2283057|title=A Note on the Equivalence of Two Test Criteria for Hypotheses in Categorical Data|journal=Journal of the American Statistical Association|volume=61|issue=313|pages=228–235|first1=V.P.|last1= Bhapkar|year=1966|doi=10.1080/01621459.1966.10502021}}</ref> 但它倾向于偏自由。现有方法的竞争性替代品是可用的。<ref>{{Cite journal
| doi = 10.1177/0092861512442021
| title = Testing Marginal Homogeneity in Matched-Pair Polytomous Data
| year = 2012
| journal = Therapeutic Innovation & Regulatory Science
| pages = 434–438
| volume = 46
| issue = 4
| last1 = Yang | first1 = Z.
| last2 = Sun | first2 = X.
| last3 = Hardin | first3 = J.W.| s2cid = 123109340
}}</ref>
* McNemar检验是[[Cochran–Mantel–Haenszel test|科克兰-曼特尔-汉斯泽尔检验]]的一个特例；它相当于一个CMH检验，每对N对中有一个阶层，在每个阶层中，有一个2x2表显示成对的二元响应。<ref>{{cite book |last=Agresti |first=Alan |date=2002 |title=Categorical Data Analysis |url=https://mathdept.iut.ac.ir/sites/mathdept.iut.ac.ir/files/AGRESTI.PDF |location=Hooken, New Jersey |publisher= John Wiley & Sons, Inc. |page=413 |isbn=978-0-471-36093-3}}</ref>

== '''节点使用的R语言示例代码''' ==
=== McNemar检验 ===
<syntaxhighlight lang="R">

mcnemar.test(x, y = NULL, correct = TRUE)

</syntaxhighlight>

== '''节点使用指南''' ==
* 一种非参数统计检验，用于配对名义数据
* 适用于研究设计中的“前-后”比较，或者任何两个条件在相同的样本上得到的二分类结果
* 通常用于判断两种治疗方法、诊断测试或任何两种条件下是否存在差异

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量1：选择二分类变量
* 统计变量2：选择一个或多个二分类变量，每个变量将与变量1做一次McNemar检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* McNemar检验不适用于独立样本，也不适用于多于两个时间点的数据
* 当数据包含大量配对中只有一个条件为正面或负面的情况时，标准的McNemar检验可能过于保守

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:频数表检验]]

McNemar检验

2024-01-24T08:55:29Z

RainW：

{{Infobox nodebasic
|nodename=McNemar检验
|nodeimage=McNemar Test.png
|icon=McNemar Test.svg
|simpleicon=McNemar Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=McNemar Test
|abbreviation=McNeTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::频数表检验]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=McNemar检验是用于配对名义数据的统计检验, 又称非独立样本比率数的卡方检验。它应用于具有二分特征的2 × 2列联表，变量需要是二分类, 具有匹配的主题对，以确定行和列的边际频率是否相等,即是否存在边际同质性。例如：由失败变成功或由否变是的比例是否相等, 探讨事件发生前后表格内比例是否有显著改变。用途：一种非参数统计方法，用于分析两个配对的分类变量之间的关系，特别是在前后重复测量设计中。也用于分析在两个时间点或两种不同条件下，同一组受试者的分类结果是否有显著差异。参数：选择二分类变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Chi-Value;P-Value;df
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/McNemar检验
|previousnode=[[Mantel-Haenszel检验]]
|nextnode=[[G检验]]
}}

在[[统计学]]领域中，'''麦克尼马尔检验'''（McNemar's test）是一种应用于[[Blocking (statistics)|成对]][[名义数据]]的统计检验方法。它用于2 × 2的[[列联表]]，其中特征为[[二分]]，对配对的受试对象进行匹配，以确定行和列边际频率是否相等（即是否存在"边际同质性"）。该检验以[[Quinn McNemar]]命名，他于1947年首次提出此方法。<ref name=McNemar1947>{{Cite journal| doi = 10.1007/BF02295996| volume = 12| issue = 2| pages = 153–157| last = McNemar| first = Quinn| title = Note on the sampling error of the difference between correlated proportions or percentages| journal = Psychometrika| date = June 18, 1947| pmid = 20254758| s2cid = 46226024}}</ref> 该检验在遗传学中的应用是用于检测[[连锁不平衡]]的[[传输不平衡检验]]。<ref name=Spielman93>{{cite journal |author1=Spielman RS |author2 = McGinnis RE | author3= Ewens WJ | author-link3= Warren Ewens | title=Transmission test for linkage disequilibrium: the insulin gene region and insulin-dependent diabetes mellitus (IDDM) |journal=Am J Hum Genet |volume=52 |issue=3 |pages=506–16 |date=Mar 1993 |pmid=8447318 |pmc=1682161 }}</ref>

在医学科学中评估[[Medical test|诊断测试]]时常用的参数是[[灵敏度和特异性]]。灵敏度（或召回率）是指测试准确识别出患病人群的能力。特异性是指测试准确识别出未患病人群的能力。

现在假设对同一组患者进行了两项测试。并且假设这些测试的灵敏度和特异性相同。在这种情况下，人们可能会被这些发现所误导，认为两项测试是等效的。然而，情况可能并非如此。为此，我们必须研究患病和未患病的患者（通过参考测试）。我们还必须找出这两项测试之间的不一致之处。这正是麦克尼马尔检验的基础。这项检验比较了两个诊断测试对同一组患者的灵敏度和特异性。<ref>{{Cite journal|last=Hawass|first=N E|date=April 1997|title=Comparing the sensitivities and specificities of two diagnostic procedures performed on the same group of patients.|journal=The British Journal of Radiology|volume=70|issue=832|pages=360–366|doi=10.1259/bjr.70.832.9166071|pmid=9166071|issn=0007-1285}}</ref>

=='''定义'''==
该检验应用于一个2 × 2的列联表，该表格统计了对''N''个受试者进行的两项测试的结果，如下所示。
{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || Test 2 positive || Test 2 negative || Row total
|-
| Test 1 positive || ''a'' || ''b'' || ''a'' + ''b''
|-
| Test 1 negative || ''c'' || ''d'' || ''c'' + ''d''
|-
| Column total || ''a'' + ''c'' || ''b'' + ''d'' || ''N''
|}
边际同质性的[[零假设]]指的是每个结果的两个边际概率相同，即''p''''a'' + ''p''''b'' = ''p''''a'' + ''p''''c'' 以及 ''p''''c'' + ''p''''d'' = ''p''''b'' + ''p''''d''。

因此，零假设和备选假设为<ref name=McNemar1947/>

: [math]
\begin{align}
H_0 & :~p_b=p_c \\
H_1 & :~p_b \ne p_c
\end{align}
[/math]

这里''p''''a''等表示对应单元格中发生概率的理论值。

麦克尼马尔的[[检验统计量]]为：

:[math]\chi^2 = {(b-c)^2 \over b+c}.[/math]

在零假设下，如果不一致单元格（b和c单元格）的数量足够大，[math]\chi^2[/math]将服从自由度为1的[[卡方分布]]。如果[math]\chi^2[/math]结果是[[统计显著性|显著的]]，这提供了拒绝零假设的充分证据，支持''pb'' ≠ ''pc''的备选假设，这意味着边际比例彼此显著不同。

===变体===
如果''b''或''c''较小（''b'' + ''c'' < 25），则[math]\chi^2[/math]不能很好地近似为卡方分布。{{Citation needed|date=June 2011}} 这时可以使用精确的二项式检验，其中''b''与参数为''n'' = ''b'' + ''c'' 和 ''p'' = 0.5的[[二项分布]]进行比较。实际上，精确二项式检验评估了不一致性''b''和''c''的不平衡。为了获得双侧P值，应该将极端尾部的P值乘以2。对于''b'' ≥ ''c''：

: [math] \text{exact-P-value} = 2 \sum_{i=b}^{n} {n\choose i}0.5^i(1-0.5)^{n-i},[/math]

这实际上是''p'' = 0.5和''n'' = ''b'' + ''c''的二项分布[[累积分布函数]]的两倍。

Edwards<ref name=Edwards1948>{{Cite journal| volume = 13| issue = 3| pages = 185–187| last = Edwards| first = A| title = Note on the "correction for continuity" in testing the significance of the difference between correlated proportions| journal = Psychometrika| date = 1948| doi=10.1007/bf02289261| pmid = 18885738| s2cid = 33607853}}</ref> 提出了麦克尼马尔检验的连续性校正版本，以近似二项式精确P值：
:[math]\chi^2 = {(|b-c|-1)^2 \over b+c}.[/math]

中位P值的麦克尼马尔检验（中位P值二项式检验）是通过从精确的单侧P值中减去观察到的''b''的概率的一半，然后加倍以获得双侧中位P值：<ref name=Lancaster1961>{{Cite journal| volume = 56| issue = 294| pages = 223–234| last = Lancaster| first = H.O.| title = Significance tests in discrete distributions.| journal = J Am Stat Assoc| date = 1961| doi=10.1080/01621459.1961.10482105}}</ref><ref name=Fagerland2013>{{Cite journal
| volume = 13
| pages = 91
| last1 = Fagerland| first1 = M.W.
| last2 = Lydersen| first2 = S.
| last3 = Laake| first3 = P.
| title = The McNemar test for binary matched-pairs data: mid-p and asymptotic are better than exact conditional
| journal = BMC Medical Research Methodology
| date = 2013
| doi=10.1186/1471-2288-13-91| pmid = 23848987
| pmc = 3716987
| doi-access = free
}}</ref>

: [math] \text{mid-p-value} = 2 \left( \sum_{i=b}^n {n\choose i} 0.5^i (1-0.5)^{n-i} - 0.5 {n\choose b} 0.5^b (1-0.5)^{n-b} \right)[/math]

这等同于：

: [math] \text{mid-p-value} = \text{exact-p-value} - {n\choose b}0.5^b(1-0.5)^{n-b}[/math]

其中第二项是二项分布[[probability mass function]]，且''n'' = ''b'' + ''c''。二项分布函数在常见软件包中都可轻松获得，因此可以轻松计算McNemar中P检验。<ref name=Fagerland2013 />

传统建议是当''b'' + ''c'' < 25时使用精确的二项式检验。然而，模拟研究显示，精确的二项式检验和连续性校正的McNemar检验都过于保守。<ref name=Fagerland2013 /> 当''b'' + ''c'' < 6时，精确P值总是超过常见的显著性水平0.05。原始的McNemar检验最有力，但通常稍微自由。中P版本几乎和渐近McNemar检验一样有力，并且没有发现超过名义显著性水平。

=='''例子'''==

在第一个例子中，研究者试图确定一种药物对特定疾病的效果。有314名患者，在使用药物前后都进行了诊断（疾病：''存在''或''不存在''），这意味着每个样本可以用4种组合中的1种来描述。
表中给出了个体的计数，治疗前的诊断（疾病：''存在''或''不存在''）在行中给出，治疗后的诊断在列中给出。测试要求在治疗前后的测量中包含相同的受试者（匹配对）。

{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || '''治疗后：''' 存在|| '''治疗后：''' 不存在|| 行总计
|-
| '''治疗前：''' 存在|| 101 || 121 || 222
|-
| '''治疗前：''' 不存在|| 59 || 33 || 92
|-
| 列总计 || 160 || 154 || 314
|}

在这个例子中，"边际同质性"的零假设意味着治疗没有效果。根据上述数据，McNemar检验统计量：

:[math]\chi^2 = {(121 - 59)^2 \over {121 + 59}}[/math]

的值是21.35，这在零假设所暗示的分布中极不可能出现（''p'' < 0.001）。因此，该测试为拒绝无治疗效果的零假设提供了强有力的证据。

第二个例子说明了渐近McNemar检验和其他替代方法之间的差异。<ref name=Fagerland2013 /> 数据表的格式如前所述，但单元格中的数字不同：
{| class="wikitable" style="text-align:center; margin:1em auto;"
|-
| || '''治疗后：''' 存在|| '''治疗后：''' 不存在|| 行总计
|-
| '''治疗前：''' 存在|| 59 || 6 || 65
|-
| '''治疗前：''' 不存在|| 16 || 80 || 96
|-
| 列总计 || 75 || 86 || 161
|}

对于这些数据，样本量（161名患者）并不小，但McNemar检验和其他版本的结果不同。精确的二项式检验给出''p'' = 0.053，带连续性校正的McNemar检验给出[math]\chi^2[/math] = 3.68和''p'' = 0.055。渐近McNemar检验给出[math]\chi^2[/math] = 4.55和''p'' = 0.033，中P McNemar检验给出''p'' = 0.035。在这第二个例子中，McNemar检验和中P版本都为统计学上显著的治疗效果提供了更强的证据。

=='''讨论'''==

解释McNemar检验时的一个有趣观察是，主对角线的元素不会对决定（在上述示例中）治疗前或治疗后条件是否更有利产生贡献。因此，即使''a'' + ''b'' + ''c'' + ''d''的对数很大（参见上面的第二个例子），''b'' + ''c''的和可以很小，上述测试的统计功效也可以很低。

麦克尼马尔检验的扩展存在于成对数据间不必然独立的情况；相反，存在成对数据的集群，集群内的成对数据可能不独立，但不同集群间保持独立性。<ref>{{Cite journal | doi = 10.1002/bimj.201000035 | title = 关于成群匹配成对二元数据的测试的注记 | year = 2010 | journal = 生物统计学杂志 | pages = 638–652 | volume = 52 | issue = 5 | last1 = 杨 | first1 = Z. | last2 = 孙 | first2 = X. | last3 = 哈丁 | first3 = J.W. | pmid = 20976694| s2cid = 29461324 }}</ref> 一个例子是分析牙科手术的效果；在这种情况下，一对对应于对患者的单个牙齿的治疗；同一患者两颗牙齿的治疗效果可能不独立，但不同患者两颗牙齿的治疗效果更可能独立。<ref>{{Cite journal | doi = 10.1002/sim.1438 | url = http://www3.interscience.wiley.com/journal/104545274/abstract | archive-url = https://archive.today/20130105071155/http://www3.interscience.wiley.com/journal/104545274/abstract | url-status = dead | archive-date = January 5, 2013 | title = 成群匹配成对数据的分析 | year = 2003 | journal = 医学统计学 | pages = 2417–28 | volume = 22 | issue = 15 | last1 = Durkalski | first1 = V.L. | last2 = Palesch | first2 = Y.Y. | last3 = Lipsitz | first3 = S.R. | last4 = Rust | first4 = P.F. | access-date = April 1, 2009 | pmid = 12872299 | s2cid = 25909362 }}</ref>

===配对信息===

在1970年代，人们推测保留扁桃体可能有助于预防[[霍奇金淋巴瘤]]。约翰·赖斯写道：<ref name=Rice1995>{{cite book | year=1995| author=Rice, John | title = Mathematical Statistics and Data Analysis | url=https://archive.org/details/mathematicalstat00rice_559| url-access=limited| edition=Second | publisher= [[Duxbury Press]] | location=Belmont, California | isbn=978-0-534-20934-6 | pages=[https://archive.org/details/mathematicalstat00rice_559/page/n510 492]–494 }}</ref>
<blockquote>
85名霍奇金患者[...]有一个同性别的兄弟姐妹
没有患病，且年龄在
患者年龄的5年内。这些研究者提出了以下表格：
::[math]
\begin{array}{c|c|c}
\hline & \text{扁桃体切除术} & \text{无扁桃体切除术} \\
\hline\text{霍奇金} & 41 & 44 \\
\hline\text{对照} & 33 & 52
\end{array}
[/math]
他们计算了一个[[卡方检验|卡方统计量]][...] [他们]在分析中忽略了配对，从而犯了错误。[...] [他们的]样本不是独立的，因为兄弟姐妹是成对的[...] 我们建立了一个展示配对的表格：
: [math]
\begin{array}{cc}
& \text{兄弟姐妹} \\
\text{患者} &
\begin{array}{c|c|c}
\hline & \text{无扁桃体切除术} & \text{扁桃体切除术} \\
\hline\text{无扁桃体切除术} & 37 & 7 \\
\hline\text{扁桃体切除术} & 15 & 26
\end{array}
\end{array}
[/math]
</blockquote>
麦克内马尔检验可以应用于第二张表格。注意，第二张表格中的数字总和是85——兄弟姐妹的“对”数——而第一张表格中的数字总和是170的两倍——个体的数量。第二张表格提供的信息比第一张更多。第一张表格中的数字可以通过使用第二张表格中的数字找到，但反之则不行。第一张表格中的数字仅提供了第二张表格中数字的边际总和。麦克内马尔检验允许比较15和7对兄弟姐妹以前接受过不同的扁桃体治疗，作为与假设相关，同时忽略了信息较少的37和26对兄弟姐妹以前都接受过治疗或都没有。

== '''相关测试''' ==
* 二项式[[sign test|符号检验]]为McNemar检验提供了一个精确测试。
* [[Cochran's Q test|科克兰Q检验]]是McNemar检验的扩展，适用于两种以上的“处理”。
* [[Liddell's exact test|利德尔精确检验]]是McNemar检验的一个精确替代。<ref>{{cite journal|jstor=2988087|pages=295–304|last1=Liddell|first1=D.|title=Practical Tests of 2 × 2 Contingency Tables|volume=25|issue=4|journal=Journal of the Royal Statistical Society|year=1976|doi=10.2307/2988087 }}</ref><ref>{{cite web|url=http://rimarcik.com/en/navigator/z-nominal.html |title=Maxwell's test, McNemar's test, Kappa test |publisher=Rimarcik.com |access-date=2012-11-22}}</ref>
* [[Stuart–Maxwell test|斯图尔特-马克斯韦尔检验]]是McNemar检验的不同推广，用于测试超过两行/列的正方形表中的边际同质性。<ref>{{cite web|url=http://www2.sas.com/proceedings/forum2008/382-2008.pdf|title=Generalized McNemar's Test for Homogeneity of the Marginal Distributions|first1=Xuezheng|last1=Sun|first2=Zhao|last2=Yang|publisher=[[SAS (software)|SAS]] Global Forum|year=2008}}</ref><ref>{{cite journal|jstor=2333387|title=A Test for Homogeneity of the Marginal Distributions in a Two-Way Classification|journal=Biometrika|volume=42|issue=3/4|pages=412–416|first1=Alan|last1=Stuart|year=1955|doi=10.1093/biomet/42.3-4.412}}</ref><ref>{{cite journal|title=Comparing the Classification of Subjects by Two Independent Judges|journal=The British Journal of Psychiatry|volume=116|issue=535|pages=651–655|first1=A.E.|last1=Maxwell|year=1970|doi=10.1192/bjp.116.535.651|pmid=5452368|s2cid=9211848 }}</ref>
* [[Bhapkar's test|巴普卡检验]] (1966) 是斯图尔特-马克斯韦尔检验的一个更强大的替代品,<ref>{{cite web|url=http://www.john-uebersax.com/stat/mcnemar.htm#bhapkar |title=McNemar Tests of Marginal Homogeneity |publisher=John-uebersax.com |date=2006-08-30 |access-date=2012-11-22}}</ref><ref>{{cite journal|jstor=2283057|title=A Note on the Equivalence of Two Test Criteria for Hypotheses in Categorical Data|journal=Journal of the American Statistical Association|volume=61|issue=313|pages=228–235|first1=V.P.|last1= Bhapkar|year=1966|doi=10.1080/01621459.1966.10502021}}</ref> 但它倾向于偏自由。现有方法的竞争性替代品是可用的。<ref>{{Cite journal
| doi = 10.1177/0092861512442021
| title = Testing Marginal Homogeneity in Matched-Pair Polytomous Data
| year = 2012
| journal = Therapeutic Innovation & Regulatory Science
| pages = 434–438
| volume = 46
| issue = 4
| last1 = Yang | first1 = Z.
| last2 = Sun | first2 = X.
| last3 = Hardin | first3 = J.W.| s2cid = 123109340
}}</ref>
* McNemar检验是[[Cochran–Mantel–Haenszel test|科克兰-曼特尔-汉斯泽尔检验]]的一个特例；它相当于一个CMH检验，每对N对中有一个阶层，在每个阶层中，有一个2x2表显示成对的二元响应。<ref>{{cite book |last=Agresti |first=Alan |date=2002 |title=Categorical Data Analysis |url=https://mathdept.iut.ac.ir/sites/mathdept.iut.ac.ir/files/AGRESTI.PDF |location=Hooken, New Jersey |publisher= John Wiley & Sons, Inc. |page=413 |isbn=978-0-471-36093-3}}</ref>

== '''节点使用的R语言示例代码''' ==
=== McNemar检验 ===
<syntaxhighlight lang="R">

mcnemar.test(x, y = NULL, correct = TRUE)

</syntaxhighlight>

== '''节点使用指南''' ==
* 一种非参数统计检验，用于配对名义数据
* 适用于研究设计中的“前-后”比较，或者任何两个条件在相同的样本上得到的二分类结果
* 通常用于判断两种治疗方法、诊断测试或任何两种条件下是否存在差异

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量1：选择二分类变量
* 统计变量2：选择一个或多个二分类变量，每个变量将与变量1做一次McNemar检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* McNemar检验不适用于独立样本，也不适用于多于两个时间点的数据
* 当数据包含大量配对中只有一个条件为正面或负面的情况时，标准的McNemar检验可能过于保守

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:频数表检验]]

Mantel-Haenszel检验

2024-01-24T08:05:52Z

RainW：

{{Infobox nodebasic
|nodename=Mantel-Haenszel检验
|nodeimage=Mantel_Haenszel Test.png
|icon=Mantel_Haenszel Test.svg
|simpleicon=Mantel_Haenszel Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Mantel_Haenszel Test
|abbreviation=MHTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::频数表检验]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=Mantel-Haenszel检验和Fisher检验一样，行列总和固定，都是两分类变量组成的四格列联表。然后有k个二维列联表，相当于将数据从二维扩展到三维。适合三变量的交互，检验变量的独立性和关联性。三变量之间是否互相独立或者有显著的影响。用途：用于检验两个分类变量在控制一个或多个混淆因素后是否独立，评估在控制一个或多个其他变量后，两个分类变量是否独立。参数：选择多分类混杂变量和两个分类变量
|nodeinputnumber=5
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Chi-Value;P-Value;df
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/Mantel-Haenszel检验
|previousnode=[[卡方检验]]
|nextnode=[[McNemar检验]]
}}

在[[统计学]]中，'''Cochran–Mantel–Haenszel检验'''（'''CMH'''）是一种用于分析[[分层（临床试验）|分层]]或[[匹配（统计学）|匹配]]的[[分类数据]]的测试方法。它使研究者能够在考虑分层的同时，检验二元预测因子或治疗与二元结果（如病例或对照状态）之间的关联。<ref name="agresti">{{cite book |last=Agresti |first=Alan |date=2002 |title=分类数据分析 |location=新泽西州霍博肯 |publisher= John Wiley & Sons, Inc. |pages=231–232 |isbn=0-471-36093-7}}</ref> 与只能处理成对数据的[[McNemar检验]]不同，CMH检验可以处理任意大小的分层。这种检验是以[[William G. Cochran]]、[[Nathan Mantel]]和[[William Haenszel]]的名字命名的。<ref>{{cite journal | author = William G. Cochran| title = 加强通用χ2检验的一些方法 | journal = Biometrics | date = 1954年12月 | volume = 10 | issue = 4 | pages = 417–451 | jstor = 3001616 | doi=10.2307/3001616}}</ref><ref>{{cite journal | author = Nathan Mantel 和 William Haenszel | title = 数据回顾性研究分析的统计方面 | journal = 国家癌症研究院杂志 | date = 1959年4月 | volume = 22| issue = 4 | pages = 719–748 | pmid = 13655060 | doi = 10.1093/jnci/22.4.719 }}</ref> 这个测试扩展到对分类响应和/或多个群体的研究，通常被称为Cochran–Mantel–Haenszel统计量。<ref>{{cite journal | author = Nathan Mantel | title = 自由度为一的卡方检验，Mantel–Haenszel程序的扩展 | journal = 美国统计协会杂志 | date = 1963年9月 | volume = 58 | number = 303 | pages = 690–700 | jstor = 2282717 | doi=10.1080/01621459.1963.10500879}}</ref> 它经常用于[[观察性研究]]中，其中无法控制对象随机分配到不同的治疗中，但可以测量[[混杂]]协变量。

=='''定义'''==
我们考虑一个二元结果变量，如病例状态（例如肺癌）和一个二元预测因子，如治疗状态（例如吸烟）。观察结果按分层分组。分层数据汇总为一系列2 × 2列联表，每个分层一个。第''i''个这样的列联表是：
{| class="wikitable" style="margin:1em auto; text-align:center;"
|-
| || 治疗 || 无治疗 || 行总计
|-
| 病例 || ''Ai'' || ''Bi'' || ''N''1''i''
|-
| 对照组 || ''Ci'' || ''Di'' || ''N''2''i''
|-
| 列总计 || ''M''1''i'' || ''M''2''i'' || ''Ti''
|}

''K''个列联表的共同[[几率比]]定义为：
:[math] R = {{\sum_{i=1}^K \frac{A_i D_i}{T_i}} \over {\sum_{i=1}^K {B_i C_i \over T_i}}},[/math]
零假设是治疗和结果之间没有关联。更确切地说，零假设是 [math]H_0: R=1[/math]，备择假设是 [math]H_1: R\ne 1[/math]。检验统计量是：
:[math] \xi_\text{CMH} = \frac{ \left[ \sum_{i=1}^K \left(A_i - \frac{N_{1i} M_{1i}}{T_i}\right) \right]^2}{\sum_{i=1}^K {N_{1i}N_{2i}M_{1i}M_{2i} \over T_i^2(T_i-1)}}.[/math]
它在零假设下渐近地遵循一个具有1个自由度的 [math]\chi^2[/math] 分布。<ref name="agresti" />

=='''子集稳定性'''==
所有分层的标准赔率或[[风险比]]可以计算出来，得到风险比 [math]r_1, r_2, \dots, r_n[/math]，其中 [math]n[/math] 是分层的数量。如果去除了分层，就会有一个合并表的总体风险比；设这个为 [math]R[/math]。{{cn|date=May 2023}}

人们通常期望，在不考虑分层条件下的事件风险被限制在分层中的最高和最低风险之间（或与赔率比相同）。
很容易构造出这种情况不成立的例子，其中 [math]R[/math] 大于或小于所有的 [math]r_i[/math]，对于 [math]i\in 1,\dots, n[/math]。
这与[[辛普森悖论]]相似但不完全相同，与辛普森悖论一样，很难解释这一统计量并据此决定政策。

Klemens<ref>{{cite journal|title=An Analysis of U.S. Domestic Migration via Subset-stable Measures of Administrative Data |author= [[Ben Klemens]]|journal = Journal of Computational Social Science |date= June 2021 |volume= 5|pages= 351–382|url=https://link.springer.com/epdf/10.1007/s42001-021-00124-w?sharing_token=IGAQk09pHKk8YvIi97_SK_e4RwlQNchNByi7wbcMAY4zLayUIu-8FSW4vyZTBOZvyAhQOpth9vYXF44PjsOrfh30WGnmA3rRghmBnED3wyaag-5XvPuPL22WC1hY7iQfICD4UzM7MOQbTz8s3RKO5-EhxMZQJe-VEQEdotRfaMA%3D|doi=10.1007/s42001-021-00124-w|s2cid= 236308711|url-access= subscription}}</ref>
定义了一个统计量是''子集稳定''的，当且仅当 [math]R[/math] 被限制在 [math]\min(r_i)[/math] 和 [math]\max(r_i)[/math] 之间，并且一个''表现良好''的统计量被定义为是[[平滑函数|无限可微]]的且不依赖于分层的顺序。
然后，CMH 统计量是满足子集稳定性的唯一表现良好的统计量。{{cn|date=May 2023}}

=='''相关测试'''==
* [[McNemar 测试]]只能处理成对数据。CMH 测试是 [[McNemar 测试]]的推广，因为当每个层次呈现一对时，它们的测试统计量是相同的。<ref>{{cite book |last=Agresti |first=Alan |date=2002 |title=Categorical Data Analysis |location=Hoboken, New Jersey |publisher= John Wiley & Sons, Inc. |page=413 |isbn=0-471-36093-7}}</ref>
* [[条件逻辑回归]]比 CMH 测试更为通用，因为它可以处理连续变量并执行多变量分析。当可以应用 CMH 测试时，CMH 测试统计量和 [[条件逻辑回归]]的[[得分测试]]统计量是相同的。<ref>{{cite journal|title=Testing hypotheses in case-control studies-equivalence of Mantel–Haenszel statistics and logit score tests.|author= Day N.E., Byar D.P.|journal = Biometrics | volume = 35 | issue = 3 | pages = 623–630 |date= September 1979 |jstor=2530253|doi=10.2307/2530253|pmid= 497345}}</ref>
* [[Breslow–Day 测试]]用于检验关联的均质性。CMH 测试假设所有层次中的治疗效果是均匀的。Breslow-Day 测试允许测试这一假设。如果分层很小，例如成对，这就不是一个问题。

== '''节点使用的R语言示例代码''' ==
=== Mantel-Haenszel检验 ===
<syntaxhighlight lang="R">

mantelhaen.test(x, y = NULL, z = NULL,
alternative = c("two.sided", "less", "greater"),
correct = TRUE, exact = FALSE, conf.level = 0.95)

</syntaxhighlight>

== '''节点使用指南''' ==
* 用于评估分层分类数据中变量之间的关联是否一致
* 用于研究结果可能由混杂因素影响的情况
* 以控制一个或多个层次变量，通常是混杂变量

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 混杂变量：选择分类变量
* 统计变量1：选择分类变量
* 统计变量2：选择一个或多个分类变量，每个变量将与变量1做一次Mantel Haenszel检验
* 置信区间百分比:输入百分比，95%置信区间就是0.95
* 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 混杂变量，统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 确保每一层的样本量足够大，以便比值比的估计是稳健的
* 当层内数据稀疏时，Mantel-Haenszel方法可能不适用

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:频数表检验]]

G检验

2024-01-24T07:31:55Z

RainW：

{{Infobox nodebasic
|nodename=G检验
|nodeimage=G_Test.png
|icon=G_Test.svg
|simpleicon=G_Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.2.0|V1.0.2]]部署
|nodeenglishname=G_Test
|abbreviation=GTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::频数表检验]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=G检验（G-test）是一个用于假设检验的统计方法，主要用来检验一组或多组观察到的频数分布是否与某个理论分布有显著性差异。它是基于似然比统计量的一种检验，适用于样本量较大的情况。用途：用来检验观察到的数据分布与特定的理论分布之间是否存在显著差异。参数：选择分类变量进行检验。
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Stats-Value;P-Value;df
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/G检验
|previousnode=[[McNemar检验]]
|nextnode=[[F检验]]
}}

在[[统计学]]中，'''''G''检验'''是一种日益普及的[[likelihood ratio test|似然比]]或[[maximum likelihood]] [[statistical significance]]检验，它们在过去推荐使用[[chi-squared test]]的情形中越来越多地被使用。<ref>{{cite book|author=McDonald, J.H.|year=2014|title=Handbook of Biological Statistics|location=Baltimore, Maryland|publisher=Sparky House Publishing|edition=Third|chapter=G–test of goodness-of-fit|chapter-url=http://www.biostathandbook.com/gtestgof.html|pages=53–58}}</ref>

=='''公式'''==
''G''的通用公式为:
[math] G = 2\sum_{i} {O_{i} \cdot \ln\left(\frac{O_i}{E_i}\right)}, [/math]

其中 [math]O_i \geq 0[/math] 是某个单元格中的观测计数，[math]E_i > 0[/math] 是在[[null hypothesis]]下的预期计数，[math]\ln[/math] 表示[[natural logarithm]]，求和是针对所有非空单元格。此外，总观测计数应等于总预期计数：[math]\sum_i O_i = \sum_i E_i = N[/math]其中 [math]N[/math] 是观测总数。

===推导===
我们可以从[[Likelihood-ratio test|对数似然比检验]]中推导出''G''检验的值，其中底层模型为多项式模型。

假设我们有一个样本 [math]x = (x_1, \ldots, x_m)[/math]，其中每个 [math]x_i[/math] 是观测到的类型 [math]i[/math] 物体的次数。此外，让 [math]n = \sum_{i=1}^m x_i[/math] 是观测到的物体总数。如果我们假设底层模型是多项式的，那么测试统计量定义为[math]\ln \left( \frac{L(\tilde{\theta}|x)}{L(\hat{\theta}|x)} \right)
= \ln \left( \frac{\prod_{i=1}^m \tilde{\theta}_i^{x_i}}{\prod_{i=1}^m \hat{\theta}_i^{x_i}} \right)[/math]其中 [math]\tilde{\theta}[/math] 是零假设，[math]\hat{\theta}[/math] 是给定数据的[[maximum likelihood estimate]] (MLE)。回想一下，对于多项式模型，给定一些数据的 [math]\hat{\theta}_i[/math] 的MLE定义为[math]\hat{\theta}_i = \frac{x_i}{n}[/math]此外，我们可以将每个零假设参数 [math]\tilde{\theta}_i[/math] 表示为[math]\tilde{\theta}_i = \frac{e_i}{n}[/math]因此，通过替换对数似然比中的 [math]\tilde{\theta}[/math] 和 [math]\hat{\theta}[/math] 的表示，方程简化为[math]\begin{align}
\ln \left( \frac{L(\tilde{\theta}|x)}{L(\hat{\theta}|x)} \right)
&= \ln \prod_{i=1}^m \left(\frac{e_i}{x_i}\right)^{x_i} \\
&= \sum_{i=1}^m x_i \ln\left(\frac{e_i}{x_i}\right) \\
\end{align}[/math]将变量 [math]e_i[/math] 重命名为 [math]E_i[/math]，将 [math]x_i[/math] 重命名为 [math]O_i[/math]。最后，乘以一个因子 [math]-2[/math]（用于使G检验公式[[#Relation to the chi-squared test|与皮尔逊卡方检验公式渐近等价]]），得到以下形式

[math]\begin{aligned} G & =-2 \sum_{i=1}^{m} O_{i} \ln \left(\frac{E_{i}}{O_{i}}\right) \\ & =2 \sum_{i=1}^{m} O_{i} \ln \left(\frac{O_{i}}{E_{i}}\right)\end{aligned}[/math]

直观上，可以将 [math]~ O_i ~[/math] 视为连续的并趋近于零，在这种情况下，[math]~ O_i \ln O_i \to 0 ~,[/math] 并且具有零观测的项可以简单地被丢弃。然而，每个单元格中的''预期''计数必须严格大于零（[math]~ E_i > 0 ~ \forall \, i ~[/math]），才能应用该方法。

=='''分布和使用'''==
假设观测频率是由随机抽样产生，来自具有给定预期频率的分布，那么''G''的[[probability distribution|分布]]大致是[[chi-squared distribution]]，与相应卡方检验的[[degrees of freedom (statistics)|自由度]]数量相同。

对于非常小的样本，[[multinomial test]]的适配度检验和[[Fisher's exact test]]的列联表检验，甚至贝叶斯假设选择，比''G''检验更可取。<ref name=McDonald-2014-HBS>{{cite book |last=McDonald |first=John H. |year=2014 |title=Handbook of Biological Statistics |location=Baltimore, MD |publisher=Sparky House Publishing |edition=3rd |chapter=Small numbers in chi-square and ''G''–tests |chapter-url= |pages=86–89}}</ref> McDonald建议如果总样本量小于1 000，始终使用精确检验（适配度的精确检验，[[Fisher's exact test]]）。
:对于1 000这个样本量，并没有什么神奇之处，它只是一个漂亮的圆整数，处于精确检验、卡方检验和''G''–检验将给出几乎相同的{{mvar|p}} 值的范围内。电子表格、网页计算器和[[Statistical Analysis System|SAS]]在处理1 000个样本量的精确检验时应该没有任何问题。
:::: — John H. McDonald<ref name=McDonald-2014-HBS/>

自1981年版的''Biometry''以来，[[Robert R. Sokal]]和[[F. James Rohlf]]的统计学教科书就推荐使用''G''-检验。<ref>{{cite book |last1=Sokal |first1=R. R. |last2=Rohlf |first2=F. J. |year=1981 |title=Biometry: The Principles and Practice of Statistics in Biological Research |location=New York |publisher=Freeman |edition=Second |isbn=978-0-7167-2411-7 |url-access=registration |url=https://archive.org/details/biometryprincipl00soka_0 }}</ref>

=='''与其他指标的关系'''==

===与卡方检验的关系===
通常使用的[[chi-squared test]]对分布的适配度检验和[[contingency table]]中的独立性检验实际上是基于''G''检验的[[log-likelihood ratio]]的近似。<ref>{{cite arXiv |last=Hoey |first=J. |year=2012 |eprint=1206.4881|title=The Two-Way Likelihood Ratio (G) Test and Comparison to Two-Way Chi-Squared Test |class=stat.ME }}</ref>

皮尔逊卡方检验统计量的通用公式为：
[math] \chi^2 = \sum_{i} {\frac{\left(O_i - E_i\right)^2}{E_i}} ~.[/math]

通过对自然对数在1附近的二阶[[Taylor series|泰勒展开]]，可以获得''G''与卡方的近似值（请参阅下方的[[#Derivation (chi-squared)]]）。
当观测计数[math]~ O_i ~[/math]接近期望计数[math]~ E_i ~[/math]时，我们有 [math] G \approx \chi^2 [/math]。然而，当这种差异较大时，[math]~ \chi^2 ~[/math]的近似开始崩溃。在这里，数据中的异常值的影响将更为显著，这解释了为什么在数据较少的情况下[math]~ \chi^2 ~[/math]检验会失败。

对于合理大小的样本，''G''-检验和卡方检验将导致相同的结论。然而，对于''G''-检验，其理论卡方分布的近似比[[Pearson's chi-squared test|皮尔逊卡方检验]]更好。<ref>{{cite book |last1=Harremoës |first1=P. |last2=Tusnády |first2=G. |year=2012 |arxiv=1202.1125 |chapter=Information divergence is more chi squared distributed than the chi squared statistic |title=Proceedings ISIT 2012 |pages=538–543 |bibcode=2012arXiv1202.1125H }}</ref> 在某些单元格中[math]~ O_i > 2 \cdot E_i ~[/math]的情况下，''G''-检验总是优于卡方检验。{{citation needed|date=August 2011}}

在检验拟合优度时，从巴哈杜尔（Bahadur）的角度来看，''G''-检验比卡方检验无限地更加[[Efficiency (statistics)|高效]]，但从皮特曼（Pitman）或霍奇斯和莱曼（Hodges and Lehmann）的角度来看，这两种检验同样高效。<ref>{{cite journal |last1=Quine |first1=M. P. |last2=Robinson |first2=J. |year=1985 |title=Efficiencies of chi-square and likelihood ratio goodness-of-fit tests |journal=[[Annals of Statistics]] |volume=13 |issue= 2|pages=727–742 |doi=10.1214/aos/1176349550|doi-access=free }}</ref><ref>{{cite journal |last1=Harremoës |first1=P. |last2=Vajda |first2=I. |year=2008 |title=On the Bahadur-efficient testing of uniformity by means of the entropy |journal=[[IEEE Transactions on Information Theory]] |volume=54 |pages=321–331 |doi=10.1109/tit.2007.911155|citeseerx=10.1.1.226.8051 |s2cid=2258586 }}</ref>

====卡方的推导（chi-squared）====
考虑
:[math] G = 2\sum_{i} {O_{i} \ln\left(\frac{O_i}{E_i}\right)} ~,[/math]
并设[math]O_i = E_i + \delta_i[/math]，其中[math]\sum_i \delta_i = 0 ~,[/math] 以保持总计数不变。替换后我们发现，
:[math] G = 2\sum_{i} {(E_i + \delta_i) \ln \left(1+\frac{\delta_i}{E_i}\right)} ~.[/math]
可以使用[math] \ln(1 + x) = x - \frac{1}{2}x^2 + \mathcal{O}(x^3) [/math]在[math]1+\frac{\delta_i}{E_i}[/math]附近进行泰勒展开。结果是
:[math] G = 2\sum_{i} (E_i + \delta_i) \left(\frac{\delta_i}{E_i} - \frac{1}{2}\frac{\delta_i^2}{E_i^2} + \mathcal{O}\left(\delta_i^3\right) \right) ~,[/math] 分配项后我们发现，
:[math] G = 2\sum_{i} \delta_i + \frac{1}{2}\frac{\delta_i^2}{E_i} + \mathcal{O}\left(\delta_i^3\right)~.[/math]
现在，使用事实[math]~ \sum_{i} \delta_i = 0 ~[/math]和[math]~ \delta_i = O_i - E_i ~,[/math]我们可以写出结果，
:[math]~ G \approx \sum_{i} \frac{\left(O_i-E_i\right)^2}{E_i} ~.[/math]

===与库尔巴克-莱布勒散度的关系===
''G''-检验统计量与理论分布与实际分布之间的[[Kullback–Leibler divergence|库尔巴克-莱布勒散度]]成正比：

[math]\begin{aligned} G & =2 \sum_{i} O_{i} \cdot \ln \left(\frac{O_{i}}{E_{i}}\right)=2 N \sum_{i} o_{i} \cdot \ln \left(\frac{o_{i}}{e_{i}}\right) \\ & =2 N D_{\mathrm{KL}}(o \| e)\end{aligned}[/math]

其中''N''是观测总数，[math]o_i[/math] 和 [math]e_i[/math] 分别是实际和理论频率。

===与互信息的关系===
对于[[contingency table|列联表]]分析，''G''的值也可以用[[mutual information|互信息]]来表示。

设
:[math]N = \sum_{ij}{O_{ij}} \; [/math] , [math] \; \pi_{ij} = \frac{O_{ij}}{N} \;[/math] , [math]\; \pi_{i.} = \frac{\sum_j O_{ij}}{N} \; [/math], 和 [math]\; \pi_{. j} = \frac{\sum_i O_{ij}}{N} \;[/math]。

那么''G''可以用几种替代形式表达：

:[math] G = 2 \cdot N \cdot \sum_{ij}{\pi_{ij} \left( \ln(\pi_{ij})-\ln(\pi_{i.})-\ln(\pi_{.j}) \right)} ,[/math]

:[math] G = 2 \cdot N \cdot \left[ H(r) + H(c) - H(r,c) \right] , [/math]

:[math] G = 2 \cdot N \cdot \operatorname{MI}(r,c) \, ,[/math]

其中离散随机变量[math]X \,[/math]的[[Entropy (information theory)|熵]]定义为
:[math] H(X) = - {\sum_{x \in \text{Supp}(X)} p(x) \log p(x)} \, ,[/math]
并且
:[math] \operatorname{MI}(r,c)= H(r) + H(c) - H(r,c) \, [/math]
是列联表的行向量''r''和列向量''c''之间的[[mutual information|互信息]]。

还可以展示{{citation needed|date=August 2011}}，用于文本检索的逆文档频率加权通常是''G''的近似，适用于查询的行总和远小于语料库其余部分的行总和的情况。同样，应用于选择单个多项式分布而非更一般的每行一个多项式的贝叶斯推理的结果，与''G''统计量的结果非常相似。{{citation needed|date=August 2011}}

=='''应用'''==
* 在[[统计遗传学]]中，[[麦当劳-克莱特曼测试]]是''G''-检验的一个应用。
* 达宁<ref>Dunning, Ted (1993)。"[https://www.aclweb.org/anthology/J93-1003 精确方法用于惊奇和巧合的统计] {{Webarchive|url= |date=2011-12-15 }}", ''[[Computational Linguistics (journal)|计算语言学]]'', 第19卷，第1期（1993年3月）。</ref>将这一检验介绍给了[[计算语言学]]社区，现在在该领域被广泛使用。
* R-scape程序（被[[Rfam]]使用）使用G-检验来检测RNA序列比对位置之间的协变。<ref>{{cite journal |last1=Rivas |first1=Elena |title=使用正面和负面进化信息的RNA结构预测 |journal=PLOS Computational Biology |date=2020年10月30日 |volume=16 |issue=10 |pages=e1008387 |doi=10.1371/journal.pcbi.1008387|doi-access=free |pmc=7657543 }}</ref>

== '''节点使用指南''' ==
* 用于确定模型拟合数据的好坏的统计方法
* 用于检验分布的拟合优度、独立性检验以及同质性检验

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量1：选择一个离散型分类数值变量，如果不是continue类型需要转换。1和0的分类不可输入
* 统计变量2：选择一个或多个离散型分类数值变量，如果不是continue类型需要转换。1和0的分类不可输入。如果选择多个，则每一个变量与变量1做一次G检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 两个统计变量的值必须不是0,1
* 当样本量较大时，G检验比卡方检验更为准确
* 当数据中有很小的期望频数时，使用G检验要小心，因为当期望频数特别低时（比如小于5），G检验的结果可能不太可靠

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:频数表检验]]

G检验

2024-01-24T07:28:22Z

RainW：

{{Infobox nodebasic
|nodename=G检验
|nodeimage=G_Test.png
|icon=G_Test.svg
|simpleicon=G_Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.2.0|V1.0.2]]部署
|nodeenglishname=G_Test
|abbreviation=GTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::频数表检验]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=G检验（G-test）是一个用于假设检验的统计方法，主要用来检验一组或多组观察到的频数分布是否与某个理论分布有显著性差异。它是基于似然比统计量的一种检验，适用于样本量较大的情况。用途：用来检验观察到的数据分布与特定的理论分布之间是否存在显著差异。参数：选择分类变量进行检验。
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Stats-Value;P-Value;df
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/G检验
|previousnode=[[McNemar检验]]
|nextnode=[[F检验]]
}}

在[[统计学]]中，'''''G''检验'''是一种日益普及的[[likelihood ratio test|似然比]]或[[maximum likelihood]] [[statistical significance]]检验，它们在过去推荐使用[[chi-squared test]]的情形中越来越多地被使用。<ref>{{cite book|author=McDonald, J.H.|year=2014|title=Handbook of Biological Statistics|location=Baltimore, Maryland|publisher=Sparky House Publishing|edition=Third|chapter=G–test of goodness-of-fit|chapter-url=http://www.biostathandbook.com/gtestgof.html|pages=53–58}}</ref>

=='''公式'''==
''G''的通用公式为:
[math] G = 2\sum_{i} {O_{i} \cdot \ln\left(\frac{O_i}{E_i}\right)}, [/math]

其中 [math]O_i \geq 0[/math] 是某个单元格中的观测计数，[math]E_i > 0[/math] 是在[[null hypothesis]]下的预期计数，[math]\ln[/math] 表示[[natural logarithm]]，求和是针对所有非空单元格。此外，总观测计数应等于总预期计数：[math]\sum_i O_i = \sum_i E_i = N[/math]其中 [math]N[/math] 是观测总数。

===推导===
我们可以从[[Likelihood-ratio test|对数似然比检验]]中推导出''G''检验的值，其中底层模型为多项式模型。

假设我们有一个样本 [math]x = (x_1, \ldots, x_m)[/math]，其中每个 [math]x_i[/math] 是观测到的类型 [math]i[/math] 物体的次数。此外，让 [math]n = \sum_{i=1}^m x_i[/math] 是观测到的物体总数。如果我们假设底层模型是多项式的，那么测试统计量定义为[math]\ln \left( \frac{L(\tilde{\theta}|x)}{L(\hat{\theta}|x)} \right)
= \ln \left( \frac{\prod_{i=1}^m \tilde{\theta}_i^{x_i}}{\prod_{i=1}^m \hat{\theta}_i^{x_i}} \right)[/math]其中 [math]\tilde{\theta}[/math] 是零假设，[math]\hat{\theta}[/math] 是给定数据的[[maximum likelihood estimate]] (MLE)。回想一下，对于多项式模型，给定一些数据的 [math]\hat{\theta}_i[/math] 的MLE定义为[math]\hat{\theta}_i = \frac{x_i}{n}[/math]此外，我们可以将每个零假设参数 [math]\tilde{\theta}_i[/math] 表示为[math]\tilde{\theta}_i = \frac{e_i}{n}[/math]因此，通过替换对数似然比中的 [math]\tilde{\theta}[/math] 和 [math]\hat{\theta}[/math] 的表示，方程简化为[math]\begin{align}
\ln \left( \frac{L(\tilde{\theta}|x)}{L(\hat{\theta}|x)} \right)
&= \ln \prod_{i=1}^m \left(\frac{e_i}{x_i}\right)^{x_i} \\
&= \sum_{i=1}^m x_i \ln\left(\frac{e_i}{x_i}\right) \\
\end{align}[/math]将变量 [math]e_i[/math] 重命名为 [math]E_i[/math]，将 [math]x_i[/math] 重命名为 [math]O_i[/math]。最后，乘以一个因子 [math]-2[/math]（用于使G检验公式[[#Relation to the chi-squared test|与皮尔逊卡方检验公式渐近等价]]），得到以下形式

[math]\begin{aligned} G & =-2 \sum_{i=1}^{m} O_{i} \ln \left(\frac{E_{i}}{O_{i}}\right) \\ & =2 \sum_{i=1}^{m} O_{i} \ln \left(\frac{O_{i}}{E_{i}}\right)\end{aligned}[/math]

直观上，可以将 [math]~ O_i ~[/math] 视为连续的并趋近于零，在这种情况下，[math]~ O_i \ln O_i \to 0 ~,[/math] 并且具有零观测的项可以简单地被丢弃。然而，每个单元格中的''预期''计数必须严格大于零（[math]~ E_i > 0 ~ \forall \, i ~[/math]），才能应用该方法。

=='''分布和使用'''==
假设观测频率是由随机抽样产生，来自具有给定预期频率的分布，那么''G''的[[probability distribution|分布]]大致是[[chi-squared distribution]]，与相应卡方检验的[[degrees of freedom (statistics)|自由度]]数量相同。

对于非常小的样本，[[multinomial test]]的适配度检验和[[Fisher's exact test]]的列联表检验，甚至贝叶斯假设选择，比''G''检验更可取。<ref name=McDonald-2014-HBS>{{cite book |last=McDonald |first=John H. |year=2014 |title=Handbook of Biological Statistics |location=Baltimore, MD |publisher=Sparky House Publishing |edition=3rd |chapter=Small numbers in chi-square and ''G''–tests |chapter-url= |pages=86–89}}</ref> McDonald建议如果总样本量小于1 000，始终使用精确检验（适配度的精确检验，[[Fisher's exact test]]）。
:对于1 000这个样本量，并没有什么神奇之处，它只是一个漂亮的圆整数，处于精确检验、卡方检验和''G''–检验将给出几乎相同的{{mvar|p}} 值的范围内。电子表格、网页计算器和[[Statistical Analysis System|SAS]]在处理1 000个样本量的精确检验时应该没有任何问题。
:::: — John H. McDonald<ref name=McDonald-2014-HBS/>

自1981年版的''Biometry''以来，[[Robert R. Sokal]]和[[F. James Rohlf]]的统计学教科书就推荐使用''G''-检验。<ref>{{cite book |last1=Sokal |first1=R. R. |last2=Rohlf |first2=F. J. |year=1981 |title=Biometry: The Principles and Practice of Statistics in Biological Research |location=New York |publisher=Freeman |edition=Second |isbn=978-0-7167-2411-7 |url-access=registration |url=https://archive.org/details/biometryprincipl00soka_0 }}</ref>

=='''与其他指标的关系'''==

===与卡方检验的关系===
通常使用的[[chi-squared test]]对分布的适配度检验和[[contingency table]]中的独立性检验实际上是基于''G''检验的[[log-likelihood ratio]]的近似。<ref>{{cite arXiv |last=Hoey |first=J. |year=2012 |eprint=1206.4881|title=The Two-Way Likelihood Ratio (G) Test and Comparison to Two-Way Chi-Squared Test |class=stat.ME }}</ref>

皮尔逊卡方检验统计量的通用公式为：
[math] \chi^2 = \sum_{i} {\frac{\left(O_i - E_i\right)^2}{E_i}} ~.[/math]

通过对自然对数在1附近的二阶[[Taylor series|泰勒展开]]，可以获得''G''与卡方的近似值（请参阅下方的[[#Derivation (chi-squared)]]）。
当观测计数[math]~ O_i ~[/math]接近期望计数[math]~ E_i ~[/math]时，我们有 [math] G \approx \chi^2 [/math]。然而，当这种差异较大时，[math]~ \chi^2 ~[/math]的近似开始崩溃。在这里，数据中的异常值的影响将更为显著，这解释了为什么在数据较少的情况下[math]~ \chi^2 ~[/math]检验会失败。

对于合理大小的样本，''G''-检验和卡方检验将导致相同的结论。然而，对于''G''-检验，其理论卡方分布的近似比[[Pearson's chi-squared test|皮尔逊卡方检验]]更好。<ref>{{cite book |last1=Harremoës |first1=P. |last2=Tusnády |first2=G. |year=2012 |arxiv=1202.1125 |chapter=Information divergence is more chi squared distributed than the chi squared statistic |title=Proceedings ISIT 2012 |pages=538–543 |bibcode=2012arXiv1202.1125H }}</ref> 在某些单元格中[math]~ O_i > 2 \cdot E_i ~[/math]的情况下，''G''-检验总是优于卡方检验。{{citation needed|date=August 2011}}

在检验拟合优度时，从巴哈杜尔（Bahadur）的角度来看，''G''-检验比卡方检验无限地更加[[Efficiency (statistics)|高效]]，但从皮特曼（Pitman）或霍奇斯和莱曼（Hodges and Lehmann）的角度来看，这两种检验同样高效。<ref>{{cite journal |last1=Quine |first1=M. P. |last2=Robinson |first2=J. |year=1985 |title=Efficiencies of chi-square and likelihood ratio goodness-of-fit tests |journal=[[Annals of Statistics]] |volume=13 |issue= 2|pages=727–742 |doi=10.1214/aos/1176349550|doi-access=free }}</ref><ref>{{cite journal |last1=Harremoës |first1=P. |last2=Vajda |first2=I. |year=2008 |title=On the Bahadur-efficient testing of uniformity by means of the entropy |journal=[[IEEE Transactions on Information Theory]] |volume=54 |pages=321–331 |doi=10.1109/tit.2007.911155|citeseerx=10.1.1.226.8051 |s2cid=2258586 }}</ref>

====卡方的推导（chi-squared）====
考虑
:[math] G = 2\sum_{i} {O_{i} \ln\left(\frac{O_i}{E_i}\right)} ~,[/math]
并设[math]O_i = E_i + \delta_i[/math]，其中[math]\sum_i \delta_i = 0 ~,[/math] 以保持总计数不变。替换后我们发现，
:[math] G = 2\sum_{i} {(E_i + \delta_i) \ln \left(1+\frac{\delta_i}{E_i}\right)} ~.[/math]
可以使用[math] \ln(1 + x) = x - \frac{1}{2}x^2 + \mathcal{O}(x^3) [/math]在[math]1+\frac{\delta_i}{E_i}[/math]附近进行泰勒展开。结果是
:[math] G = 2\sum_{i} (E_i + \delta_i) \left(\frac{\delta_i}{E_i} - \frac{1}{2}\frac{\delta_i^2}{E_i^2} + \mathcal{O}\left(\delta_i^3\right) \right) ~,[/math] 分配项后我们发现，
:[math] G = 2\sum_{i} \delta_i + \frac{1}{2}\frac{\delta_i^2}{E_i} + \mathcal{O}\left(\delta_i^3\right)~.[/math]
现在，使用事实[math]~ \sum_{i} \delta_i = 0 ~[/math]和[math]~ \delta_i = O_i - E_i ~,[/math]我们可以写出结果，
:[math]~ G \approx \sum_{i} \frac{\left(O_i-E_i\right)^2}{E_i} ~.[/math]

===与库尔巴克-莱布勒散度的关系===
''G''-检验统计量与理论分布与实际分布之间的[[Kullback–Leibler divergence|库尔巴克-莱布勒散度]]成正比：

:[math]
\begin{align}
G &= 2\sum_{i} {O_{i} \cdot \ln\left(\frac{O_i}{E_i}\right)}
= 2 N \sum_{i} {o_i \cdot \ln\left(\frac{o_i}{e_i}\right)} \\
&= 2 N \, D_{\mathrm{KL}}(o\|e),
\end{align}[/math]

其中''N''是观测总数，[math]o_i[/math] 和 [math]e_i[/math] 分别是实际和理论频率。

===与互信息的关系===
对于[[contingency table|列联表]]分析，''G''的值也可以用[[mutual information|互信息]]来表示。

设
:[math]N = \sum_{ij}{O_{ij}} \; [/math] , [math] \; \pi_{ij} = \frac{O_{ij}}{N} \;[/math] , [math]\; \pi_{i.} = \frac{\sum_j O_{ij}}{N} \; [/math], 和 [math]\; \pi_{. j} = \frac{\sum_i O_{ij}}{N} \;[/math]。

那么''G''可以用几种替代形式表达：

:[math] G = 2 \cdot N \cdot \sum_{ij}{\pi_{ij} \left( \ln(\pi_{ij})-\ln(\pi_{i.})-\ln(\pi_{.j}) \right)} ,[/math]

:[math] G = 2 \cdot N \cdot \left[ H(r) + H(c) - H(r,c) \right] , [/math]

:[math] G = 2 \cdot N \cdot \operatorname{MI}(r,c) \, ,[/math]

其中离散随机变量[math]X \,[/math]的[[Entropy (information theory)|熵]]定义为
:[math] H(X) = - {\sum_{x \in \text{Supp}(X)} p(x) \log p(x)} \, ,[/math]
并且
:[math] \operatorname{MI}(r,c)= H(r) + H(c) - H(r,c) \, [/math]
是列联表的行向量''r''和列向量''c''之间的[[mutual information|互信息]]。

还可以展示{{citation needed|date=August 2011}}，用于文本检索的逆文档频率加权通常是''G''的近似，适用于查询的行总和远小于语料库其余部分的行总和的情况。同样，应用于选择单个多项式分布而非更一般的每行一个多项式的贝叶斯推理的结果，与''G''统计量的结果非常相似。{{citation needed|date=August 2011}}

=='''应用'''==
* 在[[统计遗传学]]中，[[麦当劳-克莱特曼测试]]是''G''-检验的一个应用。
* 达宁<ref>Dunning, Ted (1993)。"[https://www.aclweb.org/anthology/J93-1003 精确方法用于惊奇和巧合的统计] {{Webarchive|url= |date=2011-12-15 }}", ''[[Computational Linguistics (journal)|计算语言学]]'', 第19卷，第1期（1993年3月）。</ref>将这一检验介绍给了[[计算语言学]]社区，现在在该领域被广泛使用。
* R-scape程序（被[[Rfam]]使用）使用G-检验来检测RNA序列比对位置之间的协变。<ref>{{cite journal |last1=Rivas |first1=Elena |title=使用正面和负面进化信息的RNA结构预测 |journal=PLOS Computational Biology |date=2020年10月30日 |volume=16 |issue=10 |pages=e1008387 |doi=10.1371/journal.pcbi.1008387|doi-access=free |pmc=7657543 }}</ref>

== '''节点使用指南''' ==
* 用于确定模型拟合数据的好坏的统计方法
* 用于检验分布的拟合优度、独立性检验以及同质性检验

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量1：选择一个离散型分类数值变量，如果不是continue类型需要转换。1和0的分类不可输入
* 统计变量2：选择一个或多个离散型分类数值变量，如果不是continue类型需要转换。1和0的分类不可输入。如果选择多个，则每一个变量与变量1做一次G检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 两个统计变量的值必须不是0,1
* 当样本量较大时，G检验比卡方检验更为准确
* 当数据中有很小的期望频数时，使用G检验要小心，因为当期望频数特别低时（比如小于5），G检验的结果可能不太可靠

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:频数表检验]]

G检验

2024-01-24T07:24:11Z

RainW：

{{Infobox nodebasic
|nodename=G检验
|nodeimage=G_Test.png
|icon=G_Test.svg
|simpleicon=G_Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.2.0|V1.0.2]]部署
|nodeenglishname=G_Test
|abbreviation=GTest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::频数表检验]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=G检验（G-test）是一个用于假设检验的统计方法，主要用来检验一组或多组观察到的频数分布是否与某个理论分布有显著性差异。它是基于似然比统计量的一种检验，适用于样本量较大的情况。用途：用来检验观察到的数据分布与特定的理论分布之间是否存在显著差异。参数：选择分类变量进行检验。
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Stats-Value;P-Value;df
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/G检验
|previousnode=[[McNemar检验]]
|nextnode=[[F检验]]
}}

在[[统计学]]中，'''''G''检验'''是一种日益普及的[[likelihood ratio test|似然比]]或[[maximum likelihood]] [[statistical significance]]检验，它们在过去推荐使用[[chi-squared test]]的情形中越来越多地被使用。<ref>{{cite book|author=McDonald, J.H.|year=2014|title=Handbook of Biological Statistics|location=Baltimore, Maryland|publisher=Sparky House Publishing|edition=Third|chapter=G–test of goodness-of-fit|chapter-url=http://www.biostathandbook.com/gtestgof.html|pages=53–58}}</ref>

=='''公式'''==
''G''的通用公式为:
[math] G = 2\sum_{i} {O_{i} \cdot \ln\left(\frac{O_i}{E_i}\right)}, [/math]

其中 [math display="inline"]O_i \geq 0[/math] 是某个单元格中的观测计数，[math display="inline"]E_i > 0[/math] 是在[[null hypothesis]]下的预期计数，[math display="inline"]\ln[/math] 表示[[natural logarithm]]，求和是针对所有非空单元格。此外，总观测计数应等于总预期计数：[math]\sum_i O_i = \sum_i E_i = N[/math]其中 [math display="inline"]N[/math] 是观测总数。

===推导===
我们可以从[[Likelihood-ratio test|对数似然比检验]]中推导出''G''检验的值，其中底层模型为多项式模型。

假设我们有一个样本 [math display="inline"]x = (x_1, \ldots, x_m)[/math]，其中每个 [math display="inline"]x_i[/math] 是观测到的类型 [math display="inline"]i[/math] 物体的次数。此外，让 [math display="inline"]n = \sum_{i=1}^m x_i[/math] 是观测到的物体总数。如果我们假设底层模型是多项式的，那么测试统计量定义为[math]\ln \left( \frac{L(\tilde{\theta}|x)}{L(\hat{\theta}|x)} \right)
= \ln \left( \frac{\prod_{i=1}^m \tilde{\theta}_i^{x_i}}{\prod_{i=1}^m \hat{\theta}_i^{x_i}} \right)[/math]其中 [math display="inline"]\tilde{\theta}[/math] 是零假设，[math]\hat{\theta}[/math] 是给定数据的[[maximum likelihood estimate]] (MLE)。回想一下，对于多项式模型，给定一些数据的 [math display="inline"]\hat{\theta}_i[/math] 的MLE定义为[math]\hat{\theta}_i = \frac{x_i}{n}[/math]此外，我们可以将每个零假设参数 [math]\tilde{\theta}_i[/math] 表示为[math]\tilde{\theta}_i = \frac{e_i}{n}[/math]因此，通过替换对数似然比中的 [math display="inline"]\tilde{\theta}[/math] 和 [math display="inline"]\hat{\theta}[/math] 的表示，方程简化为[math]\begin{align}
\ln \left( \frac{L(\tilde{\theta}|x)}{L(\hat{\theta}|x)} \right)
&= \ln \prod_{i=1}^m \left(\frac{e_i}{x_i}\right)^{x_i} \\
&= \sum_{i=1}^m x_i \ln\left(\frac{e_i}{x_i}\right) \\
\end{align}[/math]将变量 [math display="inline"]e_i[/math] 重命名为 [math display="inline"]E_i[/math]，将 [math display="inline"]x_i[/math] 重命名为 [math display="inline"]O_i[/math]。最后，乘以一个因子 [math display="inline"]-2[/math]（用于使G检验公式[[#Relation to the chi-squared test|与皮尔逊卡方检验公式渐近等价]]），得到以下形式

[math]\begin{alignat}{2}
G & = & \; -2 \sum_{i=1}^m O_i \ln\left(\frac{E_i}{O_i}\right) \\
& = & 2 \sum_{i=1}^m O_i \ln\left(\frac{O_i}{E_i}\right)
\end{alignat}[/math]

直观上，可以将 [math]~ O_i ~[/math] 视为连续的并趋近于零，在这种情况下，[math]~ O_i \ln O_i \to 0 ~,[/math] 并且具有零观测的项可以简单地被丢弃。然而，每个单元格中的''预期''计数必须严格大于零（[math]~ E_i > 0 ~ \forall \, i ~[/math]），才能应用该方法。

=='''分布和使用'''==
假设观测频率是由随机抽样产生，来自具有给定预期频率的分布，那么''G''的[[probability distribution|分布]]大致是[[chi-squared distribution]]，与相应卡方检验的[[degrees of freedom (statistics)|自由度]]数量相同。

对于非常小的样本，[[multinomial test]]的适配度检验和[[Fisher's exact test]]的列联表检验，甚至贝叶斯假设选择，比''G''检验更可取。<ref name=McDonald-2014-HBS>{{cite book |last=McDonald |first=John H. |year=2014 |title=Handbook of Biological Statistics |location=Baltimore, MD |publisher=Sparky House Publishing |edition=3rd |chapter=Small numbers in chi-square and ''G''–tests |chapter-url= |pages=86–89}}</ref> McDonald建议如果总样本量小于1 000，始终使用精确检验（适配度的精确检验，[[Fisher's exact test]]）。
:对于1 000这个样本量，并没有什么神奇之处，它只是一个漂亮的圆整数，处于精确检验、卡方检验和''G''–检验将给出几乎相同的{{mvar|p}} 值的范围内。电子表格、网页计算器和[[Statistical Analysis System|SAS]]在处理1 000个样本量的精确检验时应该没有任何问题。
:::: — John H. McDonald<ref name=McDonald-2014-HBS/>

自1981年版的''Biometry''以来，[[Robert R. Sokal]]和[[F. James Rohlf]]的统计学教科书就推荐使用''G''-检验。<ref>{{cite book |last1=Sokal |first1=R. R. |last2=Rohlf |first2=F. J. |year=1981 |title=Biometry: The Principles and Practice of Statistics in Biological Research |location=New York |publisher=Freeman |edition=Second |isbn=978-0-7167-2411-7 |url-access=registration |url=https://archive.org/details/biometryprincipl00soka_0 }}</ref>

=='''与其他指标的关系'''==

===与卡方检验的关系===
通常使用的[[chi-squared test]]对分布的适配度检验和[[contingency table]]中的独立性检验实际上是基于''G''检验的[[log-likelihood ratio]]的近似。<ref>{{cite arXiv |last=Hoey |first=J. |year=2012 |eprint=1206.4881|title=The Two-Way Likelihood Ratio (G) Test and Comparison to Two-Way Chi-Squared Test |class=stat.ME }}</ref>

皮尔逊卡方检验统计量的通用公式为：
[math] \chi^2 = \sum_{i} {\frac{\left(O_i - E_i\right)^2}{E_i}} ~.[/math]

通过对自然对数在1附近的二阶[[Taylor series|泰勒展开]]，可以获得''G''与卡方的近似值（请参阅下方的[[#Derivation (chi-squared)]]）。
当观测计数[math]~ O_i ~[/math]接近期望计数[math]~ E_i ~[/math]时，我们有 [math] G \approx \chi^2 [/math]。然而，当这种差异较大时，[math]~ \chi^2 ~[/math]的近似开始崩溃。在这里，数据中的异常值的影响将更为显著，这解释了为什么在数据较少的情况下[math]~ \chi^2 ~[/math]检验会失败。

对于合理大小的样本，''G''-检验和卡方检验将导致相同的结论。然而，对于''G''-检验，其理论卡方分布的近似比[[Pearson's chi-squared test|皮尔逊卡方检验]]更好。<ref>{{cite book |last1=Harremoës |first1=P. |last2=Tusnády |first2=G. |year=2012 |arxiv=1202.1125 |chapter=Information divergence is more chi squared distributed than the chi squared statistic |title=Proceedings ISIT 2012 |pages=538–543 |bibcode=2012arXiv1202.1125H }}</ref> 在某些单元格中[math]~ O_i > 2 \cdot E_i ~[/math]的情况下，''G''-检验总是优于卡方检验。{{citation needed|date=August 2011}}

在检验拟合优度时，从巴哈杜尔（Bahadur）的角度来看，''G''-检验比卡方检验无限地更加[[Efficiency (statistics)|高效]]，但从皮特曼（Pitman）或霍奇斯和莱曼（Hodges and Lehmann）的角度来看，这两种检验同样高效。<ref>{{cite journal |last1=Quine |first1=M. P. |last2=Robinson |first2=J. |year=1985 |title=Efficiencies of chi-square and likelihood ratio goodness-of-fit tests |journal=[[Annals of Statistics]] |volume=13 |issue= 2|pages=727–742 |doi=10.1214/aos/1176349550|doi-access=free }}</ref><ref>{{cite journal |last1=Harremoës |first1=P. |last2=Vajda |first2=I. |year=2008 |title=On the Bahadur-efficient testing of uniformity by means of the entropy |journal=[[IEEE Transactions on Information Theory]] |volume=54 |pages=321–331 |doi=10.1109/tit.2007.911155|citeseerx=10.1.1.226.8051 |s2cid=2258586 }}</ref>

====卡方的推导（chi-squared）====
考虑
:[math] G = 2\sum_{i} {O_{i} \ln\left(\frac{O_i}{E_i}\right)} ~,[/math]
并设[math]O_i = E_i + \delta_i[/math]，其中[math]\sum_i \delta_i = 0 ~,[/math] 以保持总计数不变。替换后我们发现，
:[math] G = 2\sum_{i} {(E_i + \delta_i) \ln \left(1+\frac{\delta_i}{E_i}\right)} ~.[/math]
可以使用[math] \ln(1 + x) = x - \frac{1}{2}x^2 + \mathcal{O}(x^3) [/math]在[math]1+\frac{\delta_i}{E_i}[/math]附近进行泰勒展开。结果是
:[math] G = 2\sum_{i} (E_i + \delta_i) \left(\frac{\delta_i}{E_i} - \frac{1}{2}\frac{\delta_i^2}{E_i^2} + \mathcal{O}\left(\delta_i^3\right) \right) ~,[/math] 分配项后我们发现，
:[math] G = 2\sum_{i} \delta_i + \frac{1}{2}\frac{\delta_i^2}{E_i} + \mathcal{O}\left(\delta_i^3\right)~.[/math]
现在，使用事实[math]~ \sum_{i} \delta_i = 0 ~[/math]和[math]~ \delta_i = O_i - E_i ~,[/math]我们可以写出结果，
:[math]~ G \approx \sum_{i} \frac{\left(O_i-E_i\right)^2}{E_i} ~.[/math]

===与库尔巴克-莱布勒散度的关系===
''G''-检验统计量与理论分布与实际分布之间的[[Kullback–Leibler divergence|库尔巴克-莱布勒散度]]成正比：

:[math]
\begin{align}
G &= 2\sum_{i} {O_{i} \cdot \ln\left(\frac{O_i}{E_i}\right)}
= 2 N \sum_{i} {o_i \cdot \ln\left(\frac{o_i}{e_i}\right)} \\
&= 2 N \, D_{\mathrm{KL}}(o\|e),
\end{align}[/math]

其中''N''是观测总数，[math]o_i[/math] 和 [math]e_i[/math] 分别是实际和理论频率。

===与互信息的关系===
对于[[contingency table|列联表]]分析，''G''的值也可以用[[mutual information|互信息]]来表示。

设
:[math]N = \sum_{ij}{O_{ij}} \; [/math] , [math] \; \pi_{ij} = \frac{O_{ij}}{N} \;[/math] , [math]\; \pi_{i.} = \frac{\sum_j O_{ij}}{N} \; [/math], 和 [math]\; \pi_{. j} = \frac{\sum_i O_{ij}}{N} \;[/math]。

那么''G''可以用几种替代形式表达：

:[math] G = 2 \cdot N \cdot \sum_{ij}{\pi_{ij} \left( \ln(\pi_{ij})-\ln(\pi_{i.})-\ln(\pi_{.j}) \right)} ,[/math]

:[math] G = 2 \cdot N \cdot \left[ H(r) + H(c) - H(r,c) \right] , [/math]

:[math] G = 2 \cdot N \cdot \operatorname{MI}(r,c) \, ,[/math]

其中离散随机变量[math]X \,[/math]的[[Entropy (information theory)|熵]]定义为
:[math] H(X) = - {\sum_{x \in \text{Supp}(X)} p(x) \log p(x)} \, ,[/math]
并且
:[math] \operatorname{MI}(r,c)= H(r) + H(c) - H(r,c) \, [/math]
是列联表的行向量''r''和列向量''c''之间的[[mutual information|互信息]]。

还可以展示{{citation needed|date=August 2011}}，用于文本检索的逆文档频率加权通常是''G''的近似，适用于查询的行总和远小于语料库其余部分的行总和的情况。同样，应用于选择单个多项式分布而非更一般的每行一个多项式的贝叶斯推理的结果，与''G''统计量的结果非常相似。{{citation needed|date=August 2011}}

=='''应用'''==
* 在[[统计遗传学]]中，[[麦当劳-克莱特曼测试]]是''G''-检验的一个应用。
* 达宁<ref>Dunning, Ted (1993)。"[https://www.aclweb.org/anthology/J93-1003 精确方法用于惊奇和巧合的统计] {{Webarchive|url= |date=2011-12-15 }}", ''[[Computational Linguistics (journal)|计算语言学]]'', 第19卷，第1期（1993年3月）。</ref>将这一检验介绍给了[[计算语言学]]社区，现在在该领域被广泛使用。
* R-scape程序（被[[Rfam]]使用）使用G-检验来检测RNA序列比对位置之间的协变。<ref>{{cite journal |last1=Rivas |first1=Elena |title=使用正面和负面进化信息的RNA结构预测 |journal=PLOS Computational Biology |date=2020年10月30日 |volume=16 |issue=10 |pages=e1008387 |doi=10.1371/journal.pcbi.1008387|doi-access=free |pmc=7657543 }}</ref>

== '''节点使用指南''' ==
* 用于确定模型拟合数据的好坏的统计方法
* 用于检验分布的拟合优度、独立性检验以及同质性检验

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量1：选择一个离散型分类数值变量，如果不是continue类型需要转换。1和0的分类不可输入
* 统计变量2：选择一个或多个离散型分类数值变量，如果不是continue类型需要转换。1和0的分类不可输入。如果选择多个，则每一个变量与变量1做一次G检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 两个统计变量的值必须不是0,1
* 当样本量较大时，G检验比卡方检验更为准确
* 当数据中有很小的期望频数时，使用G检验要小心，因为当期望频数特别低时（比如小于5），G检验的结果可能不太可靠

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:频数表检验]]

Fisher精确检验

2024-01-24T06:47:18Z

RainW：

{{Infobox nodebasic
|nodename=Fisher精确检验
|nodeimage=Fisher's Exact Test.png
|icon=Fisher's Exact Test.svg
|simpleicon=Fisher's Exact Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Fisher's Exact Test
|abbreviation=FETest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::频数表检验]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=费舍尔精确检验是用于分析列联表(contingency tables)统计显著性检验方法,它用于检验两个分类的关联。分类需要是两分类,组成四格表,检验独立性。实际中常常使用于小数据情况。用途：用于研究两个分类变量之间关系的统计方法。特别是在样本量较小或者数据分布不均匀时，Fisher精确检验比传统的卡方检验更为精确。参数：选择二分类变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=OR;P-Value;CI
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/Fisher精确检验
|previousnode=[[游程检验]]
|nextnode=[[卡方检验]]
}}

费舍尔精确检验（Fisher's exact test）是用于分析列联表（contingency tables）的一种统计显著性检验<ref>{{Cite journal| last=Fisher | first=R. A. | author-link= Ronald Fisher | year=1922 | title=On the interpretation of χ2 from contingency tables, and the calculation of P |journal=[[Journal of the Royal Statistical Society]] | volume=85 | issue=1 | pages=87–94 | doi=10.2307/2340521| jstor=2340521| url=https://zenodo.org/record/1449484 }}</ref><ref>{{Cite book| last1=Fisher | first1=R.A. | year= 1954 | title=Statistical Methods for Research Workers | publisher=Oliver and Boyd| isbn=0-05-002170-2| title-link=Statistical Methods for Research Workers }}</ref><ref>{{Cite journal| last=Agresti | first=Alan | year=1992 | title=A Survey of Exact Inference for Contingency Tables |journal =Statistical Science | volume=7 | number=1 | pages=131–153 | doi=10.1214/ss/1177011454 | jstor = 2246001| citeseerx=10.1.1.296.874 }}</ref>。尽管实际应用中多用于样本量较小的情况，但它对于所有样本量均有效。这一检验以其发明者罗纳德·费舍尔（Ronald Fisher）命名，属于精确检验的一类，所谓精确检验，是因为与零假设（null hypothesis）偏离的显著性（例如，[math]p[/math]-值）可以精确计算，而非依赖于当样本量增大至无限大时才精确的近似值，正如许多统计检验所做的那样。

据说费舍尔在听到默里尔·布里斯托尔（Muriel Bristol）的一番评论后设计了这一检验。布里斯托尔声称她能够分辨出茶和牛奶哪个先被加入她的杯子中。费舍尔通过“品茶女士”实验（lady tasting tea）来测试她的说法<ref name=newman>{{Cite book
|first=Sir Ronald A.
|last=Fisher
|author-link=Ronald Fisher
|chapter=Mathematics of a Lady Tasting Tea
|orig-year=[[The Design of Experiments]] (1935)
|year=1956
|title=The World of Mathematics, volume 3
|editor=James Roy Newman
|chapter-url=https://books.google.com/books?id=oKZwtLQTmNAC&q=%22mathematics+of+a+lady+tasting+tea%22&pg=PA1512
|publisher=Courier Dover Publications
|isbn=978-0-486-41151-4
}}</ref>。

=='''目的和范围'''==
[[File:Nice Cup of Tea.jpg|thumb|一个[[teapot|茶壶]]、一个[[Creamer (vessel)|奶油罐]]和一杯加了[[milk|牛奶]]的茶——品鉴者能分辨出牛奶是不是先加的吗？]]
这一检验适用于将对象以两种不同方式分类所得到的分类数据；用于检查两种分类方式之间的关联（或称连带关系）的显著性。因此，在费舍尔最初的示例中，一个分类标准可能是牛奶或茶哪个先加入杯中；另一个可能是布里斯托尔认为是牛奶还是茶先加入的。我们想要知道这两种分类方式是否相关——也就是说，布里斯托尔是否真的能分辨出牛奶或茶哪个先倒入。费舍尔检验的大多数应用，就像这个例子一样，涉及一个2 × 2的列联表（下文将讨论）。从该检验得出的[math]p[/math]-值是在假设表格边际固定的情况下计算的，即在品茶示例中，布里斯托尔知道每种处理（先加牛奶或茶）的杯数，因此会提供每个类别中正确数量的猜测。费舍尔指出，这在独立性的零假设下导致表格单元中的数字遵循超几何分布（hypergeometric distribution）。

在大样本情况下，可以使用卡方检验（chi-squared test）（或更好的G检验（G-test））来处理这种情况。然而，它提供的显著性值只是一个近似值，因为计算出来的检验统计量的抽样分布仅近似等于理论上的卡方分布。当样本量小或数据在表格单元中的分布非常不均时，这种近似是不准确的，导致基于零假设预测的单元计数（即“预期值”）偏低。判断卡方近似是否足够好的通常规则是，当列联表中任何一个单元的预期值低于5，或在只有一个自由度（degrees of freedom）时低于10时，卡方检验不适用（现在已知这一规则过于保守<ref name="Larntz1978">{{Cite journal
| doi = 10.2307/2286650
| last = Larntz
| first = Kinley
| year = 1978
| title = Small-sample comparisons of exact levels for chi-squared goodness-of-fit statistics
| journal = Journal of the American Statistical Association
| volume = 73
| issue = 362
| pages = 253–263
| jstor = 2286650
}}</ref>）。事实上，对于小型、稀疏或不平衡的数据，精确和渐近[math]p[/math]-值可能会有很大不同，可能导致关于感兴趣假设的相反结论。<ref name="Mehta1984">{{Cite journal
| last1 = Mehta
| first1 = Cyrus R
| last2 = Patel
| first2 = Nitin R
| last3 = Tsiatis
| first3 = Anastasios A
| year = 1984
| title = Exact significance testing to establish treatment equivalence with ordered categorical data
| journal = Biometrics
| volume = 40
| issue = 3
| pages = 819–825
| doi = 10.2307/2530927
| pmid = 6518249
| jstor = 2530927
}}</ref><ref name="Mehta1995">Mehta, C. R. 1995. SPSS 6.1 Exact test for Windows. Englewood Cliffs, NJ: Prentice Hall.</ref> 相比之下，只要实验程序保持行列总数固定，费舍尔精确检验就是精确的，因此可以无论样本特性如何都可以使用。对于大样本或平衡良好的表格，费舍尔精确检验的计算变得困难，但幸运的是，这正是卡方检验适用的条件。

在手工计算中，这种检验只在2 × 2列联表的情况下是可行的。然而，这种检验的原则可以扩展到一般的''m'' × ''n''列联表的情况，<ref>{{cite journal |author1=Mehta C.R. |author2=Patel N.R. | year = 1983 | title = A Network Algorithm for Performing Fisher's Exact Test in ''r ''X''c'' Contingency Tables | journal = Journal of the American Statistical Association | volume = 78 | issue = 382| pages = 427–434 | doi = 10.2307/2288652 |jstor=2288652 }}</ref><ref>[mathworld.wolfram.com] 提供了Fisher精确检验一般形式公式的页面，用于''m'' × ''n''列联表</ref>，并且一些[[statistical packages]]提供了计算（有时使用[[Monte Carlo method]]来获得近似值）更普遍的情况。<ref>{{cite journal|author1=Cyrus R. Mehta |author2=Nitin R. Patel | title= ALGORITHM 643: FEXACT: a FORTRAN subroutine for Fisher's exact test on unordered r×c contingency tables|journal= ACM Trans. Math. Softw. |volume=12| issue= 2 |year=1986| pages=154–161|doi=10.1145/6497.214326|s2cid=207666979 |doi-access=free}}</ref>

这个检验也可以用来量化两组数据之间的''重叠''。例如，在统计遗传学的富集分析中，一组基因可能被注释为特定的表型，用户可能对测试自己的基因组与这些基因组的重叠感兴趣。在这种情况下，可以生成一个2 × 2列联表，并通过识别以下内容应用Fisher精确检验：
# 同时在两个列表中提供的基因
# 只在第一个列表中而不在第二个列表中提供的基因
# 只在第二个列表中而不在第一个列表中提供的基因
# 没有在任何列表中提供的基因
这个检验假设列表中的基因来自更广泛的基因集合（例如，所有剩余的基因）。然后可以计算出一个''p''值，总结两个列表之间重叠的显著性。<ref>{{cite journal |doi=10.1038/nprot.2013.092|title=Large-scale gene function analysis with the PANTHER classification system |year=2013 |last1=Mi |first1=Huaiyu |last2=Muruganujan |first2=Anushya |last3=Casagrande |first3=John T. |last4=Thomas |first4=Paul D. |journal=Nature Protocols |volume=8 |issue=8 |pages=1551–1566 |pmid=23868073 |pmc=6519453 }}</ref>

== '''推导''' ==
<ref>[https://galton.uchicago.edu/~yibi/teaching/stat226/2022/L07.pdf STAT 226: Lecture 7, Section 2.6, Fisher’s Exact Tests.] Yibi Huang, University of Chicago</ref>
{| class="wikitable" style="text-align:center;"
|-
!
!    Class I   
!   Class II  
|''行总计''
|-
! scope="row" | 蓝色
| bgcolor="lightgray" | '''''a''''' || bgcolor="lightgray" | '''''b''''' || ''a + b''
|-
! scope="row" |   红色  
| bgcolor="lightgray" | '''''c''''' || bgcolor="lightgray" | '''''d''''' || ''c + d''
|-
| ''列总计''
| ''a + c'' || ''b + d'' || ''a + b + c + d (=n)''
|}

我们建立了Fisher精确检验的以下概率模型。

假设我们有[math]a+b[/math]个蓝色球和[math]c+d[/math]个红色球。我们将它们一起扔进一个黑色的箱子里，摇晃均匀，然后一个一个地取出，直到我们刚好取出了[math]a+c[/math]个球。我们称这些球为“第一类”，剩下的[math]b+d[/math]个球为“第二类”。

问题是计算恰好有[math]a[/math]个蓝色球在第一类中的概率。一旦我们填写了表格中的一个条目，表格中的其他所有条目就固定了。

假设我们假装每个球都有标签，在我们开始取球之前，我们将它们均匀随机地排列，然后取出前[math]a+c[/math]个球。这给了我们[math]n![/math]种可能性。

在这些可能性中，我们以第一[math]a+c[/math]个球恰好包含[math]a[/math]个蓝色球的情况为条件。为了计算这些可能性，我们按以下步骤进行：首先在第一类[math]a+c[/math]个球中，均匀随机地选择一个大小为[math]a[/math]的子集，有[math]\binom{a+c}{a}[/math]种可能性，然后在第二类[math]b+d[/math]个球中，均匀随机地选择一个大小为[math]b[/math]的子集，有[math]\binom{b+d}{b}[/math]种可能性。

这两个选定的集合将被填满蓝色球。其余的将被填满红色球。

一旦我们选择了这些集合，我们可以用任意顺序填充[math]a+b[/math]个蓝色球。这给了我们[math](a+b)![/math]种可能性。红色球同样，有[math](c+d)![/math]种可能性。

总体来说，我们有[math]\binom{a+c}{a}\binom{b+d}{b}(a+b)!(c+d)![/math]种可能性。

因此，这一事件的概率是[math]\frac{\binom{a+c}{a}\binom{b+d}{b}(a+b)!(c+d)!}{n!}=\frac{\binom{a+c}{a}\binom{b+d}{b}}{\binom{n}{a+b}}[/math]

另一种推导方式：

假设每个蓝色和红色的球都有相同且独立的概率[math]p[/math]属于类别I，以及[math]1-p[/math]属于类别II。那么类别I的蓝色球的数量呈二项分布。恰好有[math]a[/math]个蓝色类别I球的概率是[math]\binom{a+b}{a}p^a[/math]，而恰好有[math]c[/math]个红色类别I球的概率是[math]\binom{c+d}{c}p^c[/math]。

恰好有[math]a+c[/math]个类别I球（不论红蓝球的数量）的概率是[math]\binom{n}{a+c}p^{a+c}[/math]。

因此，在有[math]a+c[/math]个类别I球的条件下，得到如下表格的条件概率是[math]\frac{\binom{a+c}{a}\binom{b+d}{b}}{\binom{n}{a+b}}[/math]

=='''例子'''==
例如，一群青少年可能根据性别分为男性和女性，另一方面根据他们是否正在为统计学考试学习进行分类。例如，我们假设学习的学生比例在女性中高于男性，我们想测试我们观察到的比例差异是否显著。

数据可能看起来是这样的：

{|class="wikitable" style="text-align:center;"
|-
!
!    男性   
!   女性  
|''行总计''
|-
!scope="row" | 学习中
|bgcolor="lightgray" | '''1''' ||bgcolor="lightgray" | '''9''' || ''10''
|-
!scope="row"|   未学习  
|bgcolor="lightgray" | '''11''' ||bgcolor="lightgray" | '''3''' || ''14''
|-
| ''列总计''
| ''12'' || ''12'' || ''24''
|}

我们对这些数据提出的问题是：知道这24名青少年中有10人在学习，其中12人是女性，并假设男性和女性学习的可能性相等，那么这10名学生如此不均匀地分布在女性和男性之间的概率是多少？如果我们随机选择10名青少年，那么其中9人或更多在12名女性中，而12名男性中只有1人或更少的概率是多少？

=== 第一个例子 ===
在进行费舍尔检验之前，我们首先引入一些符号。我们用字母''a, b, c'' 和 ''d'' 表示单元格，称行和列的总计为''边际总计''，并用''n''表示总计。所以现在的表格看起来是这样的：

{|class="wikitable" style="text-align:center;"
|-
!
!    男性   
!   女性  
|''行总计''
|-
!scope="row" | 学习中
|bgcolor="lightgray" | '''''a''''' ||bgcolor="lightgray" | '''''b''''' || ''a + b''
|-
!scope="row"|   非学习中  
|bgcolor="lightgray" | '''''c''''' ||bgcolor="lightgray" | '''''d''''' || ''c + d''
|-
| ''列总计''
| ''a + c'' || ''b + d'' || ''a + b + c + d (=n)''
|}

费舍尔指出，基于表格边际的条件下，''a''的分布呈现[[hypergeometric distribution]]，从''a+b''个成功和''c+d''个失败的总体中抽取''a+c''次。获得这样一组值的概率由下式给出：

<div class="center">
[math]p = \frac{ \displaystyle{{a+b}\choose{a}} \displaystyle{{c+d}\choose{c}} }{ \displaystyle{{n}\choose{a+c}} } = \frac{ \displaystyle{{a+b}\choose{b}} \displaystyle{{c+d}\choose{d}} }{ \displaystyle{{n}\choose{b+d}} } = \frac{(a+b)!~(c+d)!~(a+c)!~(b+d)!}{a!~~b!~~c!~~d!~~n!}[/math]
</div>

其中 [math] \tbinom nk [/math] 是[[binomial coefficient]]，符号 ! 表示[[factorial|阶乘运算符]]。
这可以这样理解。如果边际总计（即 [math]a+b[/math]、[math]c+d[/math]、[math]a+c[/math] 和 [math]b+d[/math]）是已知的，那么只剩下一个自由度：例如 [math]a[/math] 的值足以推导出其他值。
现在，[math]p=p(a)[/math] 是在从包含总共 [math]n[/math] 个元素的更大集合中随机选择（无替换） [math]a+c[/math] 个元素时，[math]a[/math] 个元素为正的概率，其中 [math]a+b[/math] 是正的，这正是超几何分布的定义。

根据上述数据（使用等价形式之一），得到：

<div class="center">
[math]p = { {\tbinom{10}{1}} {\tbinom{14}{11}} }/{ {\tbinom{24}{12}} } = \tfrac{10!~14!~12!~12!}{1!~9!~11!~3!~24!} \approx 0.001346076[/math]
</div>

=== 第二个例子 ===
上述公式给出了在给定边际总计的条件下，观察到这种特定数据排列的确切超几何概率，假设[[null hypothesis]]男性和女性成为学习者的可能性相同。换句话说，如果我们假设男性成为学习者的概率是 [math]\mathfrak{p}[/math]，女性也是 [math]\mathfrak{p}[/math]，并且我们假设男性和女性无论是否为学习者都独立进入我们的样本，那么这个超几何公式就给出了在观察到的边际（即，假设表格边际显示的行和列总计是给定的）条件下观察到四个单元格中的''a, b, c, d''值的条件概率。即使男性和女性进入我们样本的概率不同，这仍然成立。唯一的要求是两个分类特征——性别和是否为学习者——没有关联。

例如，假设我们已知概率 [math]P, Q, \mathfrak{p,q}[/math]，且有 [math]P + Q = \mathfrak{p} + \mathfrak{q} = 1[/math]，使得（男性学习者、男性非学习者、女性学习者、女性非学习者）在我们的抽样程序下分别具有概率 [math](P\mathfrak{p}, P\mathfrak{q}, Q\mathfrak{p}, Q\mathfrak{q})[/math]。那么，即使我们计算了条件给定边际的单元格条目分布，我们也会得到上述公式，其中既不包含 [math]\mathfrak{p}[/math] 也不包含 [math]P[/math]。因此，我们可以计算24名青少年按照表格的四个单元格的任何排列的确切概率，但费希尔表明，为了生成显著性水平，我们只需要考虑边际总数与观察表中相同的情况，在这些情况中，只有排列与观察到的排列一样极端或更极端的情况。（[[Barnard's test]] 放松了对其中一组边际总数的限制。）在这个例子中，有11种这样的情况。其中只有一种在与我们数据相同的方向上更极端；它看起来像这样：

{|class="wikitable" style="text-align:center;"
|-
!
!    男性   
!   女性  
|''行总计''
|-
!scope="row" | 学习
|bgcolor="lightgray" | '''0''' ||bgcolor="lightgray" | '''10''' || ''10''
|-
!scope="row"|   非学习  
|bgcolor="lightgray" | '''12''' ||bgcolor="lightgray" | '''2''' || ''14''
|-
| ''列总计''
| ''12'' || ''12'' || ''24''
|}
对于这个表格（学习比例极不平衡），概率是
[math]{p = {\tbinom{10}{0}} {\tbinom{14}{12}} }/{ {\tbinom{24}{12}} } \approx 0.000033652[/math]。

=== p值检验 ===
为了计算观察到的数据的显著性，即如果[[null hypothesis]]为真时观察到的数据为极端或更极端的总概率，我们必须计算这些表格的''p''值，并将它们相加。这给出了一个[[one-tailed test]]，''p''值约为 0.001346076 + 0.000033652 = 0.001379728。例如，在[[R programming language|R统计计算环境]]中，这个值可以通过<code>fisher.test(rbind(c(1,9),c(11,3)), alternative="less")$p.value</code>获得，或者在Python中，使用<code>scipy.stats.fisher_exact(table=[[1,9],[11,3]], alternative="less")</code>（在此可以获得先验赔率比和''p''-值）。这个值可以解释为由观察数据提供的证据总和——或任何更极端的表格——支持[[null hypothesis]]（男性和女性学习者比例没有差异）。''p''值越小，拒绝零假设的证据越大；因此这里证据强烈表明男性和女性成为学习者的可能性并不相同。

对于[[two-tailed test]]，我们还必须考虑那些同样极端但方向相反的表格。不幸的是，根据表格是否“同样极端”进行分类存在问题。[[R programming language|R]]中的<code>fisher.test</code>函数使用的方法是计算观察表格的概率小于或等于的所有表格的概率总和来计算''p''-值。在这个例子中，双边''p''-值是单边值的两倍——但通常对于计数较小的表格，这两者可能相差很大，不像具有对称采样分布的测试统计量的情况。

=='''争议'''==
尽管费希尔检验给出了精确的''p''-值，但一些作者认为它是保守的，即实际拒绝率低于名义显著性水平。<ref name="Liddell-1976">{{Cite journal
| doi = 10.2307/2988087
| last = Liddell
| first = Douglas
| year = 1976
| title = Practical tests of 2×2 contingency tables
| journal = The Statistician
| volume = 25
| issue = 4
| pages = 295–304
| jstor = 2988087
}}</ref><ref name="Berkson1978">{{Cite journal
| last = Berkson
| first = Joseph
| year = 1978
| title = In dispraise of the exact test
| journal = Journal of Statistical Planning and Inference
| volume = 2
| pages = 27–42
| doi = 10.1016/0378-3758(78)90019-8
}}</ref><ref name="DAgostino1988">{{Cite journal
| doi = 10.2307/2685002
| author1=D'Agostino, R. B. |author2=Chase, W. |author3= Belanger, A. |name-list-style=amp | year = 1988
| title = The appropriateness of some common procedures for testing equality of two independent binomial proportions
| journal = The American Statistician
| volume = 42
| issue = 3
| pages = 198–202
| jstor = 2685002
}}</ref> 表面上的矛盾源于离散统计量与固定显著性水平的结合。<ref name="Yates1984">{{Cite journal
| doi = 10.2307/2981577
| author = Yates, F.
| year = 1984
| title = Tests of significance for 2 × 2 contingency tables (with discussion)
| journal = Journal of the Royal Statistical Society, Series A
| volume = 147
| issue = 3
| pages = 426–463
| jstor = 2981577
| s2cid = 15760519
}}</ref><ref name="Little1989">{{Cite journal
| doi = 10.2307/2685390
| author = Little, Roderick J. A.
| year = 1989
| title = Testing the equality of two independent binomial proportions
| journal = The American Statistician
| volume = 43
| issue = 4
| pages = 283–288
| jstor = 2685390
}}</ref> 为了更精确，考虑以下提议的5%水平的显著性检验：拒绝费希尔检验分配给''p''-值等于或小于5%的每个表格的零假设。因为所有表格的集合是离散的，可能不存在一个表格能够实现等式的精确成立。如果[math]\alpha_e[/math]是小于5%的最大的''p''-值，并且对某个表格来说实际可能发生，那么所提出的测试实际上就是在[math]\alpha_e[/math]水平上进行测试。对于小样本量，[math]\alpha_e[/math]可能明显低于5%。<ref name="Liddell-1976" /><ref name="Berkson1978" /><ref name="DAgostino1988" /> 虽然这种效应会在任何离散统计量（不仅仅是在列联表中，或是费舍尔检验中）中出现，但有人认为这个问题因为费舍尔检验条件依赖于边际值而加剧了。<ref>{{cite web |first1=Cyrus R. |last1=Mehta |first2=Pralay |last2=Senchaudhuri |date=4 September 2003 |url= |title=Conditional versus unconditional exact tests for comparing two binomials |access-date=20 November 2009}}</ref> 为了避免这个问题，许多作者不鼓励在处理离散问题时使用固定的显著性水平。<ref name="Yates1984" /><ref name="Little1989" />

关于是否基于表格的边际值条件也是有争议的。<ref name="Barnard1945a">
{{Cite journal
|doi=10.1038/156177a0
|author=Barnard, G.A.
|year=1945
|title=A new test for 2×2 tables
|journal=Nature
|volume=156
|page=177
|issue=3954
|bibcode=1945Natur.156..177B
|doi-access=free
}}</ref><ref name="NatureDiscussion">
{{Cite journal
|author=Fisher
|year=1945
|journal=Nature
|volume=156
|page=388
|doi=10.1038/156388a0
|title=A New Test for 2 × 2 Tables
|issue=3961
|bibcode=1945Natur.156..388F
|s2cid=4113420
|doi-access=free
}};
{{Cite journal
|author=Barnard, G.A.
|year=1945
|journal=Nature
|volume=156
|pages=783–784
|title=A new test for 2×2 tables
|doi=10.1038/156783b0
|issue=3974
|bibcode=1945Natur.156..783B
|s2cid=4099311
}}
</ref> 从费舍尔检验得出的''p''-值来自于基于边际总数条件的分布。在这个意义上，这个检验只对条件分布是精确的，而不是对原始表格，其中边际总数可能会因实验而变化。当边际值不固定时，可以为2×2表格获得一个精确的''p''-值。例如，[[Barnard's exact test|Barnard的检验]]允许边际值随机。然而，一些作者<ref name="Yates1984" /><ref name="Little1989" /><ref name="NatureDiscussion" />（包括后来的Barnard本人）<ref name="Yates1984" />基于这个特性批评了Barnard的检验。他们认为边际成功总数是一个（几乎<ref name="Little1989" />）[[ancillary statistic]]，几乎不包含关于被测试属性的信息。

从2×2表格中对边际成功率的条件化可以被显示为忽略了数据中关于未知赔率比的一些信息。<ref name="Choi2015">
{{Cite journal
|vauthors=Choi L, Blume JD, Dupont WD
|year=2015
|title=Elucidating the foundations of statistical inference with 2×2 tables
|journal=PLOS ONE
|volume=10
|issue=4
|pages=e0121263
|doi=10.1371/journal.pone.0121263
|pmc=4388855
|pmid=25849515
|bibcode=2015PLoSO..1021263C
|doi-access=free
}}</ref> 边际总数几乎是辅助的这一论点意味着，对这个赔率比的推理应该基于对边际成功率的条件概率函数。<ref name="Choi2015" /> 这种丢失的信息对于推理目的是否重要是这一争议的本质。<ref name="Choi2015" />

=='''替代方法'''==
已经发展了一个替代的精确检验，[[Barnard's exact test|Barnard的检验]]，并且支持者<ref>{{cite journal | author = Lydersen, S., Fagerland, M. W., and Laake, P. | year = 2009 | title = Recommended tests for association in 2× 2 tables | journal = Statistics in Medicine | volume = 28 | issue = 7 | pages = 1159–1175 | doi= 10.1002/sim.3531| pmid = 19170020 | s2cid = 3900997 }}</ref> 建议这种方法更为强大，特别是在2×2表格中。<ref>{{cite journal | author = Berger R.L. | year = 1994 | title = Power comparison of exact unconditional tests for comparing two binomial proportions | journal = Institute of Statistics Mimeo Series No. 2266 | pages = 1–19 }}</ref> 此外，[[Boschloo's test]]是一个构造上比费舍尔精确检验更有力的精确检验。<ref name="Boschloo">{{cite journal | author = Boschloo R.D. | year = 1970 | title = Raised Conditional Level of Significance for the ''2''x''2''-table when Testing the Equality of Two Probabilities | journal = Statistica Neerlandica | volume = 24 | pages = 1–35 | doi = 10.1111/j.1467-9574.1970.tb00104.x}}</ref>

大多数现代[[statistical package]]s将计算费舍尔检验的显著性，在某些情况下，即使卡方近似也是可接受的。统计软件包执行的实际计算通常会与上述描述不同，因为阶乘的大数值可能导致数值困难。一个简单、稍微更好的计算方法依赖于[[gamma function]]或对数伽玛函数，但对超几何和二项概率进行精确计算的方法仍是一个活跃的研究领域。

对于分层分类数据，必须使用[[Cochran–Mantel–Haenszel test]]而不是费舍尔检验。

Choi等人<ref name="Choi2015" />提出了一个基于条件分布的[[odds ratio]]的似然比检验得出的''p''-值。这个''p''-值在推理上与经典的正态分布数据测试以及基于这种条件似然函数的似然比和支持区间一致。它也容易计算。<ref name="Choi2011">{{Cite web
| last = Choi
| first = Leena
| year = 2011
| title = ProfileLikelihood: profile likelihood for a parameter in commonly used statistical models; 2011. R package version 1.1.
| url =
}}

== '''节点使用的R语言示例代码''' ==
=== Fisher精确检验 ===
<syntaxhighlight lang="R">

fisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE,
hybridPars = c(expect = 5, percent = 80, Emin = 1),
control = list(), or = 1, alternative = "two.sided",
conf.int = TRUE, conf.level = 0.95)

</syntaxhighlight>

== '''节点使用指南''' ==
* 用于检验两个分类变量之间是否独立的统计显著性检验。
* 用于样本量较小或数据分布不均匀的情况，尤其当任何期望频数小于5时
* 通常用于2x2列联表（contingency table）

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量1：选择二分类变量
* 统计变量2：选择一个或多个二分类变量，每个变量将与变量1做一次Fisher精确检验
* 置信区间百分比:输入百分比，95%置信区间就是0.95
* 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 两个分析的变量必须是二分类

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:频数表检验]]

Fisher精确检验

2024-01-24T06:42:04Z

RainW：

{{Infobox nodebasic
|nodename=Fisher精确检验
|nodeimage=Fisher's Exact Test.png
|icon=Fisher's Exact Test.svg
|simpleicon=Fisher's Exact Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Fisher's Exact Test
|abbreviation=FETest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::频数表检验]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=费舍尔精确检验是用于分析列联表(contingency tables)统计显著性检验方法,它用于检验两个分类的关联。分类需要是两分类,组成四格表,检验独立性。实际中常常使用于小数据情况。用途：用于研究两个分类变量之间关系的统计方法。特别是在样本量较小或者数据分布不均匀时，Fisher精确检验比传统的卡方检验更为精确。参数：选择二分类变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=OR;P-Value;CI
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/Fisher精确检验
|previousnode=[[游程检验]]
|nextnode=[[卡方检验]]
}}

费舍尔精确检验（Fisher's exact test）是用于分析列联表（contingency tables）的一种统计显著性检验<ref>{{Cite journal| last=Fisher | first=R. A. | author-link= Ronald Fisher | year=1922 | title=On the interpretation of χ2 from contingency tables, and the calculation of P |journal=[[Journal of the Royal Statistical Society]] | volume=85 | issue=1 | pages=87–94 | doi=10.2307/2340521| jstor=2340521| url=https://zenodo.org/record/1449484 }}</ref><ref>{{Cite book| last1=Fisher | first1=R.A. | year= 1954 | title=Statistical Methods for Research Workers | publisher=Oliver and Boyd| isbn=0-05-002170-2| title-link=Statistical Methods for Research Workers }}</ref><ref>{{Cite journal| last=Agresti | first=Alan | year=1992 | title=A Survey of Exact Inference for Contingency Tables |journal =Statistical Science | volume=7 | number=1 | pages=131–153 | doi=10.1214/ss/1177011454 | jstor = 2246001| citeseerx=10.1.1.296.874 }}</ref>。尽管实际应用中多用于样本量较小的情况，但它对于所有样本量均有效。这一检验以其发明者罗纳德·费舍尔（Ronald Fisher）命名，属于精确检验的一类，所谓精确检验，是因为与零假设（null hypothesis）偏离的显著性（例如，[math]p[/math]-值）可以精确计算，而非依赖于当样本量增大至无限大时才精确的近似值，正如许多统计检验所做的那样。

据说费舍尔在听到默里尔·布里斯托尔（Muriel Bristol）的一番评论后设计了这一检验。布里斯托尔声称她能够分辨出茶和牛奶哪个先被加入她的杯子中。费舍尔通过“品茶女士”实验（lady tasting tea）来测试她的说法<ref name=newman>{{Cite book
|first=Sir Ronald A.
|last=Fisher
|author-link=Ronald Fisher
|chapter=Mathematics of a Lady Tasting Tea
|orig-year=[[The Design of Experiments]] (1935)
|year=1956
|title=The World of Mathematics, volume 3
|editor=James Roy Newman
|chapter-url=https://books.google.com/books?id=oKZwtLQTmNAC&q=%22mathematics+of+a+lady+tasting+tea%22&pg=PA1512
|publisher=Courier Dover Publications
|isbn=978-0-486-41151-4
}}</ref>。

=='''目的和范围'''==
[[File:Nice Cup of Tea.jpg|thumb|一个[[teapot|茶壶]]、一个[[Creamer (vessel)|奶油罐]]和一杯加了[[milk|牛奶]]的茶——品鉴者能分辨出牛奶是不是先加的吗？]]
这一检验适用于将对象以两种不同方式分类所得到的分类数据；用于检查两种分类方式之间的关联（或称连带关系）的显著性。因此，在费舍尔最初的示例中，一个分类标准可能是牛奶或茶哪个先加入杯中；另一个可能是布里斯托尔认为是牛奶还是茶先加入的。我们想要知道这两种分类方式是否相关——也就是说，布里斯托尔是否真的能分辨出牛奶或茶哪个先倒入。费舍尔检验的大多数应用，就像这个例子一样，涉及一个2 × 2的列联表（下文将讨论）。从该检验得出的[math]p[/math]-值是在假设表格边际固定的情况下计算的，即在品茶示例中，布里斯托尔知道每种处理（先加牛奶或茶）的杯数，因此会提供每个类别中正确数量的猜测。费舍尔指出，这在独立性的零假设下导致表格单元中的数字遵循超几何分布（hypergeometric distribution）。

在大样本情况下，可以使用卡方检验（chi-squared test）（或更好的G检验（G-test））来处理这种情况。然而，它提供的显著性值只是一个近似值，因为计算出来的检验统计量的抽样分布仅近似等于理论上的卡方分布。当样本量小或数据在表格单元中的分布非常不均时，这种近似是不准确的，导致基于零假设预测的单元计数（即“预期值”）偏低。判断卡方近似是否足够好的通常规则是，当列联表中任何一个单元的预期值低于5，或在只有一个自由度（degrees of freedom）时低于10时，卡方检验不适用（现在已知这一规则过于保守<ref name="Larntz1978">{{Cite journal
| doi = 10.2307/2286650
| last = Larntz
| first = Kinley
| year = 1978
| title = Small-sample comparisons of exact levels for chi-squared goodness-of-fit statistics
| journal = Journal of the American Statistical Association
| volume = 73
| issue = 362
| pages = 253–263
| jstor = 2286650
}}</ref>）。事实上，对于小型、稀疏或不平衡的数据，精确和渐近[math]p[/math]-值可能会有很大不同，可能导致关于感兴趣假设的相反结论。<ref name="Mehta1984">{{Cite journal
| last1 = Mehta
| first1 = Cyrus R
| last2 = Patel
| first2 = Nitin R
| last3 = Tsiatis
| first3 = Anastasios A
| year = 1984
| title = Exact significance testing to establish treatment equivalence with ordered categorical data
| journal = Biometrics
| volume = 40
| issue = 3
| pages = 819–825
| doi = 10.2307/2530927
| pmid = 6518249
| jstor = 2530927
}}</ref><ref name="Mehta1995">Mehta, C. R. 1995. SPSS 6.1 Exact test for Windows. Englewood Cliffs, NJ: Prentice Hall.</ref> 相比之下，只要实验程序保持行列总数固定，费舍尔精确检验就是精确的，因此可以无论样本特性如何都可以使用。对于大样本或平衡良好的表格，费舍尔精确检验的计算变得困难，但幸运的是，这正是卡方检验适用的条件。

在手工计算中，这种检验只在2 × 2列联表的情况下是可行的。然而，这种检验的原则可以扩展到一般的''m'' × ''n''列联表的情况，<ref>{{cite journal |author1=Mehta C.R. |author2=Patel N.R. | year = 1983 | title = A Network Algorithm for Performing Fisher's Exact Test in ''r ''X''c'' Contingency Tables | journal = Journal of the American Statistical Association | volume = 78 | issue = 382| pages = 427–434 | doi = 10.2307/2288652 |jstor=2288652 }}</ref><ref>[mathworld.wolfram.com] 提供了Fisher精确检验一般形式公式的页面，用于''m'' × ''n''列联表</ref>，并且一些[[statistical packages]]提供了计算（有时使用[[Monte Carlo method]]来获得近似值）更普遍的情况。<ref>{{cite journal|author1=Cyrus R. Mehta |author2=Nitin R. Patel | title= ALGORITHM 643: FEXACT: a FORTRAN subroutine for Fisher's exact test on unordered r×c contingency tables|journal= ACM Trans. Math. Softw. |volume=12| issue= 2 |year=1986| pages=154–161|doi=10.1145/6497.214326|s2cid=207666979 |doi-access=free}}</ref>

这个检验也可以用来量化两组数据之间的''重叠''。例如，在统计遗传学的富集分析中，一组基因可能被注释为特定的表型，用户可能对测试自己的基因组与这些基因组的重叠感兴趣。在这种情况下，可以生成一个2 × 2列联表，并通过识别以下内容应用Fisher精确检验：
# 同时在两个列表中提供的基因
# 只在第一个列表中而不在第二个列表中提供的基因
# 只在第二个列表中而不在第一个列表中提供的基因
# 没有在任何列表中提供的基因
这个检验假设列表中的基因来自更广泛的基因集合（例如，所有剩余的基因）。然后可以计算出一个''p''值，总结两个列表之间重叠的显著性。<ref>{{cite journal |doi=10.1038/nprot.2013.092|title=Large-scale gene function analysis with the PANTHER classification system |year=2013 |last1=Mi |first1=Huaiyu |last2=Muruganujan |first2=Anushya |last3=Casagrande |first3=John T. |last4=Thomas |first4=Paul D. |journal=Nature Protocols |volume=8 |issue=8 |pages=1551–1566 |pmid=23868073 |pmc=6519453 }}</ref>

== '''推导''' ==
<ref>[https://galton.uchicago.edu/~yibi/teaching/stat226/2022/L07.pdf STAT 226: Lecture 7, Section 2.6, Fisher’s Exact Tests.] Yibi Huang, University of Chicago</ref>
{| class="wikitable" style="text-align:center;"
|-
!
!    Class I   
!   Class II  
|''行总计''
|-
! scope="row" | 蓝色
| bgcolor="lightgray" | '''''a''''' || bgcolor="lightgray" | '''''b''''' || ''a + b''
|-
! scope="row" |   红色  
| bgcolor="lightgray" | '''''c''''' || bgcolor="lightgray" | '''''d''''' || ''c + d''
|-
| ''列总计''
| ''a + c'' || ''b + d'' || ''a + b + c + d (=n)''
|}

{{Math proof|title=推导
|proof=

我们建立了Fisher精确检验的以下概率模型。

假设我们有[math]a+b[/math]个蓝色球和[math]c+d[/math]个红色球。我们将它们一起扔进一个黑色的箱子里，摇晃均匀，然后一个一个地取出，直到我们刚好取出了[math]a+c[/math]个球。我们称这些球为“第一类”，剩下的[math]b+d[/math]个球为“第二类”。

问题是计算恰好有[math]a[/math]个蓝色球在第一类中的概率。一旦我们填写了表格中的一个条目，表格中的其他所有条目就固定了。

假设我们假装每个球都有标签，在我们开始取球之前，我们将它们均匀随机地排列，然后取出前[math]a+c[/math]个球。这给了我们[math]n![/math]种可能性。

在这些可能性中，我们以第一[math]a+c[/math]个球恰好包含[math]a[/math]个蓝色球的情况为条件。为了计算这些可能性，我们按以下步骤进行：首先在第一类[math]a+c[/math]个球中，均匀随机地选择一个大小为[math]a[/math]的子集，有[math]\binom{a+c}{a}[/math]种可能性，然后在第二类[math]b+d[/math]个球中，均匀随机地选择一个大小为[math]b[/math]的子集，有[math]\binom{b+d}{b}[/math]种可能性。

这两个选定的集合将被填满蓝色球。其余的将被填满红色球。

一旦我们选择了这些集合，我们可以用任意顺序填充[math]a+b[/math]个蓝色球。这给了我们[math](a+b)![/math]种可能性。红色球同样，有[math](c+d)![/math]种可能性。

总体来说，我们有[math]\binom{a+c}{a}\binom{b+d}{b}(a+b)!(c+d)![/math]种可能性。

因此，这一事件的概率是[math]\frac{\binom{a+c}{a}\binom{b+d}{b}(a+b)!(c+d)!}{n!}=\frac{\binom{a+c}{a}\binom{b+d}{b}}{\binom{n}{a+b}}[/math]
|
}}

另一种推导方式：

{{Math proof|title=Derivation|proof=
假设每个蓝色和红色的球都有相同且独立的概率[math]p[/math]属于类别I，以及[math]1-p[/math]属于类别II。那么类别I的蓝色球的数量呈二项分布。恰好有[math]a[/math]个蓝色类别I球的概率是[math]\binom{a+b}{a}p^a[/math]，而恰好有[math]c[/math]个红色类别I球的概率是[math]\binom{c+d}{c}p^c[/math]。

恰好有[math]a+c[/math]个类别I球（不论红蓝球的数量）的概率是[math]\binom{n}{a+c}p^{a+c}[/math]。

因此，在有[math]a+c[/math]个类别I球的条件下，得到如下表格的条件概率是[math]\frac{\binom{a+c}{a}\binom{b+d}{b}}{\binom{n}{a+b}}[/math]
}}

=='''例子'''==
例如，一群青少年可能根据性别分为男性和女性，另一方面根据他们是否正在为统计学考试学习进行分类。例如，我们假设学习的学生比例在女性中高于男性，我们想测试我们观察到的比例差异是否显著。

数据可能看起来是这样的：

{|class="wikitable" style="text-align:center;"
|-
!
!    男性   
!   女性  
|''行总计''
|-
!scope="row" | 学习中
|bgcolor="lightgray" | '''1''' ||bgcolor="lightgray" | '''9''' || ''10''
|-
!scope="row"|   未学习  
|bgcolor="lightgray" | '''11''' ||bgcolor="lightgray" | '''3''' || ''14''
|-
| ''列总计''
| ''12'' || ''12'' || ''24''
|}

我们对这些数据提出的问题是：知道这24名青少年中有10人在学习，其中12人是女性，并假设男性和女性学习的可能性相等，那么这10名学生如此不均匀地分布在女性和男性之间的概率是多少？如果我们随机选择10名青少年，那么其中9人或更多在12名女性中，而12名男性中只有1人或更少的概率是多少？

=== 第一个例子 ===
在进行费舍尔检验之前，我们首先引入一些符号。我们用字母''a, b, c'' 和 ''d'' 表示单元格，称行和列的总计为''边际总计''，并用''n''表示总计。所以现在的表格看起来是这样的：

{|class="wikitable" style="text-align:center;"
|-
!
!    男性   
!   女性  
|''行总计''
|-
!scope="row" | 学习中
|bgcolor="lightgray" | '''''a''''' ||bgcolor="lightgray" | '''''b''''' || ''a + b''
|-
!scope="row"|   非学习中  
|bgcolor="lightgray" | '''''c''''' ||bgcolor="lightgray" | '''''d''''' || ''c + d''
|-
| ''列总计''
| ''a + c'' || ''b + d'' || ''a + b + c + d (=n)''
|}

费舍尔指出，基于表格边际的条件下，''a''的分布呈现[[hypergeometric distribution]]，从''a+b''个成功和''c+d''个失败的总体中抽取''a+c''次。获得这样一组值的概率由下式给出：

<div class="center">
[math]p = \frac{ \displaystyle{{a+b}\choose{a}} \displaystyle{{c+d}\choose{c}} }{ \displaystyle{{n}\choose{a+c}} } = \frac{ \displaystyle{{a+b}\choose{b}} \displaystyle{{c+d}\choose{d}} }{ \displaystyle{{n}\choose{b+d}} } = \frac{(a+b)!~(c+d)!~(a+c)!~(b+d)!}{a!~~b!~~c!~~d!~~n!}[/math]
</div>

其中 [math] \tbinom nk [/math] 是[[binomial coefficient]]，符号 ! 表示[[factorial|阶乘运算符]]。
这可以这样理解。如果边际总计（即 [math]a+b[/math]、[math]c+d[/math]、[math]a+c[/math] 和 [math]b+d[/math]）是已知的，那么只剩下一个自由度：例如 [math]a[/math] 的值足以推导出其他值。
现在，[math]p=p(a)[/math] 是在从包含总共 [math]n[/math] 个元素的更大集合中随机选择（无替换） [math]a+c[/math] 个元素时，[math]a[/math] 个元素为正的概率，其中 [math]a+b[/math] 是正的，这正是超几何分布的定义。

根据上述数据（使用等价形式之一），得到：

<div class="center">
[math]p = { {\tbinom{10}{1}} {\tbinom{14}{11}} }/{ {\tbinom{24}{12}} } = \tfrac{10!~14!~12!~12!}{1!~9!~11!~3!~24!} \approx 0.001346076[/math]
</div>

=== 第二个例子 ===
上述公式给出了在给定边际总计的条件下，观察到这种特定数据排列的确切超几何概率，假设[[null hypothesis]]男性和女性成为学习者的可能性相同。换句话说，如果我们假设男性成为学习者的概率是 [math]\mathfrak{p}[/math]，女性也是 [math]\mathfrak{p}[/math]，并且我们假设男性和女性无论是否为学习者都独立进入我们的样本，那么这个超几何公式就给出了在观察到的边际（即，假设表格边际显示的行和列总计是给定的）条件下观察到四个单元格中的''a, b, c, d''值的条件概率。即使男性和女性进入我们样本的概率不同，这仍然成立。唯一的要求是两个分类特征——性别和是否为学习者——没有关联。

例如，假设我们已知概率 [math]P, Q, \mathfrak{p,q}[/math]，且有 [math]P + Q = \mathfrak{p} + \mathfrak{q} = 1[/math]，使得（男性学习者、男性非学习者、女性学习者、女性非学习者）在我们的抽样程序下分别具有概率 [math](P\mathfrak{p}, P\mathfrak{q}, Q\mathfrak{p}, Q\mathfrak{q})[/math]。那么，即使我们计算了条件给定边际的单元格条目分布，我们也会得到上述公式，其中既不包含 [math]\mathfrak{p}[/math] 也不包含 [math]P[/math]。因此，我们可以计算24名青少年按照表格的四个单元格的任何排列的确切概率，但费希尔表明，为了生成显著性水平，我们只需要考虑边际总数与观察表中相同的情况，在这些情况中，只有排列与观察到的排列一样极端或更极端的情况。（[[Barnard's test]] 放松了对其中一组边际总数的限制。）在这个例子中，有11种这样的情况。其中只有一种在与我们数据相同的方向上更极端；它看起来像这样：

{|class="wikitable" style="text-align:center;"
|-
!
!    男性   
!   女性  
|''行总计''
|-
!scope="row" | 学习
|bgcolor="lightgray" | '''0''' ||bgcolor="lightgray" | '''10''' || ''10''
|-
!scope="row"|   非学习  
|bgcolor="lightgray" | '''12''' ||bgcolor="lightgray" | '''2''' || ''14''
|-
| ''列总计''
| ''12'' || ''12'' || ''24''
|}
对于这个表格（学习比例极不平衡），概率是
[math]{p = {\tbinom{10}{0}} {\tbinom{14}{12}} }/{ {\tbinom{24}{12}} } \approx 0.000033652[/math]。

=== p值检验 ===
为了计算观察到的数据的显著性，即如果[[null hypothesis]]为真时观察到的数据为极端或更极端的总概率，我们必须计算这些表格的''p''值，并将它们相加。这给出了一个[[one-tailed test]]，''p''值约为 0.001346076 + 0.000033652 = 0.001379728。例如，在[[R programming language|R统计计算环境]]中，这个值可以通过<code>fisher.test(rbind(c(1,9),c(11,3)), alternative="less")$p.value</code>获得，或者在Python中，使用<code>scipy.stats.fisher_exact(table=[[1,9],[11,3]], alternative="less")</code>（在此可以获得先验赔率比和''p''-值）。这个值可以解释为由观察数据提供的证据总和——或任何更极端的表格——支持[[null hypothesis]]（男性和女性学习者比例没有差异）。''p''值越小，拒绝零假设的证据越大；因此这里证据强烈表明男性和女性成为学习者的可能性并不相同。

对于[[two-tailed test]]，我们还必须考虑那些同样极端但方向相反的表格。不幸的是，根据表格是否“同样极端”进行分类存在问题。[[R programming language|R]]中的<code>fisher.test</code>函数使用的方法是计算观察表格的概率小于或等于的所有表格的概率总和来计算''p''-值。在这个例子中，双边''p''-值是单边值的两倍——但通常对于计数较小的表格，这两者可能相差很大，不像具有对称采样分布的测试统计量的情况。

=='''争议'''==
尽管费希尔检验给出了精确的''p''-值，但一些作者认为它是保守的，即实际拒绝率低于名义显著性水平。<ref name="Liddell-1976">{{Cite journal
| doi = 10.2307/2988087
| last = Liddell
| first = Douglas
| year = 1976
| title = Practical tests of 2×2 contingency tables
| journal = The Statistician
| volume = 25
| issue = 4
| pages = 295–304
| jstor = 2988087
}}</ref><ref name="Berkson1978">{{Cite journal
| last = Berkson
| first = Joseph
| year = 1978
| title = In dispraise of the exact test
| journal = Journal of Statistical Planning and Inference
| volume = 2
| pages = 27–42
| doi = 10.1016/0378-3758(78)90019-8
}}</ref><ref name="DAgostino1988">{{Cite journal
| doi = 10.2307/2685002
| author1=D'Agostino, R. B. |author2=Chase, W. |author3= Belanger, A. |name-list-style=amp | year = 1988
| title = The appropriateness of some common procedures for testing equality of two independent binomial proportions
| journal = The American Statistician
| volume = 42
| issue = 3
| pages = 198–202
| jstor = 2685002
}}</ref> 表面上的矛盾源于离散统计量与固定显著性水平的结合。<ref name="Yates1984">{{Cite journal
| doi = 10.2307/2981577
| author = Yates, F.
| year = 1984
| title = Tests of significance for 2 × 2 contingency tables (with discussion)
| journal = Journal of the Royal Statistical Society, Series A
| volume = 147
| issue = 3
| pages = 426–463
| jstor = 2981577
| s2cid = 15760519
}}</ref><ref name="Little1989">{{Cite journal
| doi = 10.2307/2685390
| author = Little, Roderick J. A.
| year = 1989
| title = Testing the equality of two independent binomial proportions
| journal = The American Statistician
| volume = 43
| issue = 4
| pages = 283–288
| jstor = 2685390
}}</ref> 为了更精确，考虑以下提议的5%水平的显著性检验：拒绝费希尔检验分配给''p''-值等于或小于5%的每个表格的零假设。因为所有表格的集合是离散的，可能不存在一个表格能够实现等式的精确成立。如果[math]\alpha_e[/math]是小于5%的最大的''p''-值，并且对某个表格来说实际可能发生，那么所提出的测试实际上就是在[math]\alpha_e[/math]水平上进行测试。对于小样本量，[math]\alpha_e[/math]可能明显低于5%。<ref name="Liddell-1976" /><ref name="Berkson1978" /><ref name="DAgostino1988" /> 虽然这种效应会在任何离散统计量（不仅仅是在列联表中，或是费舍尔检验中）中出现，但有人认为这个问题因为费舍尔检验条件依赖于边际值而加剧了。<ref>{{cite web |first1=Cyrus R. |last1=Mehta |first2=Pralay |last2=Senchaudhuri |date=4 September 2003 |url= |title=Conditional versus unconditional exact tests for comparing two binomials |access-date=20 November 2009}}</ref> 为了避免这个问题，许多作者不鼓励在处理离散问题时使用固定的显著性水平。<ref name="Yates1984" /><ref name="Little1989" />

关于是否基于表格的边际值条件也是有争议的。<ref name="Barnard1945a">
{{Cite journal
|doi=10.1038/156177a0
|author=Barnard, G.A.
|year=1945
|title=A new test for 2×2 tables
|journal=Nature
|volume=156
|page=177
|issue=3954
|bibcode=1945Natur.156..177B
|doi-access=free
}}</ref><ref name="NatureDiscussion">
{{Cite journal
|author=Fisher
|year=1945
|journal=Nature
|volume=156
|page=388
|doi=10.1038/156388a0
|title=A New Test for 2 × 2 Tables
|issue=3961
|bibcode=1945Natur.156..388F
|s2cid=4113420
|doi-access=free
}};
{{Cite journal
|author=Barnard, G.A.
|year=1945
|journal=Nature
|volume=156
|pages=783–784
|title=A new test for 2×2 tables
|doi=10.1038/156783b0
|issue=3974
|bibcode=1945Natur.156..783B
|s2cid=4099311
}}
</ref> 从费舍尔检验得出的''p''-值来自于基于边际总数条件的分布。在这个意义上，这个检验只对条件分布是精确的，而不是对原始表格，其中边际总数可能会因实验而变化。当边际值不固定时，可以为2×2表格获得一个精确的''p''-值。例如，[[Barnard's exact test|Barnard的检验]]允许边际值随机。然而，一些作者<ref name="Yates1984" /><ref name="Little1989" /><ref name="NatureDiscussion" />（包括后来的Barnard本人）<ref name="Yates1984" />基于这个特性批评了Barnard的检验。他们认为边际成功总数是一个（几乎<ref name="Little1989" />）[[ancillary statistic]]，几乎不包含关于被测试属性的信息。

从2×2表格中对边际成功率的条件化可以被显示为忽略了数据中关于未知赔率比的一些信息。<ref name="Choi2015">
{{Cite journal
|vauthors=Choi L, Blume JD, Dupont WD
|year=2015
|title=Elucidating the foundations of statistical inference with 2×2 tables
|journal=PLOS ONE
|volume=10
|issue=4
|pages=e0121263
|doi=10.1371/journal.pone.0121263
|pmc=4388855
|pmid=25849515
|bibcode=2015PLoSO..1021263C
|doi-access=free
}}</ref> 边际总数几乎是辅助的这一论点意味着，对这个赔率比的推理应该基于对边际成功率的条件概率函数。<ref name="Choi2015" /> 这种丢失的信息对于推理目的是否重要是这一争议的本质。<ref name="Choi2015" />

=='''替代方法'''==
已经发展了一个替代的精确检验，[[Barnard's exact test|Barnard的检验]]，并且支持者<ref>{{cite journal | author = Lydersen, S., Fagerland, M. W., and Laake, P. | year = 2009 | title = Recommended tests for association in 2× 2 tables | journal = Statistics in Medicine | volume = 28 | issue = 7 | pages = 1159–1175 | doi= 10.1002/sim.3531| pmid = 19170020 | s2cid = 3900997 }}</ref> 建议这种方法更为强大，特别是在2×2表格中。<ref>{{cite journal | author = Berger R.L. | year = 1994 | title = Power comparison of exact unconditional tests for comparing two binomial proportions | journal = Institute of Statistics Mimeo Series No. 2266 | pages = 1–19 }}</ref> 此外，[[Boschloo's test]]是一个构造上比费舍尔精确检验更有力的精确检验。<ref name="Boschloo">{{cite journal | author = Boschloo R.D. | year = 1970 | title = Raised Conditional Level of Significance for the ''2''x''2''-table when Testing the Equality of Two Probabilities | journal = Statistica Neerlandica | volume = 24 | pages = 1–35 | doi = 10.1111/j.1467-9574.1970.tb00104.x}}</ref>

大多数现代[[statistical package]]s将计算费舍尔检验的显著性，在某些情况下，即使卡方近似也是可接受的。统计软件包执行的实际计算通常会与上述描述不同，因为阶乘的大数值可能导致数值困难。一个简单、稍微更好的计算方法依赖于[[gamma function]]或对数伽玛函数，但对超几何和二项概率进行精确计算的方法仍是一个活跃的研究领域。

对于分层分类数据，必须使用[[Cochran–Mantel–Haenszel test]]而不是费舍尔检验。

Choi等人<ref name="Choi2015" />提出了一个基于条件分布的[[odds ratio]]的似然比检验得出的''p''-值。这个''p''-值在推理上与经典的正态分布数据测试以及基于这种条件似然函数的似然比和支持区间一致。它也容易计算。<ref name="Choi2011">{{Cite web
| last = Choi
| first = Leena
| year = 2011
| title = ProfileLikelihood: profile likelihood for a parameter in commonly used statistical models; 2011. R package version 1.1.
| url =
}}

== '''节点使用的R语言示例代码''' ==
=== Fisher精确检验 ===
<syntaxhighlight lang="R">

fisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE,
hybridPars = c(expect = 5, percent = 80, Emin = 1),
control = list(), or = 1, alternative = "two.sided",
conf.int = TRUE, conf.level = 0.95)

</syntaxhighlight>

== '''节点使用指南''' ==
* 用于检验两个分类变量之间是否独立的统计显著性检验。
* 用于样本量较小或数据分布不均匀的情况，尤其当任何期望频数小于5时
* 通常用于2x2列联表（contingency table）

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量1：选择二分类变量
* 统计变量2：选择一个或多个二分类变量，每个变量将与变量1做一次Fisher精确检验
* 置信区间百分比:输入百分比，95%置信区间就是0.95
* 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 两个分析的变量必须是二分类

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:频数表检验]]

Fisher精确检验

2024-01-24T06:32:41Z

RainW：

{{Infobox nodebasic
|nodename=Fisher精确检验
|nodeimage=Fisher's Exact Test.png
|icon=Fisher's Exact Test.svg
|simpleicon=Fisher's Exact Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Fisher's Exact Test
|abbreviation=FETest
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::频数表检验]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=费舍尔精确检验是用于分析列联表(contingency tables)统计显著性检验方法,它用于检验两个分类的关联。分类需要是两分类,组成四格表,检验独立性。实际中常常使用于小数据情况。用途：用于研究两个分类变量之间关系的统计方法。特别是在样本量较小或者数据分布不均匀时，Fisher精确检验比传统的卡方检验更为精确。参数：选择二分类变量
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=OR;P-Value;CI
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/Fisher精确检验
|previousnode=[[游程检验]]
|nextnode=[[卡方检验]]
}}

费舍尔精确检验（Fisher's exact test）是用于分析列联表（contingency tables）的一种统计显著性检验<ref>{{Cite journal| last=Fisher | first=R. A. | author-link= Ronald Fisher | year=1922 | title=On the interpretation of χ2 from contingency tables, and the calculation of P |journal=[[Journal of the Royal Statistical Society]] | volume=85 | issue=1 | pages=87–94 | doi=10.2307/2340521| jstor=2340521| url=https://zenodo.org/record/1449484 }}</ref><ref>{{Cite book| last1=Fisher | first1=R.A. | year= 1954 | title=Statistical Methods for Research Workers | publisher=Oliver and Boyd| isbn=0-05-002170-2| title-link=Statistical Methods for Research Workers }}</ref><ref>{{Cite journal| last=Agresti | first=Alan | year=1992 | title=A Survey of Exact Inference for Contingency Tables |journal =Statistical Science | volume=7 | number=1 | pages=131–153 | doi=10.1214/ss/1177011454 | jstor = 2246001| citeseerx=10.1.1.296.874 }}</ref>。尽管实际应用中多用于样本量较小的情况，但它对于所有样本量均有效。这一检验以其发明者罗纳德·费舍尔（Ronald Fisher）命名，属于精确检验的一类，所谓精确检验，是因为与零假设（null hypothesis）偏离的显著性（例如，[math]p[/math]-值）可以精确计算，而非依赖于当样本量增大至无限大时才精确的近似值，正如许多统计检验所做的那样。

据说费舍尔在听到默里尔·布里斯托尔（Muriel Bristol）的一番评论后设计了这一检验。布里斯托尔声称她能够分辨出茶和牛奶哪个先被加入她的杯子中。费舍尔通过“品茶女士”实验（lady tasting tea）来测试她的说法<ref name=newman>{{Cite book
|first=Sir Ronald A.
|last=Fisher
|author-link=Ronald Fisher
|chapter=Mathematics of a Lady Tasting Tea
|orig-year=[[The Design of Experiments]] (1935)
|year=1956
|title=The World of Mathematics, volume 3
|editor=James Roy Newman
|chapter-url=https://books.google.com/books?id=oKZwtLQTmNAC&q=%22mathematics+of+a+lady+tasting+tea%22&pg=PA1512
|publisher=Courier Dover Publications
|isbn=978-0-486-41151-4
}}</ref>。

=='''目的和范围'''==
[[File:Nice Cup of Tea.jpg|thumb|一个[[teapot|茶壶]]、一个[[Creamer (vessel)|奶油罐]]和一杯加了[[milk|牛奶]]的茶——品鉴者能分辨出牛奶是不是先加的吗？]]
这一检验适用于将对象以两种不同方式分类所得到的分类数据；用于检查两种分类方式之间的关联（或称连带关系）的显著性。因此，在费舍尔最初的示例中，一个分类标准可能是牛奶或茶哪个先加入杯中；另一个可能是布里斯托尔认为是牛奶还是茶先加入的。我们想要知道这两种分类方式是否相关——也就是说，布里斯托尔是否真的能分辨出牛奶或茶哪个先倒入。费舍尔检验的大多数应用，就像这个例子一样，涉及一个2 × 2的列联表（下文将讨论）。从该检验得出的[math]p[/math]-值是在假设表格边际固定的情况下计算的，即在品茶示例中，布里斯托尔知道每种处理（先加牛奶或茶）的杯数，因此会提供每个类别中正确数量的猜测。费舍尔指出，这在独立性的零假设下导致表格单元中的数字遵循超几何分布（hypergeometric distribution）。

在大样本情况下，可以使用卡方检验（chi-squared test）（或更好的G检验（G-test））来处理这种情况。然而，它提供的显著性值只是一个近似值，因为计算出来的检验统计量的抽样分布仅近似等于理论上的卡方分布。当样本量小或数据在表格单元中的分布非常不均时，这种近似是不准确的，导致基于零假设预测的单元计数（即“预期值”）偏低。判断卡方近似是否足够好的通常规则是，当列联表中任何一个单元的预期值低于5，或在只有一个自由度（degrees of freedom）时低于10时，卡方检验不适用（现在已知这一规则过于保守<ref name="Larntz1978">{{Cite journal
| doi = 10.2307/2286650
| last = Larntz
| first = Kinley
| year = 1978
| title = Small-sample comparisons of exact levels for chi-squared goodness-of-fit statistics
| journal = Journal of the American Statistical Association
| volume = 73
| issue = 362
| pages = 253–263
| jstor = 2286650
}}</ref>）。事实上，对于小型、稀疏或不平衡的数据，精确和渐近[math]p[/math]-值可能会有很大不同，可能导致关于感兴趣假设的相反结论。<ref name="Mehta1984">{{Cite journal
| last1 = Mehta
| first1 = Cyrus R
| last2 = Patel
| first2 = Nitin R
| last3 = Tsiatis
| first3 = Anastasios A
| year = 1984
| title = Exact significance testing to establish treatment equivalence with ordered categorical data
| journal = Biometrics
| volume = 40
| issue = 3
| pages = 819–825
| doi = 10.2307/2530927
| pmid = 6518249
| jstor = 2530927
}}</ref><ref name="Mehta1995">Mehta, C. R. 1995. SPSS 6.1 Exact test for Windows. Englewood Cliffs, NJ: Prentice Hall.</ref> 相比之下，只要实验程序保持行列总数固定，费舍尔精确检验就是精确的，因此可以无论样本特性如何都可以使用。对于大样本或平衡良好的表格，费舍尔精确检验的计算变得困难，但幸运的是，这正是卡方检验适用的条件。

在手工计算中，这种检验只在2 × 2列联表的情况下是可行的。然而，这种检验的原则可以扩展到一般的''m'' × ''n''列联表的情况，<ref>{{cite journal |author1=Mehta C.R. |author2=Patel N.R. | year = 1983 | title = A Network Algorithm for Performing Fisher's Exact Test in ''r ''X''c'' Contingency Tables | journal = Journal of the American Statistical Association | volume = 78 | issue = 382| pages = 427–434 | doi = 10.2307/2288652 |jstor=2288652 }}</ref><ref>[mathworld.wolfram.com] 提供了Fisher精确检验一般形式公式的页面，用于''m'' × ''n''列联表</ref>，并且一些[[statistical packages]]提供了计算（有时使用[[Monte Carlo method]]来获得近似值）更普遍的情况。<ref>{{cite journal|author1=Cyrus R. Mehta |author2=Nitin R. Patel | title= ALGORITHM 643: FEXACT: a FORTRAN subroutine for Fisher's exact test on unordered r×c contingency tables|journal= ACM Trans. Math. Softw. |volume=12| issue= 2 |year=1986| pages=154–161|doi=10.1145/6497.214326|s2cid=207666979 |doi-access=free}}</ref>

这个检验也可以用来量化两组数据之间的''重叠''。例如，在统计遗传学的富集分析中，一组基因可能被注释为特定的表型，用户可能对测试自己的基因组与这些基因组的重叠感兴趣。在这种情况下，可以生成一个2 × 2列联表，并通过识别以下内容应用Fisher精确检验：
# 同时在两个列表中提供的基因
# 只在第一个列表中而不在第二个列表中提供的基因
# 只在第二个列表中而不在第一个列表中提供的基因
# 没有在任何列表中提供的基因
这个检验假设列表中的基因来自更广泛的基因集合（例如，所有剩余的基因）。然后可以计算出一个''p''值，总结两个列表之间重叠的显著性。<ref>{{cite journal |doi=10.1038/nprot.2013.092|title=Large-scale gene function analysis with the PANTHER classification system |year=2013 |last1=Mi |first1=Huaiyu |last2=Muruganujan |first2=Anushya |last3=Casagrande |first3=John T. |last4=Thomas |first4=Paul D. |journal=Nature Protocols |volume=8 |issue=8 |pages=1551–1566 |pmid=23868073 |pmc=6519453 }}</ref>

== '''推导''' ==
<ref>[https://galton.uchicago.edu/~yibi/teaching/stat226/2022/L07.pdf STAT 226: Lecture 7, Section 2.6, Fisher’s Exact Tests.] Yibi Huang, University of Chicago</ref>
{| class="wikitable" style="text-align:center;"
|-
!
!    Class I   
!   Class II  
|''行总计''
|-
! scope="row" | 蓝色
| bgcolor="lightgray" | '''''a''''' || bgcolor="lightgray" | '''''b''''' || ''a + b''
|-
! scope="row" |   红色  
| bgcolor="lightgray" | '''''c''''' || bgcolor="lightgray" | '''''d''''' || ''c + d''
|-
| ''列总计''
| ''a + c'' || ''b + d'' || ''a + b + c + d (=n)''
|}

{{Math proof|title=推导|proof=

我们建立了Fisher精确检验的以下概率模型。

假设我们有[math]a+b[/math]个蓝色球和[math]c+d[/math]个红色球。我们将它们一起扔进一个黑色的箱子里，摇晃均匀，然后一个一个地取出，直到我们刚好取出了[math]a+c[/math]个球。我们称这些球为“第一类”，剩下的[math]b+d[/math]个球为“第二类”。

问题是计算恰好有[math]a[/math]个蓝色球在第一类中的概率。一旦我们填写了表格中的一个条目，表格中的其他所有条目就固定了。

假设我们假装每个球都有标签，在我们开始取球之前，我们将它们均匀随机地排列，然后取出前[math]a+c[/math]个球。这给了我们[math]n![/math]种可能性。

在这些可能性中，我们以第一[math]a+c[/math]个球恰好包含[math]a[/math]个蓝色球的情况为条件。为了计算这些可能性，我们按以下步骤进行：首先在第一类[math]a+c[/math]个球中，均匀随机地选择一个大小为[math]a[/math]的子集，有[math]\binom{a+c}{a}[/math]种可能性，然后在第二类[math]b+d[/math]个球中，均匀随机地选择一个大小为[math]b[/math]的子集，有[math]\binom{b+d}{b}[/math]种可能性。

这两个选定的集合将被填满蓝色球。其余的将被填满红色球。

一旦我们选择了这些集合，我们可以用任意顺序填充[math]a+b[/math]个蓝色球。这给了我们[math](a+b)![/math]种可能性。红色球同样，有[math](c+d)![/math]种可能性。

总体来说，我们有[math]\binom{a+c}{a}\binom{b+d}{b}(a+b)!(c+d)![/math]种可能性。

因此，这一事件的概率是[math]\frac{\binom{a+c}{a}\binom{b+d}{b}(a+b)!(c+d)!}{n!}=\frac{\binom{a+c}{a}\binom{b+d}{b}}{\binom{n}{a+b}}[/math]
}}

另一种推导方式：

{{Math proof|title=Derivation|proof=
假设每个蓝色和红色的球都有相同且独立的概率[math]p[/math]属于类别I，以及[math]1-p[/math]属于类别II。那么类别I的蓝色球的数量呈二项分布。恰好有[math]a[/math]个蓝色类别I球的概率是[math]\binom{a+b}{a}p^a[/math]，而恰好有[math]c[/math]个红色类别I球的概率是[math]\binom{c+d}{c}p^c[/math]。

恰好有[math]a+c[/math]个类别I球（不论红蓝球的数量）的概率是[math]\binom{n}{a+c}p^{a+c}[/math]。

因此，在有[math]a+c[/math]个类别I球的条件下，得到如下表格的条件概率是[math]\frac{\binom{a+c}{a}\binom{b+d}{b}}{\binom{n}{a+b}}[/math]
}}

=='''例子'''==
例如，一群青少年可能根据性别分为男性和女性，另一方面根据他们是否正在为统计学考试学习进行分类。例如，我们假设学习的学生比例在女性中高于男性，我们想测试我们观察到的比例差异是否显著。

数据可能看起来是这样的：

{|class="wikitable" style="text-align:center;"
|-
!
!    男性   
!   女性  
|''行总计''
|-
!scope="row" | 学习中
|bgcolor="lightgray" | '''1''' ||bgcolor="lightgray" | '''9''' || ''10''
|-
!scope="row"|   未学习  
|bgcolor="lightgray" | '''11''' ||bgcolor="lightgray" | '''3''' || ''14''
|-
| ''列总计''
| ''12'' || ''12'' || ''24''
|}

我们对这些数据提出的问题是：知道这24名青少年中有10人在学习，其中12人是女性，并假设男性和女性学习的可能性相等，那么这10名学生如此不均匀地分布在女性和男性之间的概率是多少？如果我们随机选择10名青少年，那么其中9人或更多在12名女性中，而12名男性中只有1人或更少的概率是多少？

=== 第一个例子 ===
在进行费舍尔检验之前，我们首先引入一些符号。我们用字母''a, b, c'' 和 ''d'' 表示单元格，称行和列的总计为''边际总计''，并用''n''表示总计。所以现在的表格看起来是这样的：

{|class="wikitable" style="text-align:center;"
|-
!
!    男性   
!   女性  
|''行总计''
|-
!scope="row" | 学习中
|bgcolor="lightgray" | '''''a''''' ||bgcolor="lightgray" | '''''b''''' || ''a + b''
|-
!scope="row"|   非学习中  
|bgcolor="lightgray" | '''''c''''' ||bgcolor="lightgray" | '''''d''''' || ''c + d''
|-
| ''列总计''
| ''a + c'' || ''b + d'' || ''a + b + c + d (=n)''
|}

费舍尔指出，基于表格边际的条件下，''a''的分布呈现[[hypergeometric distribution]]，从''a+b''个成功和''c+d''个失败的总体中抽取''a+c''次。获得这样一组值的概率由下式给出：

<div class="center">
[math]p = \frac{ \displaystyle{{a+b}\choose{a}} \displaystyle{{c+d}\choose{c}} }{ \displaystyle{{n}\choose{a+c}} } = \frac{ \displaystyle{{a+b}\choose{b}} \displaystyle{{c+d}\choose{d}} }{ \displaystyle{{n}\choose{b+d}} } = \frac{(a+b)!~(c+d)!~(a+c)!~(b+d)!}{a!~~b!~~c!~~d!~~n!}[/math]
</div>

其中 [math] \tbinom nk [/math] 是[[binomial coefficient]]，符号 ! 表示[[factorial|阶乘运算符]]。
这可以这样理解。如果边际总计（即 [math]a+b[/math]、[math]c+d[/math]、[math]a+c[/math] 和 [math]b+d[/math]）是已知的，那么只剩下一个自由度：例如 [math]a[/math] 的值足以推导出其他值。
现在，[math]p=p(a)[/math] 是在从包含总共 [math]n[/math] 个元素的更大集合中随机选择（无替换） [math]a+c[/math] 个元素时，[math]a[/math] 个元素为正的概率，其中 [math]a+b[/math] 是正的，这正是超几何分布的定义。

根据上述数据（使用等价形式之一），得到：

<div class="center">
[math]p = { {\tbinom{10}{1}} {\tbinom{14}{11}} }/{ {\tbinom{24}{12}} } = \tfrac{10!~14!~12!~12!}{1!~9!~11!~3!~24!} \approx 0.001346076[/math]
</div>

=== 第二个例子 ===
上述公式给出了在给定边际总计的条件下，观察到这种特定数据排列的确切超几何概率，假设[[null hypothesis]]男性和女性成为学习者的可能性相同。换句话说，如果我们假设男性成为学习者的概率是 [math]\mathfrak{p}[/math]，女性也是 [math]\mathfrak{p}[/math]，并且我们假设男性和女性无论是否为学习者都独立进入我们的样本，那么这个超几何公式就给出了在观察到的边际（即，假设表格边际显示的行和列总计是给定的）条件下观察到四个单元格中的''a, b, c, d''值的条件概率。即使男性和女性进入我们样本的概率不同，这仍然成立。唯一的要求是两个分类特征——性别和是否为学习者——没有关联。

例如，假设我们已知概率 [math]P, Q, \mathfrak{p,q}[/math]，且有 [math]P + Q = \mathfrak{p} + \mathfrak{q} = 1[/math]，使得（男性学习者、男性非学习者、女性学习者、女性非学习者）在我们的抽样程序下分别具有概率 [math](P\mathfrak{p}, P\mathfrak{q}, Q\mathfrak{p}, Q\mathfrak{q})[/math]。那么，即使我们计算了条件给定边际的单元格条目分布，我们也会得到上述公式，其中既不包含 [math]\mathfrak{p}[/math] 也不包含 [math]P[/math]。因此，我们可以计算24名青少年按照表格的四个单元格的任何排列的确切概率，但费希尔表明，为了生成显著性水平，我们只需要考虑边际总数与观察表中相同的情况，在这些情况中，只有排列与观察到的排列一样极端或更极端的情况。（[[Barnard's test]] 放松了对其中一组边际总数的限制。）在这个例子中，有11种这样的情况。其中只有一种在与我们数据相同的方向上更极端；它看起来像这样：

{|class="wikitable" style="text-align:center;"
|-
!
!    男性   
!   女性  
|''行总计''
|-
!scope="row" | 学习
|bgcolor="lightgray" | '''0''' ||bgcolor="lightgray" | '''10''' || ''10''
|-
!scope="row"|   非学习  
|bgcolor="lightgray" | '''12''' ||bgcolor="lightgray" | '''2''' || ''14''
|-
| ''列总计''
| ''12'' || ''12'' || ''24''
|}
对于这个表格（学习比例极不平衡），概率是
[math]{p = {\tbinom{10}{0}} {\tbinom{14}{12}} }/{ {\tbinom{24}{12}} } \approx 0.000033652[/math]。

=== p值检验 ===
为了计算观察到的数据的显著性，即如果[[null hypothesis]]为真时观察到的数据为极端或更极端的总概率，我们必须计算这些表格的''p''值，并将它们相加。这给出了一个[[one-tailed test]]，''p''值约为 0.001346076 + 0.000033652 = 0.001379728。例如，在[[R programming language|R统计计算环境]]中，这个值可以通过<code>fisher.test(rbind(c(1,9),c(11,3)), alternative="less")$p.value</code>获得，或者在Python中，使用<code>scipy.stats.fisher_exact(table=[[1,9],[11,3]], alternative="less")</code>（在此可以获得先验赔率比和''p''-值）。这个值可以解释为由观察数据提供的证据总和——或任何更极端的表格——支持[[null hypothesis]]（男性和女性学习者比例没有差异）。''p''值越小，拒绝零假设的证据越大；因此这里证据强烈表明男性和女性成为学习者的可能性并不相同。

对于[[two-tailed test]]，我们还必须考虑那些同样极端但方向相反的表格。不幸的是，根据表格是否“同样极端”进行分类存在问题。[[R programming language|R]]中的<code>fisher.test</code>函数使用的方法是计算观察表格的概率小于或等于的所有表格的概率总和来计算''p''-值。在这个例子中，双边''p''-值是单边值的两倍——但通常对于计数较小的表格，这两者可能相差很大，不像具有对称采样分布的测试统计量的情况。

=='''争议'''==
尽管费希尔检验给出了精确的''p''-值，但一些作者认为它是保守的，即实际拒绝率低于名义显著性水平。<ref name="Liddell-1976">{{Cite journal
| doi = 10.2307/2988087
| last = Liddell
| first = Douglas
| year = 1976
| title = Practical tests of 2×2 contingency tables
| journal = The Statistician
| volume = 25
| issue = 4
| pages = 295–304
| jstor = 2988087
}}</ref><ref name="Berkson1978">{{Cite journal
| last = Berkson
| first = Joseph
| year = 1978
| title = In dispraise of the exact test
| journal = Journal of Statistical Planning and Inference
| volume = 2
| pages = 27–42
| doi = 10.1016/0378-3758(78)90019-8
}}</ref><ref name="DAgostino1988">{{Cite journal
| doi = 10.2307/2685002
| author1=D'Agostino, R. B. |author2=Chase, W. |author3= Belanger, A. |name-list-style=amp | year = 1988
| title = The appropriateness of some common procedures for testing equality of two independent binomial proportions
| journal = The American Statistician
| volume = 42
| issue = 3
| pages = 198–202
| jstor = 2685002
}}</ref> 表面上的矛盾源于离散统计量与固定显著性水平的结合。<ref name="Yates1984">{{Cite journal
| doi = 10.2307/2981577
| author = Yates, F.
| year = 1984
| title = Tests of significance for 2 × 2 contingency tables (with discussion)
| journal = Journal of the Royal Statistical Society, Series A
| volume = 147
| issue = 3
| pages = 426–463
| jstor = 2981577
| s2cid = 15760519
}}</ref><ref name="Little1989">{{Cite journal
| doi = 10.2307/2685390
| author = Little, Roderick J. A.
| year = 1989
| title = Testing the equality of two independent binomial proportions
| journal = The American Statistician
| volume = 43
| issue = 4
| pages = 283–288
| jstor = 2685390
}}</ref> 为了更精确，考虑以下提议的5%水平的显著性检验：拒绝费希尔检验分配给''p''-值等于或小于5%的每个表格的零假设。因为所有表格的集合是离散的，可能不存在一个表格能够实现等式的精确成立。如果[math]\alpha_e[/math]是小于5%的最大的''p''-值，并且对某个表格来说实际可能发生，那么所提出的测试实际上就是在[math]\alpha_e[/math]水平上进行测试。对于小样本量，[math]\alpha_e[/math]可能明显低于5%。<ref name="Liddell-1976" /><ref name="Berkson1978" /><ref name="DAgostino1988" /> 虽然这种效应会在任何离散统计量（不仅仅是在列联表中，或是费舍尔检验中）中出现，但有人认为这个问题因为费舍尔检验条件依赖于边际值而加剧了。<ref>{{cite web |first1=Cyrus R. |last1=Mehta |first2=Pralay |last2=Senchaudhuri |date=4 September 2003 |url= |title=Conditional versus unconditional exact tests for comparing two binomials |access-date=20 November 2009}}</ref> 为了避免这个问题，许多作者不鼓励在处理离散问题时使用固定的显著性水平。<ref name="Yates1984" /><ref name="Little1989" />

关于是否基于表格的边际值条件也是有争议的。<ref name="Barnard1945a">
{{Cite journal
|doi=10.1038/156177a0
|author=Barnard, G.A.
|year=1945
|title=A new test for 2×2 tables
|journal=Nature
|volume=156
|page=177
|issue=3954
|bibcode=1945Natur.156..177B
|doi-access=free
}}</ref><ref name="NatureDiscussion">
{{Cite journal
|author=Fisher
|year=1945
|journal=Nature
|volume=156
|page=388
|doi=10.1038/156388a0
|title=A New Test for 2 × 2 Tables
|issue=3961
|bibcode=1945Natur.156..388F
|s2cid=4113420
|doi-access=free
}};
{{Cite journal
|author=Barnard, G.A.
|year=1945
|journal=Nature
|volume=156
|pages=783–784
|title=A new test for 2×2 tables
|doi=10.1038/156783b0
|issue=3974
|bibcode=1945Natur.156..783B
|s2cid=4099311
}}
</ref> 从费舍尔检验得出的''p''-值来自于基于边际总数条件的分布。在这个意义上，这个检验只对条件分布是精确的，而不是对原始表格，其中边际总数可能会因实验而变化。当边际值不固定时，可以为2×2表格获得一个精确的''p''-值。例如，[[Barnard's exact test|Barnard的检验]]允许边际值随机。然而，一些作者<ref name="Yates1984" /><ref name="Little1989" /><ref name="NatureDiscussion" />（包括后来的Barnard本人）<ref name="Yates1984" />基于这个特性批评了Barnard的检验。他们认为边际成功总数是一个（几乎<ref name="Little1989" />）[[ancillary statistic]]，几乎不包含关于被测试属性的信息。

从2×2表格中对边际成功率的条件化可以被显示为忽略了数据中关于未知赔率比的一些信息。<ref name="Choi2015">
{{Cite journal
|vauthors=Choi L, Blume JD, Dupont WD
|year=2015
|title=Elucidating the foundations of statistical inference with 2×2 tables
|journal=PLOS ONE
|volume=10
|issue=4
|pages=e0121263
|doi=10.1371/journal.pone.0121263
|pmc=4388855
|pmid=25849515
|bibcode=2015PLoSO..1021263C
|doi-access=free
}}</ref> 边际总数几乎是辅助的这一论点意味着，对这个赔率比的推理应该基于对边际成功率的条件概率函数。<ref name="Choi2015" /> 这种丢失的信息对于推理目的是否重要是这一争议的本质。<ref name="Choi2015" />

=='''替代方法'''==
已经发展了一个替代的精确检验，[[Barnard's exact test|Barnard的检验]]，并且支持者<ref>{{cite journal | author = Lydersen, S., Fagerland, M. W., and Laake, P. | year = 2009 | title = Recommended tests for association in 2× 2 tables | journal = Statistics in Medicine | volume = 28 | issue = 7 | pages = 1159–1175 | doi= 10.1002/sim.3531| pmid = 19170020 | s2cid = 3900997 }}</ref> 建议这种方法更为强大，特别是在2×2表格中。<ref>{{cite journal | author = Berger R.L. | year = 1994 | title = Power comparison of exact unconditional tests for comparing two binomial proportions | journal = Institute of Statistics Mimeo Series No. 2266 | pages = 1–19 }}</ref> 此外，[[Boschloo's test]]是一个构造上比费舍尔精确检验更有力的精确检验。<ref name="Boschloo">{{cite journal | author = Boschloo R.D. | year = 1970 | title = Raised Conditional Level of Significance for the ''2''x''2''-table when Testing the Equality of Two Probabilities | journal = Statistica Neerlandica | volume = 24 | pages = 1–35 | doi = 10.1111/j.1467-9574.1970.tb00104.x}}</ref>

大多数现代[[statistical package]]s将计算费舍尔检验的显著性，在某些情况下，即使卡方近似也是可接受的。统计软件包执行的实际计算通常会与上述描述不同，因为阶乘的大数值可能导致数值困难。一个简单、稍微更好的计算方法依赖于[[gamma function]]或对数伽玛函数，但对超几何和二项概率进行精确计算的方法仍是一个活跃的研究领域。

对于分层分类数据，必须使用[[Cochran–Mantel–Haenszel test]]而不是费舍尔检验。

Choi等人<ref name="Choi2015" />提出了一个基于条件分布的[[odds ratio]]的似然比检验得出的''p''-值。这个''p''-值在推理上与经典的正态分布数据测试以及基于这种条件似然函数的似然比和支持区间一致。它也容易计算。<ref name="Choi2011">{{Cite web
| last = Choi
| first = Leena
| year = 2011
| title = ProfileLikelihood: profile likelihood for a parameter in commonly used statistical models; 2011. R package version 1.1.
| url =
}}

== '''节点使用的R语言示例代码''' ==
=== Fisher精确检验 ===
<syntaxhighlight lang="R">

fisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE,
hybridPars = c(expect = 5, percent = 80, Emin = 1),
control = list(), or = 1, alternative = "two.sided",
conf.int = TRUE, conf.level = 0.95)

</syntaxhighlight>

== '''节点使用指南''' ==
* 用于检验两个分类变量之间是否独立的统计显著性检验。
* 用于样本量较小或数据分布不均匀的情况，尤其当任何期望频数小于5时
* 通常用于2x2列联表（contingency table）

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 统计变量1：选择二分类变量
* 统计变量2：选择一个或多个二分类变量，每个变量将与变量1做一次Fisher精确检验
* 置信区间百分比:输入百分比，95%置信区间就是0.95
* 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 统计变量1和统计变量2要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 两个分析的变量必须是二分类

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:频数表检验]]

符号检验

2024-01-24T05:42:50Z

RainW：

{{Infobox nodebasic
|nodename=符号检验
|nodeimage=Sign Test.png
|icon=Sign Test.svg
|simpleicon=Sign Test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.2.0|V1.0.2]]部署
|nodeenglishname=Sign Test
|abbreviation=SigT
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::非参数检验 ]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=符号检验是一种非参数检验方法。通过两个相关样本的每对数据之差的符号进行检验，从而比较两个样本的显著性。如果两个配对的样本实际没差别，则样本相减的差值应当大致一半正一半负。样本总体不受分布限制，可以不满足正态分布。用途：用于检验两组配对观测值或者一组观测值与一个固定值比较时的差异性。参数：选择连续型数值变量和分类分组变量。
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=Rain_Cloud
|nodeavailabletablelist=P-Value;CI
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/符号检验
|previousnode=[[Ridit分析]]
|nextnode=[[游程检验]]
}}

'''符号检验'''是一种统计方法，用于检验观察对之间的一致性差异，例如治疗前后受试者的体重。对于每个受试者给定的观察对（如治疗前后的体重），符号检验确定成对中的一个成员（如治疗前）是否倾向于大于（或小于）另一个成员（如治疗后）。

成对观察可以指定为''x''和''y''。对于成对观察（''x''，y）的比较，如果比较只能表达为''x'' > ''y''，''x'' = ''y''或''x'' < ''y''，那么符号检验最有用。如果相反，观察可以表示为数字量（''x'' = 7，''y'' = 18），或作为等级（''x''的排名 = 第1位，''y''的排名 = 第8位），那么成对的[[t检验]]<ref>{{citation|title=Serious Stats: A Guide to Advanced Statistics for the Behavioral Sciences|first=Thomas|last=Baguley|publisher=Palgrave Macmillan|year=2012|isbn=9780230363557|page=281|url=https://books.google.com/books?id=ObUcBQAAQBAJ&pg=PA281}}.</ref>或[[Wilcoxon符号秩检验]]<ref>{{citation|title=Nonparametric Statistics: A Step-by-Step Approach|first1=Gregory W.|last1=Corder|first2=Dale I.|last2=Foreman|edition=2nd|publisher=John Wiley & Sons|year=2014|isbn=9781118840429|contribution=3.6 Statistical Power|contribution-url=https://books.google.com/books?id=CIxgAwAAQBAJ&pg=SA3-PA7}}.</ref>通常比符号检验更有力量检测一致性差异。

如果X和Y是定量变量，'''符号检验'''可用于[[假设检验|检验假设]]''X''和''Y''之间的差异中位数为零，假设两个[[随机变量]]''X''和''Y''有连续的分布，在我们可以从''X''和''Y''中抽取[[成对差异检验|成对样本]]的情况下。<ref>[https://onlinecourses.science.psu.edu/stat414/node/318 中位数的符号检验] // STAT 415 Intro Mathematical Statistics. 宾夕法尼亚州立大学.</ref>

符号检验还可以检验一组数字的中位数是否显著大于或小于特定值。例如，给定一个班级中学生的成绩列表，符号检验可以确定中位成绩是否与75分（满分100分）显著不同。

符号检验是一种[[非参数检验]]，对测试中的分布性质几乎没有假设——这意味着它具有非常广泛的适用性，但可能缺乏替代检验的[[统计功效]]。

成对样本符号检验的两个条件是样本必须从每个总体中随机选取，且样本必须是依赖的，或成对的。
独立样本无法有意义地成对。由于检验是非参数的，样本不必来自正态分布的总体。此外，该检验适用于左尾、右尾和双尾检验。

=='''方法'''==
设''p'' = Pr(''X'' > ''Y'')，然后检验[[零假设]] H0: ''p'' = 0.50。换句话说，零假设表明，给定一对[[随机]]测量值（''x''''i''，''y''''i''），那么''x''''i''和''y''''i''有同等可能性比另一个更大。

为了检验零假设，从总体中收集独立对的样本数据{(''x''1，''y''1)，(''x''2，''y''2)，...，(''x''''n''，''y''''n'')}。对于没有差异的对将被省略，因此可能会有一个减少的''m''对样本。<ref name="mendenhall">{{Citation
|vauthors = Mendenhall W, Wackerly DD, Scheaffer RL
|title=Mathematical statistics with applications
|edition=Fourth
|year=1989
|publisher=PWS-Kent
|isbn=0-534-92026-8
|pages=674–679
|chapter=15: 非参数统计
}}
</ref>

然后设''W''为''y''''i'' − ''x''''i'' > 0的对数。假设H0为真，则''W''遵循[[二项分布]]''W'' ~ b(''m'', 0.5)。

=='''假设'''==
设''Z''i = ''Y''i − ''X''i，对于''i'' = 1，...， ''n''。
# 假设差异''Zi''是独立的。
# 每个''Zi''来自相同的连续总体。
# ''X''''i''和''Y''''i''代表的值是有序的（至少是[[序数尺度]]），因此比较“大于”、“小于”和“等于”是有意义的。

=='''显著性检验'''==

由于预期检验统计量遵循[[二项分布]]，因此使用标准[[二项检验]]来计算[[统计显著性|显著性]]。对于大样本量（''m'' > 25），可以使用[[二项分布#正态近似|二项分布的正态近似]]。<ref name="mendenhall"/>

左尾值由Pr(''W'' ≤ ''w'')计算，这是替代假设H1: ''p'' < 0.50的[[p值]]。这种替代意味着''X''的测量值倾向于更高。

右尾值由Pr(''W'' ≥ ''w'')计算，这是替代假设H1: ''p'' > 0.50的p值。这种替代意味着''Y''的测量值倾向于更高。

对于双侧替代H1，p值是两个较小尾值的两倍。

=='''配对样本的双侧符号检验示例'''==
Zar给出了配对样本的符号检验的以下示例。收集了10只鹿的左后腿和左前腿的长度数据。<ref name="Zar1999">{{Citation
|last=Zar
|first=Jerold H.
|title=Biostatistical Analysis
|edition=Fourth
|year=1999
|publisher=Prentice-Hall
|isbn=0-13-081542-X
|pages=516–570
|chapter=Chapter 24: More on Dichotomous Variables
}}
</ref>

{| class="wikitable"
|-
! 鹿 !! 后腿长度 (厘米) !! 前腿长度 (厘米) !! 差异
|-
| 1 || 142 || 138 || +
|-
| 2 || 140 || 136 || +
|-
| 3 || 144 || 147 || −
|-
| 4 || 144 || 139 || +
|-
| 5 || 142 || 143 || −
|-
| 6 || 146 || 141 || +
|-
| 7 || 149 || 143 || +
|-
| 8 || 150 || 145 || +
|-
| 9 || 142 || 136 || +
|-
| 10 || 148 || 146 || +
|}

原假设是鹿的后腿长度和前腿长度之间没有差异。备择假设是后腿长度与前腿长度之间存在差异。这是一个双侧检验，而不是单侧检验。对于双侧检验，备择假设是后腿长度可能大于或小于前腿长度。单侧检验可能是后腿长度大于前腿长度，因此差异只能朝一个方向（大于）。

有n=10只鹿。有8个正差异和2个负差异。如果原假设成立，即后腿和前腿长度之间没有差异，那么预期的正差异数量是10中的5。如果后腿和前腿长度没有差异，观察到8个正差异或更极端结果的概率是多少？

因为检验是双侧的，与8个正差异一样极端或更极端的结果包括8、9或10个正差异，以及0、1或2个正差异的结果。在10只鹿中有8个或更多正差异或2个或更少正差异的概率与在公平硬币抛掷10次中出现8个或更多正面或2个或更少正面的概率相同。可以使用[[二项式检验]]计算这些概率，正面的概率 = 反面的概率 = 0.5。

*公平硬币抛掷10次中出现0个正面的概率 = 0.00098
*公平硬币抛掷10次中出现1个正面的概率 = 0.00977
*公平硬币抛掷10次中出现2个正面的概率 = 0.04395
*公平硬币抛掷10次中出现8个正面的概率 = 0.04395
*公平硬币抛掷10次中出现9个正面的概率 = 0.00977
*公平硬币抛掷10次中出现10个正面的概率 = 0.00098

10次中出现8个正差异的双侧概率是这些概率之和：

: 0.00098 + 0.00977 + 0.04395 + 0.04395 + 0.00977 + 0.00098 = 0.109375。

因此，如果后腿和前腿长度没有差异，观察到10次中8个正差异的概率是''p'' = 0.109375。在''p'' = 0.05的显著性水平下，原假设不被拒绝。如果样本量更大，可能有足够的证据拒绝原假设。

由于观察值可以表示为数字量（实际腿长），配对t检验或Wilcoxon符号秩检验通常比符号检验具有更大的功效来检测一致的差异。对于这个示例，配对t检验的差异表明后腿长度和前腿长度存在显著差异（''p'' = 0.007）。

如果观察到的结果是10次比较中有9个正差异，符号检验将是显著的。只有0、1、9或10个正面的硬币抛掷结果才与观察结果一样极端或更极端。

*公平硬币抛掷10次中出现0个正面的概率 = 0.00098
*公平硬币抛掷10次中出现1个正面的概率 = 0.00977
*公平硬币抛掷10次中出现9个正面的概率 = 0.00977
*公平硬币抛掷10次中出现10个正面的概率 = 0.00098

10次中出现9个正差异的概率是这些概率之和：

: 0.00098 + 0.00977 + 0.00977 + 0.00098 = 0.0215。

一般来说，10次中有8个正差异不显著（''p'' = 0.11），但10次中有9个正差异是显著的（''p'' = 0.0215）。

=='''示例'''==
===配对样本的单侧符号检验示例===
Conover<ref name="Conover1999" />使用配对样本的单侧符号检验给出以下示例。一家制造商生产两种产品，A和B。制造商希望知道消费者是否更喜欢产品B而非产品A。抽取了10名消费者，每人分别给予产品A和产品B，并询问他们更喜欢哪种产品。

原假设是消费者不偏好产品B超过产品A。备择假设是消费者更喜欢产品B。这是一个单侧（定向）检验。

研究结束时，8名消费者更喜欢产品B，1名消费者更喜欢产品A，还有一名报告无偏好。

*正数（偏好B）= 8
*负数（偏好A）= 1
*平局（无偏好）= 1

将平局排除在分析之外，给出n = 正数和负数的数量 = 8 + 1 = 9。

如果原假设成立，即消费者对B和A没有偏好，那么9对中有8个正面结果的概率是多少？这是公平硬币抛掷9次中出现8个或更多正面的概率，可以使用二项分布计算，p(正面) = p(反面) = 0.5。

公平硬币抛掷9次中出现8或9个正面的概率 = 0.0195。原假设被拒绝，制造商得出结论，消费者更喜欢产品B而非产品A。

===用于单样本中位数的符号检验示例===

Sprent <ref name="Sprent1989" /> 提供了以下用于中位数的符号检验示例。在一项临床试验中，收集了10名非霍奇金淋巴瘤患者的存活时间（周）。一名受试者在研究结束时仍存活超过362周，其确切存活时间未知。受试者的存活时间分别为：

: 49, 58, 75, 110, 112, 132, 151, 276, 281, 362+

加号表示研究结束时仍存活的受试者。研究者希望确定中位存活时间是少于还是超过200周。

零假设是中位存活时间为200周。
备选假设是中位存活时间不为200周。这是一个双侧检验：备选中位数可能大于或小于200周。

如果零假设成立，即中位存活时间为200周，那么在随机样本中大约有一半的受试者存活时间少于200周，另一半超过200周。低于200的观测值被赋予负号（−），高于200的观测值被赋予正号（+）。对于这10名受试者的存活时间，有7个观测值低于200周（−），3个观测值超过200周（+）。

由于任何一个观测值都同样可能高于或低于人群中位数，因此正号得分的数量将呈二项分布，平均值 = 0.5。那么在10名受试者中有7人低于中位数的结果概率是多少？这与在10次公平硬币投掷中出现7次正面的概率完全相同。由于这是一个双侧检验，极端结果可以是三次或更少的正面，或七次或更多的正面。

在10次公平硬币投掷中观察到k次正面的概率，其中p(正面) = 0.5，由二项式公式给出：

: Pr(正面次数 = ''k'') = Choose(10, ''k'') × 0.510

下表给出了各个''k''值的概率。

{| class="wikitable"
! ''k''!! 0!! 1!! 2!! 3!! 4!! 5!! 6!! 7!! 8!! 9!! 10
|-
! Pr
| 0.0010|| 0.0098|| 0.0439|| 0.1172|| 0.2051|| 0.2461|| 0.2051|| 0.1172|| 0.0439|| 0.0098|| 0.0010
|}

在10次投掷中出现0、1、2、3、7、8、9或10次正面的概率是它们各自概率的总和：

: 0.0010 + 0.0098 + 0.0439 + 0.1172 + 0.1172 + 0.0439 + 0.0098 + 0.0010 = 0.3438。

因此，如果中位存活时间为200周，则观察到3次或更少正号或7次或更多正号的概率为0.3438。如果零假设成立，预期的正号数量为5。观察到3次或更少，或7次或更多正号与5次没有显著差异。零假设未被拒绝。由于样本量极小，此样本检测差异的能力较低。

== '''历史''' ==
{{see also|统计学的历史}}
康诺佛（Conover）<ref name="Conover1999">{{Citation
|last=Conover
|first=W.J.
|title=Practical Nonparametric Statistics
|edition=Third
|year=1999
|publisher=Wiley
|isbn=0-471-16068-7
|pages=157–176
|chapter=第3.4章：符号检验}}
</ref> 和斯普伦特（Sprent）<ref name="Sprent1989">{{Citation
|last=Sprent
|first=P.
|title=Applied Nonparametric Statistical Methods
|edition=Second
|year=1989
|publisher=Chapman & Hall
|isbn=0-412-44980-3
}}
</ref> 描述了[[约翰·阿布纳特]]（John Arbuthnot）在1710年使用符号检验的情况。阿布纳特检查了从1629年到1710年的82年间伦敦的出生记录。在这每一年中，伦敦出生的男性数量都超过了女性数量。如果出生数量相等的零假设为真，那么观察到的结果概率为1/282，这使阿布纳特得出结论，男女出生的概率并不完全相等。

由于他在1692年和1710年的出版物，《阿布纳特被认为是“……第一次使用显著性检验……”<ref name="Bellhouse2001">{{Citation
|last=Bellhouse
|first=P.
|title=in Statisticians of the Centuries by C.C. Heyde and E. Seneta
|year=2001
|publisher=Springer
|isbn=0-387-95329-9
|pages=39–42
|chapter=约翰·阿布纳特}}
</ref>，关于统计显著性和道德确定性的推理的第一个例子，<ref name="Hald1998">{{Citation
|last=Hald
|first=Anders
|title=A History of Mathematical Statistics from 1750 to 1930
|year=1998
|publisher=Wiley
|isbn=
|pages=65
|chapter=第4章：偶然还是设计：显著性检验}}
</ref> 和“……可能是第一个发布的非参数检验的报告……”。<ref name="Conover1999" />

哈尔德（Hald）<ref name="Hald1998"/> 进一步描述了阿布纳特研究的影响。

“尼古拉斯·伯努利（Nicholas Bernoulli）（1710–1713）通过表明，每年男性出生数的大部分变化可以解释为二项式，其中''p'' = 18/35，完成了对阿布纳特数据的分析。这是第一个将二项式拟合到数据的例子。因此，我们在这里有一个拒绝假设 ''p'' = 0.5 的显著性检验，接着是对p的估计和对拟合优度的讨论”

== '''节点使用的R语言示例代码''' ==
=== 符号检验 ===
<syntaxhighlight lang="R">

binom.test(x, n, p = 0.5,
alternative = c("two.sided", "less", "greater"),
conf.level = 0.95)

</syntaxhighlight>

== '''节点使用指南''' ==
* 一种非参数（non-parametric）统计检验方法
* 用于比较两个匹配样本或重复测量的中位数是否存在显著差异
* 统计正差异和负差异的数量，即计数差异大于零和小于零的次数

=== 方法选择 ===
* 无方法选择

=== 参数配置 ===
* 分组变量：选择二分类分组变量
* 统计变量：选择一个或多个连续型数值变量，每个变量与分组变量做一次符号检验
* 置信区间百分比:输入百分比，95%置信区间就是0.95
* 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
* 分组变量和统计变量要规避复用
* 此算法兼容空值

=== 注意事项 ===
* 分组变量必须是二分类
* 有一对匹配的样本或者一组受试对象的重复测量数据

== '''引用''' ==
{{Reflist}}

{{Navplate AlgorithmNodeList}}

[[Category:非参数检验]]

决策链云智库 - 用户贡献 [zh-cn]

多重比较方差分析

多重比较方差分析

组内相关系数 随机效应

组内相关系数 混合效应

组内相关系数 混合效应

典型相关分析

典型相关分析

典型相关分析

一般线性相关分析

一般线性相关分析

一般线性相关分析

球形检验

方差齐性检验

方差齐性检验

Welch检验

Welch检验

Welch检验

Welch检验

多元方差分析

Welch检验

多元方差分析

Two Way ANOVA

Two Way ANCOVA

One Way ANOVA

One Way ANCOVA

One Way ANCOVA

One Way ANCOVA

F检验

F检验

F检验

符号检验

符号检验

卡方检验

卡方检验

卡方检验

McNemar检验

McNemar检验

McNemar检验

McNemar检验

McNemar检验

McNemar检验

McNemar检验

Mantel-Haenszel检验

G检验

G检验

G检验

Fisher精确检验

Fisher精确检验

Fisher精确检验

符号检验

组内相关系数随机效应

组内相关系数混合效应

组内相关系数混合效应