两独立样本T检验:修订间差异

来自决策链云智库
(创建页面,内容为“{{Infobox nodebasic|nodename=两独立样本T检验|nodeimage=Two Independent Samples T_test.png|developer=Dev.Team-DPS|productionstate=PC可用|productionstatedesc=在 V1.0部署|nodeenglishname=Has english name::Two Independent Samples T_test|abbreviation=TT_Test|funcmaincategory=数据分析|funcsubcategory=DataAGM Lv1 Cat::参数检验|nodecategory=数据挖掘|nodeinterpretor=R|nodeshortdescription=<p>两独立样本T检验是利…”)
 
无编辑摘要
 
(未显示2个用户的11个中间版本)
第1行: 第1行:
{{Infobox nodebasic|nodename=两独立样本T检验|nodeimage=Two Independent Samples T_test.png|developer=Dev.Team-DPS|productionstate=PC可用|productionstatedesc=在[[DecisionTree | V1.0]]部署|nodeenglishname=[[Has english name::Two Independent Samples T_test]]|abbreviation=TT_Test|funcmaincategory=数据分析|funcsubcategory=[[DataAGM Lv1 Cat::参数检验]]|nodecategory=数据挖掘|nodeinterpretor=R|nodeshortdescription=<p>两独立样本T检验是利用来自两个总体的独立样本,推断两个总体的均值是否存在显著差异。检验的前提条件是两样本是相互独立,样本来自的两个总体应该服从正态分布。\n用途:用于比较两个独立样本的均值是否存在显著差异。这种检验通常用于比较两个不同的群体或条件。\n参数:选择一个分组变量和连续型数值变量</p>|nodeinputnumber=4|nodeoutputnumber=3|nodeloopsupport=是|nodeifswitchsupport=否|nodeavailableplotlist=SplittingNephelogram|nodeavailabletablelist=Table_For_Downstream|nodeconfiguration=VariableList;DropManu;Text|nodeinputports=WorkFlow-Control ;Transfer-Table ■|nodeoutputports=WorkFlow-Control ;Transfer-Table ■|statsapewikiurl=https://wiki.statsape.com/两独立样本T检验_Plus|previousnode=[[单样本T检验]]|nextnode=[[两样本配对T检验]]}}{{Navplate AlgorithmNodeList}}[[Category:参数检验]]
{{Infobox nodebasic
|nodename=两独立样本T检验
|nodeimage=Two Independent Samples T_test.png
|icon=Two Independent Samples T_test.svg
|simpleicon=Two Independent Samples T_test_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=Two Independent Samples T_test
|abbreviation=TInpdSamTt
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::参数检验]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=<p>两独立样本T检验是利用来自两个总体的独立样本,推断两个总体的均值是否存在显著差异。检验的前提条件是两样本是相互独立,样本来自的两个总体应该服从正态分布。</p><p>用途:用于比较两个独立样本的均值是否存在显著差异。这种检验通常用于比较两个不同的群体或条件。</p><p>参数:选择一个分组变量和连续型数值变量。</p>
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=SplittingNephelogram
|nodeavailabletablelist=t-Value;df;P-Value;CI;Mean;SE
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/两独立样本T检验
|previousnode=[[单样本T检验]]
|nextnode=[[两样本配对T检验]]
}}
 
'''t检验'''是一种用于测试两组反应之间的差异是否具有[[统计显著性|统计意义]]的[[统计假设检验|统计假设检验]]方法。它是任何在[[零假设]]下[[检验统计量]]遵循[[学生t分布|学生''t''分布]]的[[统计假设检验]]。当测试统计量在其[[标度参数|缩放项]]已知的情况下遵循[[正态分布]]时,最常用(通常情况下,缩放项是未知的,因此是一个[[干扰参数]])。当基于[[数据]]估计缩放项时,在某些条件下,测试统计量遵循学生''t''分布。''t''检验最常见的应用是测试两个群体的均值是否显著不同。在许多情况下,[[Z检验]]的结果与t检验非常相似,因为后者随着数据集大小的增加而趋近于前者。
 
=='''历史'''==
[[File:William Sealy Gosset.jpg|thumb|upright|开发了“''t''统计量”并以[[假名]]“学生”发表的[[威廉·西利·戈塞特]]]]
 
“''t''统计量”这一术语是从“假设检验统计量”缩写而来。<ref>{{Cite book |url=https://books.google.com/books?id=kiToDwAAQBAJ&pg=PA397 |title=The Microbiome in Health and Disease |date=2020-05-29 |publisher=Academic Press |isbn=978-0-12-820001-8 |pages=397 }}</ref> 在统计学中,''t''分布最初由[[弗里德里希·罗伯特·赫尔默特|赫尔默特]]<ref>{{cite book |last=Szabó |first=István |chapter=Systeme aus einer endlichen Anzahl starrer Körper |date=2003 |title=Einführung in die Technische Mechanik |language=de |pages=196–199 |publisher=Springer Berlin Heidelberg |doi=10.1007/978-3-642-61925-0_16 |isbn=978-3-540-13293-6}}</ref><ref>{{Cite journal |last=Schlyvitch |first=B. |date=October 1937 |title=Untersuchungen über den anastomotischen Kanal zwischen der Arteria coeliaca und mesenterica superior und damit in Zusammenhang stehende Fragen |language=de |journal=Zeitschrift für Anatomie und Entwicklungsgeschichte |volume=107 |issue=6 |pages=709–737 |doi=10.1007/bf02118337 |s2cid=27311567 |issn=0340-2061}}</ref><ref>{{Cite journal |last=Helmert |date=1876 |title=Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers directer Beobachtungen gleicher Genauigkeit |journal=Astronomische Nachrichten |language=de |volume=88 |issue=8–9 |pages=113–131 |doi=10.1002/asna.18760880802 |bibcode=1876AN.....88..113H |url=https://zenodo.org/record/1424695}}</ref>和[[雅各布·吕罗特|吕罗特]]<ref>{{Cite journal |last=Lüroth |first=J. |date=1876 |title=Vergleichung von zwei Werthen des wahrscheinlichen Fehlers|journal=Astronomische Nachrichten |language=de |volume=87 |issue=14 |pages=209–220 |doi=10.1002/asna.18760871402 |bibcode=1876AN.....87..209L |url=https://zenodo.org/record/1424693}}</ref><ref>{{cite journal |doi=10.1093/biomet/83.4.891 |mr=1766040 |title=Studies in the history of probability and statistics XLIV. A forerunner of the ''t''-distribution |year=1996 |last1=Pfanzagl |first1=J. |journal=Biometrika |volume=83 |issue=4 |pages=891–898 }}</ref><ref>{{Cite journal |last=Sheynin |first=Oscar |s2cid=121241599 |date=1995 |title=Helmert's work in the theory of errors |journal=Archive for History of Exact Sciences |volume=49 |issue=1 |pages=73–104 |doi=10.1007/BF00374700 |issn=0003-9519}}</ref>于1876年首次将其作为[[后验概率|后验分布]]推导出来。''t''分布也在[[卡尔·皮尔逊]]1895年的论文中以更一般的形式作为皮尔逊类型&nbsp;[[皮尔逊分布|IV]]分布出现。<ref>{{cite journal | doi=10.1098/rsta.1895.0010 | title=X. Contributions to the mathematical theory of evolution.—II. Skew variation in homogeneous material | journal=Philosophical Transactions of the Royal Society of London A | year=1895 | volume=186 | pages=343–414 | bibcode=1895RSPTA.186..343P | last1=Pearson | first1=Karl | doi-access=free }}</ref> 然而,''t''分布,也被称为[[学生t分布|学生''t''分布]],是因[[威廉·西利·戈塞特]]而得名,他于1908年首次用英文在科学期刊[[Biometrika]]上发表了该论文,使用了假名“学生”<ref name="The Probable Error of a Mean"/><ref>{{Cite web |url=https://www.tdistributiontable.com |title=T Table}}</ref>,因为他的雇主更喜欢员工在发表科学论文时使用[[笔名]]。<ref>{{cite journal | doi=10.1126/science.351.6280.1406 | title=Pseudonymous fame | year=2016 | last1=Wendl | first1=Michael C. | journal=Science | volume=351 | issue=6280 | page=1406 | pmid=27013722 }}</ref> 戈塞特在[[都柏林]]的[[健力士啤酒厂]]工作,对小样本问题感兴趣{{snd}}例如,小样本大小的大麦化学性质。因此,术语Student的第二个词源版本是健力士不希望竞争对手知道他们正在使用''t''检验来确定原材料的质量。尽管是威廉·戈塞特命名的“学生”这一术语,但实际上是通过[[罗纳德·费舍尔]]的工作,该分布被广为人知,称为“学生分布”<ref>{{Cite book |last=Walpole, Ronald E. |title=Probability & statistics for engineers & scientists |date=200 |publisher=Pearson |others=Myers, H. Raymond |isbn=81-7758-404-9 |edition= 7th |location=New Delhi |oclc=818811849}}</ref>和“学生''t''检验”。
 
戈塞特设计了''t''检验作为一种经济有效的方法来监控[[烈性啤酒]]的质量。''t''检验的工作被提交并被''[[Biometrika]]''期刊接受,并于1908年发表。<ref name="The Probable Error of a Mean">{{cite journal |author=Student |title=The Probable Error of a Mean |journal=[[Biometrika]] |date=1908 |volume=6 |issue=1 |pages=1–25 |url=http://seismo.berkeley.edu/~kirchner/eps_120/Odds_n_ends/Students_original_paper.pdf |access-date=24 July 2016 |doi=10.1093/biomet/6.1.1 |hdl=10338.dmlcz/143545}}</ref>
 
Gosset发明了''t''检验作为一种经济方式来监控[[stout]]的质量。这项''t''检验工作被提交并被接受在杂志''[[Biometrika]]''上,并于1908年发表。<ref name="The Probable Error of a Mean">{{cite journal |author=Student |title=The Probable Error of a Mean |journal=[[Biometrika]] |date=1908 |volume=6 |issue=1 |pages=1–25 |url=http://seismo.berkeley.edu/~kirchner/eps_120/Odds_n_ends/Students_original_paper.pdf |access-date=24 July 2016 |doi=10.1093/biomet/6.1.1 |hdl=10338.dmlcz/143545}}</ref>
 
Guinness有一项政策,允许技术人员请假学习(所谓的"学习假期"),Gosset在1906–1907学年的前两个学期中,在[[University College London]]的[[Karl Pearson]]教授的生物测量实验室使用了这一政策。<ref>{{cite journal |last=Raju |first=T. N. |s2cid=32745754 |title=William Sealy Gosset and William A. Silverman: Two 'Students' of Science |journal=[[Pediatrics (journal)|Pediatrics]] |volume=116 |issue=3 |pages=732–735 |year=2005 |pmid=16140715 |doi=10.1542/peds.2005-1134}}</ref> 当时Gosset的身份已为其他统计学家和主编Karl Pearson所知。<ref name="Dodge2008">{{cite book |first=Yadolah |last=Dodge |author-link=Yadolah Dodge |title=The Concise Encyclopedia of Statistics |url=https://books.google.com/books?id=k2zklGOBRDwC&pg=PA234 |year=2008 |publisher=Springer Science & Business Media |isbn=978-0-387-31742-7 |pages=234–235}}</ref>
 
=='''应用'''==
[[File:One sample t-test.png|thumb|right]]
[[File:2 Sample Test.png|thumb|right]]
 
最常用的''t''检验是单样本和双样本检验:
* 一种'''单样本'''[[位置检验]],用于检验某一总体的均值是否具有[[零假设]]中指定的值。
* 一种'''双样本'''位置检验,零假设是两个总体的[[期望值|均值]]相等。所有这些检验通常被称为'''Student的''t''检验''',严格来说,这个名称只应当在假设两个总体的[[方差]]也相等时使用;当这个假设被放弃时,使用的检验形式有时被称为[[Welch's t test|Welch's ''t''检验]]。这些检验通常被称为'''非配对'''或'''独立样本''t''检验''',因为它们通常用于比较两个样本的[[统计单元]]不重叠的情况。<ref name=fadem>{{cite book |last=Fadem |first=Barbara |title=High-Yield Behavioral Science |series=High-Yield Series |publisher=Lippincott Williams & Wilkins |location=Hagerstown, MD |year=2008 |isbn=9781451130300 }}</ref>
 
=='''假设'''==
{{Dubious|假设|date=October 2022}}
大多数检验统计量的形式为{{math|1=''t'' = ''Z''/''s''}},其中{{math|''Z''}}和{{math|''s''}}是数据的函数。
 
{{math|''Z''}}可能对替代假设敏感(即,当替代假设为真时,其大小倾向于更大),而{{math|''s''}}是一个[[尺度参数|缩放参数]],允许确定{{math|''t''}}的分布。
 
例如,在单样本''t''检验中
: [math]t = \frac{Z}{s} = \frac{\bar{X} - \mu}{\hat\sigma / \sqrt{n}},[/math]
其中{{math|{{overline|''X''}}}}是来自样本{{math|''X''<sub>1</sub>, ''X''<sub>2</sub>, …, ''X''<sub>''n''</sub>}}的[[样本均值]],样本大小为{{math|''n''}},{{math|''s''}}是[[标准误差]],[math]\hat\sigma[/math]是[[方差|标准差]]的估计值,{{math|''μ''}}是[[总体均值]]。
 
最简单形式的''t''检验所基于的假设是:
* {{math|{{overline|''X''}}}}遵循均值为{{math|''μ''}}、方差为{{math|''σ''<sup>2</sup>/''n''}}的正态分布。
* {{math|''s''<sup>2</sup>(''n''&nbsp;−&nbsp;1)/''σ''<sup>2</sup>}}遵循[[卡方分布|{{math|''χ''<sup>2</sup>}}分布]],自由度为{{math|''n''&nbsp;−&nbsp;1}}。当用于估计{{math|''s''<sup>2</sup>}}的观测值来自正态分布(并且每组[[独立同分布|i.i.d.]])时,此假设成立。
* {{math|''Z''}}和{{math|''s''}}是[[统计独立|独立]]的。
 
在比较两个独立样本的均值的''t''检验中,应满足以下假设:
* 被比较的两个总体的均值应遵循[[正态分布]]。在弱假设下,即使每组观测值的分布不是正态的,这也可以从[[中心极限定理]]中在大样本中得出。<ref name=":0">{{Cite journal |last1=Lumley |first1=Thomas |last2=Diehr |first2=Paula |author2-link=Paula Diehr |last3=Emerson |first3=Scott |last4=Chen |first4=Lu |date=May 2002 |title=The Importance of the Normality Assumption in Large Public Health Data Sets |journal=Annual Review of Public Health |volume=23 |issue=1 |pages=151–169 |doi=10.1146/annurev.publhealth.23.100901.140546 |doi-access=free |pmid=11910059 |issn=0163-7525}}</ref>
* 如果使用Student最初定义的''t''检验,被比较的两个总体应具有相同的方差(可使用[[方差相等性的F检验|''F''检验]]、[[Levene检验]]、[[Bartlett检验]]或[[Brown–Forsythe检验]]检验;或使用[[Q-Q图]]进行图形评估)。如果被比较的两组的样本大小相等,Student最初的''t''检验对不等方差的存在非常稳健。<ref>{{cite journal |last1=Markowski |first1=Carol A. |last2=Markowski |first2=Edward P. |year=1990 |title=Conditions for the Effectiveness of a Preliminary Test of Variance |journal=The American Statistician |pages=322–326 |volume=44 |jstor=2684360 |doi=10.2307/2684360 |issue=4}}</ref> [[Welch's t-test|Welch的''t''检验]]对方差是否相等不敏感,无论样本大小是否相似。
* 进行检验的数据应从两个被比较的群体中独立抽样,或者完全配对。一般情况下,这一点无法从数据中检验,但如果数据被已知依赖(例如通过测试设计配对),则必须应用依赖测试。对于部分配对的数据,传统的独立''t''检验可能会给出无效结果,因为测试统计量可能不会遵循''t''分布,而依赖''t''检验则是次优的,因为它会丢弃未配对的数据。<ref name="Guo2017">{{cite journal |last1=Guo |first1=Beibei |last2=Yuan |first2=Ying |s2cid=46598415 |title=A comparative review of methods for comparing means using partially paired data |journal=Statistical Methods in Medical Research |date=2017 |volume=26 |issue=3 |pages=1323–1340 |doi=10.1177/0962280215577111 |pmid=25834090}}</ref>
 
大多数两样本''t''检验对于假设的大偏差以外都是稳健的。<ref name="Bland1995">{{cite book |first=Martin |last=Bland |title=An Introduction to Medical Statistics |url=https://books.google.com/books?id=v6xpAAAAMAAJ |year=1995 |publisher=Oxford University Press |isbn=978-0-19-262428-4 |page=168}}</ref>
 
为了[[Exact test|精确性]],''t''检验和''Z''检验要求样本均值的正态性,并且''t''检验还要求样本方差遵循比例[[Chi-squared distribution|''χ''{{isup|2}}分布]],样本均值和样本方差必须[[independence (probability theory)|统计独立]]。如果满足这些条件,则不需要个别数据值的正态性。根据[[central limit theorem|中心极限定理]],中等大小样本的样本均值通常即使数据本身不是正态分布,也能被正态分布很好地近似。对于非正态数据,样本方差的分布可能会与''χ''{{isup|2}}分布大幅偏离。
 
然而,如果样本量很大,根据[[Slutsky's theorem|斯鲁茨基定理]],样本方差的分布对测试统计量的分布影响不大。也就是说,当样本大小[math]n[/math]增加时:
: [math]\sqrt{n}(\bar{X} - \mu) \xrightarrow{d} N(0, \sigma^2)[/math],根据[[Central limit theorem|中心极限定理]],
: [math]s^2 \xrightarrow{p} \sigma^2[/math],根据[[law of large numbers|大数定律]],
: [math]\therefore \frac{\sqrt{n}(\bar{X} - \mu)}{s} \xrightarrow{d} N(0, 1)[/math]。
 
=='''无配对和配对的两样本''t''检验'''==
 
[[File:Type 1 error.png|thumb|无配对和配对两样本''t''检验的I型错误,作为相关性的函数。模拟的随机数源自方差为1的双变量正态分布。显著性水平为5%,案例数为60。]]
[[File:Power of t-tests.png|thumb|无配对和配对两样本''t''检验的功效,作为相关性的函数。模拟的随机数源自方差为1、期望值偏差为0.4的双变量正态分布。显著性水平为5%,案例数为60。]]
 
两样本''t''检验用于检验均值差异,涉及独立样本(无配对样本)或[[paired sample|配对样本]]。配对''t''检验是[[blocking (statistics)|分组]]的一种形式,当配对单元在与比较的两组成员身份无关的“噪声因素”(见[[confounder|混杂因素]])方面相似时,其[[statistical power|统计功效]](避免II型错误,也称为假阴性的概率)比无配对检验更大。<ref>{{cite book|first=John A. |last=Rice |date=2006 |title=Mathematical Statistics and Data Analysis |edition= 3rd |publisher=Duxbury Advanced }}{{ISBN missing}}</ref> 在不同的情境中,配对''t''检验可以用于减少[[confounders|混杂因素]]在[[observational study|观察研究]]中的影响。
 
===独立(无配对)样本===
当获得两套[[Independent and identically-distributed random variables|独立且同分布]]的样本,并且比较两个群体中的一个变量时,使用独立样本''t''检验。例如,假设我们正在评估一种医疗治疗的效果,我们招募了100名受试者,然后随机分配50名受试者到治疗组,50名受试者到对照组。在这种情况下,我们有两个独立样本,将使用无配对形式的''t''检验。
 
===配对样本===
{{Main|Paired difference test}}
 
[[Paired sample|配对样本]] ''t''检验通常由匹配的相似[[unit (statistics)|单位]]对组成的样本,或一个已被测试两次的单位组(“重复测量”''t''检验)。
 
重复测量''t''检验的一个典型例子是,受试者在接受治疗前进行测试,例如高血压,然后在使用降血压药物治疗后再次测试相同的受试者。通过比较同一患者治疗前后的数值,我们有效地将每个患者作为自己的对照。这样,正确拒绝零假设(这里是:治疗无效)变得更有可能,因为随机的患者间变异现在已被消除,统计功效因此而增加。然而,统计功效的提高需要付出代价:需要进行更多的测试,每个受试者需要测试两次。因为样本的一半现在依赖于另一半,配对版的学生''t''检验只有[math][[sfrac|''n''|2]] − 1[/math]个自由度(其中[math]''n''[/math]是总观察次数)。配对成为个别测试单位,为了达到相同的自由度数目,样本量必须翻倍。通常情况下,有[math]''n'' − 1[/math]个自由度(其中[math]''n''[/math]是总观察次数)。<ref>{{cite web|last1=Weisstein|first1=Eric|title=Student's t-Distribution|url=http://mathworld.wolfram.com/Studentst-Distribution.html|website=mathworld.wolfram.com}}</ref>
 
根据“匹配样本对”进行的成对样本[math]t[/math]-检验是基于非配对样本,通过测量与感兴趣的变量一起的额外变量,随后用来形成配对样本。[ref]{{cite journal |last1=David |first1=H.&nbsp;A. |last2=Gunnink |first2=Jason L. |year=1997 |title=The Paired [math]t[/math] Test Under Artificial Pairing |journal=The American Statistician |volume=51 |pages=9–12 |jstor=2684684 |doi=10.2307/2684684 |issue=1}}[/ref] 匹配是通过识别由两个样本中的各一个观测值组成的值对来进行的,这些值对在其他测量变量上是相似的。这种方法有时用于观察性研究中,以减少或消除混杂因素的影响。
 
成对样本[math]t[/math]-检验通常被称为“依赖样本[math]t[/math]-检验”。
 
=='''计算'''==
下面给出了可用于执行各种[math]t[/math]-检验的显式表达式。在每种情况下,都给出了在零假设下完全遵循或接近遵循[math]t[/math]-分布的检验统计量的公式。同时,每种情况下都给出了适当的[[degrees of freedom (statistics)|自由度]]。每一种统计量都可以用于执行[[One-tailed test|单尾或双尾检验]]。
 
一旦确定了[math]t[/math]值和自由度,就可以使用[[Student's t-distribution#Table of selected values|学生[math]t[/math]-分布的值表]]来找到[[p-value|[math]p[/math]-值]]。如果计算出的[math]p[/math]-值低于选择的[[statistical significance|统计显著性]]阈值(通常是0.10、0.05或0.01水平),那么将拒绝零假设,支持备选假设。
 
===单样本[math]t[/math]-检验===
在测试总体均值等于指定值[math]μ_0[/math]的零假设时,使用以下统计量
 
: [math] t = \frac{\bar{x} - μ_0}{s/\sqrt{n}}, [/math]
 
其中[math]\bar x[/math]是样本均值,[math]s[/math]是[[Standard deviation#Estimation|样本标准差]],[math]n[/math]是样本量。这个检验中使用的自由度是[math]n - 1[/math]。尽管父总体不需要正态分布,但假设样本均值的总体分布[math]\bar x[/math]是正态的。
 
根据[[central limit theorem|中心极限定理]],如果观测值是独立的并且存在二阶矩,则[math]t[/math]将近似正态[math]N(0; 1)[/math]。
 
===回归线的斜率===
假设正在拟合模型
 
: [math] Y = α + βx + ε, [/math]
 
其中[math]x[/math]是已知的,[math]α[/math]和[math]β[/math]是未知的,[math]ε[/math]是一个均值为0且方差未知的正态分布随机变量,[math]Y[/math]是感兴趣的结果。我们想要检验斜率[math]β[/math]等于某个指定值[math]β_0[/math](通常取为0,这种情况下零假设是[math]x[/math]和[math]y[/math]不相关)的零假设。
 
 
: [math]\begin{align} \hat\alpha, \hat\beta &= \text{最小二乘估计量}, \\ SE_{\hat\alpha}, SE_{\hat\beta} &= \text{最小二乘估计量的标准误差}. \end{align}[/math]
 
那么
 
: [math]t_\text{score} = \frac{\hat\beta - β_0}{ SE_{\hat\beta} } \sim \mathcal{T}_{n-2}[/math]
 
在零假设为真时,具有[math]n - 2[/math]自由度的[math]t[/math]-分布。[[Simple linear regression#Normality assumption|斜率系数的标准误差]]:
 
: [math]SE_{\hat\beta} = \frac{\sqrt{\displaystyle \frac{1}{n - 2}\sum_{i=1}^n (y_i - \hat y_i)^2}}{\sqrt{\displaystyle \sum_{i=1}^n (x_i - \bar{x})^2}}[/math]
 
可以用残差来表示。设
 
: [math]\begin{align} \hat\varepsilon_i &= y_i - \hat y_i = y_i - (\hat\alpha + \hat\beta x_i) = \text{残差} = \text{估计误差}, \\ \text{SSR} &= \sum_{i=1}^n {\hat\varepsilon_i}^2 = \text{残差平方和}. \end{align}[/math]
 
然后[math]t[/math]<sub>score</sub>由以下公式给出
 
: [math] t_\text{score} = \frac{(\hat\beta - β_0) \sqrt{n-2}}{\sqrt{\frac{SSR}{\sum_{i=1}^n (x_i - \bar{x})^2}}}. [/math]
 
确定[math]t[/math]<sub>score</sub>的另一种方法是
 
: [math] t_\text{score} = \frac{r\sqrt{n - 2}}{\sqrt{1 - r^2}}, [/math]
 
其中'r'是[[Pearson correlation coefficient|皮尔逊相关系数]]。
 
[math]t[/math]<sub>score, intercept</sub>可以从[math]t[/math]<sub>score, slope</sub>确定:
 
: [math] t_\text{score,intercept} = \frac{α}{β} \frac{t_\text{score,slope}}{\sqrt{s_\text{x}^2 + \bar{x}^2}}, [/math]
 
其中[math]s_\text{x}^2[/math]是样本方差。
 
===独立两样本[math]t[/math]-检验===
 
====样本量和方差相等====
给定两组(1,2),这个检验只适用于:
* 两个样本量相等,
* 可以假设两个分布具有相同的方差。
  对这些假设的违反在下文中讨论。
 
测试均值是否不同的[math]t[/math]统计量可以如下计算:
 
: [math] t = \frac{\bar{X}_1 - \bar{X}_2}{s_p \sqrt\frac{2}{n}}, [/math]
 
其中
: [math] s_p = \sqrt{\frac{s_{X_1}^2 + s_{X_2}^2}{2}}.[/math]
 
这里[math]s_p[/math]是对于[math]n = n_1 = n_2[/math]的[[pooled standard deviation|合并标准差]],而[math]s_{X_1}^2[/math]和[math]s_{X_2}^2[/math]是总体方差的[[unbiased estimator|无偏估计量]]。[math]t[/math]的分母是两个均值之差的[[Standard error (statistics)|标准误]]。
 
对于显著性检验,这个检验的[[Degrees of freedom (statistics)|自由度]]是[math]2n - 2[/math],其中[math]n[/math]是样本量。
 
==== 相同或不同样本量,方差类似({{sfrac|1|2}} < {{sfrac|[math]s[/math]<sub>[math]X[/math]<sub>1</sub></sub>|[math]s[/math]<sub>[math]X[/math]<sub>2</sub></sub>}} < 2) ====
此检验仅在假设两个分布具有相同的方差时使用(当此假设被违反时,请参见下文)。先前的公式是下面公式的特殊情况,当两个样本大小相等时,可以恢复它们:{{math|1=[math]n[/math] = [math]n[/math]<sub>1</sub> = [math]n[/math]<sub>2</sub>}}。
 
用于检验均值是否不同的[math]t[/math]统计量可以按以下方式计算:
: [math]t = \frac{\bar{X}_1 - \bar{X}_2}{s_p \cdot \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}},[/math]
 
其中
 
: [math] s_p = \sqrt{\frac{(n_1 - 1)s_{X_1}^2 + (n_2 - 1)s_{X_2}^2}{n_1 + n_2-2}}[/math]
 
是两个样本的[[合并标准差]]:其定义是使其平方成为公共方差的[[无偏估计量]],无论总体均值是否相同。在这些公式中,{{math|[math]n<sub>i</sub>[/math]&nbsp;−&nbsp;1}} 是每个组的自由度数目,而总样本量减去二(即,{{math|[math]n[/math]<sub>1</sub>&nbsp;+&nbsp;[math]n[/math]<sub>2</sub>&nbsp;−&nbsp;2}})是用于显著性检验的总自由度数。
 
==== 相同或不同样本量,方差不等([math]s[/math]<sub>[math]X[/math]<sub>1</sub></sub> > 2[math]s[/math]<sub>[math]X[/math]<sub>2</sub></sub> 或 [math]s[/math]<sub>[math]X[/math]<sub>2</sub></sub> > 2[math]s[/math]<sub>[math]X[/math]<sub>1</sub></sub>) ====
{{main|Welch's t test{{!}}Welch's [math]t[/math]-test}}
此检验,也称为Welch's [math]t[/math]-检验,仅在两个总体方差不假设相等时使用(两个样本量可能相等也可能不等),因此必须分别估计。用于检验总体均值是否不同的[math]t[/math]统计量按以下方式计算:
 
: [math]t = \frac{\bar{X}_1 - \bar{X}_2}{s_{\bar\Delta}},[/math]
 
其中
 
: [math]s_{\bar\Delta} = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}.[/math]
 
这里{{math|[math]s<sub>i</sub>[/math]<sup>2</sup>}} 是两个样本的[[方差]]的[[无偏估计量]],{{math|[math]n<sub>i</sub>[/math]}} = 组[math]i[/math]中的参与者数量([math]i[/math] = 1 或 2)。在这种情况下,[math](s_{\bar\Delta})^2[/math]不是合并方差。在显著性检验中,测试统计量的分布被近似为普通学生[math]t[/math]-分布,自由度使用以下方式计算:
 
: [math] \text{d.f.} = \frac{\left(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}\right)^2}{\frac{(s_1^2/n_1)^2}{n_1 - 1} + \frac{(s_2^2/n_2)^2}{n_2 - 1}}.[/math]
 
这被称为[[Welch–Satterthwaite 方程]]。测试统计量的真实分布实际上(略微)依赖于两个未知的总体方差(参见[[Behrens–Fisher 问题]])。
 
=== 不等方差和样本量的精确方法 ===
 
该检验<ref>{{cite arXiv | eprint=2210.16473 | last1=Wang | first1=Chang | last2=Jia | first2=Jinzhu | title=Te Test: A New Non-asymptotic T-test for Behrens-Fisher Problems | year=2022 | class=math.ST }}</ref>处理著名的[[Behrens–Fisher 问题]],即在不假设两个总体方差相等的情况下,基于两个独立样本比较两个正态分布总体均值的差异。
 
该检验被开发为一个[[精确检验]],允许两个总体具有'''不等样本量'''和'''不等方差'''。即使在样本量'''极小且不平衡'''的情况下(例如 [math]n_1=5, n_2=50[/math]),精确特性仍然成立。
 
检验均值是否不同的统计量可按以下方式计算:
 
设 [math]X = [X_1,X_2,\ldots,X_m]^T[/math] 和 [math]Y = [Y_1,Y_2,\ldots,Y_n]^T[/math] 分别是来自 [math]N(\mu_1,\sigma_1^2)[/math] 和 [math]N(\mu_2,\sigma_2^2)[/math] 的独立同分布样本向量([math]m\ge n[/math])。
 
设 [math](P^T)_{n\times n}[/math] 为一个 [math]n\times n[/math] 正交矩阵,其第一行的元素全部为 [math]1/\sqrt{n}[/math],类似地,设 [math](Q^T)_{n\times m}[/math] 为一个 [math]m\times m[/math] 正交矩阵的前 n 行(其第一行的元素全部为 [math]1/\sqrt{m}[/math])。
 
然后 [math]Z:=(Q^T)_{n\times m}X/\sqrt{m}-(P^T)_{n\times n}Y/\sqrt{n}[/math] 是一个 n 维正态随机向量。
 
:[math]Z \sim N((\mu_1-\mu_2,0,...,0)^T , (\sigma_1^2/m+\sigma_2^2/n)I_n).[/math]
 
从上述分布中我们可以看到
 
:[math] Z_1=\bar X-\bar Y=\frac1m\sum_{i=1}^m X_i-\frac1n\sum_{j=1}^n Y_j,[/math]
 
:[math] Z_1-(\mu_1-\mu_2)\sim N(0,\sigma_1^2/m+\sigma_2^2/n),[/math]
 
:[math]\frac{\sum_{i=2}^n Z^2_i}{n-1}\sim \frac{\chi^2_{n-1}}{n-1}\times\left(\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}\right)[/math]
 
:[math]Z_1-(\mu_1-\mu_2)  \perp  \sum_{i=2}^n Z^2_i.[/math]
 
:[math]T_e := \frac{    Z_1-(\mu_1-\mu_2)        }{ \sqrt{ (\sum_{i=2}^{n} Z^2_i) /(n-1) }    } \sim t_{n-1}.[/math]
 
=== 配对样本的依赖性[math]t[/math]-检验 ===
此检验用于样本是依赖的情况;即,当只有一个样本被测试两次(重复测量)或者有两个被匹配或“配对”的样本时。这是一个[[paired difference test|配对差异检验]]的例子。[math]t[/math] 统计量的计算公式为
 
: [math]t = \frac{\bar{X}_D - \mu_0}{s_D/\sqrt n}, [/math]
 
其中 [math]\bar{X}_D[/math] 和 [math]s_D[/math] 是所有配对差异的平均值和标准差。配对例如一个人的前测和后测成绩或者是匹配成有意义组别的人之间的配对(例如,来自同一家庭或年龄组:见表格)。常数 {{math|''μ''<sub>0</sub>}} 为零,如果我们想检验差异的平均值是否显著不同。使用的自由度是 {{math|''n'' − 1}},其中 {{math|''n''}} 代表配对的数量。
: {|
|- style="vertical-align:bottom"
|style="padding-right:2em"|
{| class="wikitable"
|+ 配对样本示例
|-
! 配对 !! 姓名 !! 年龄 !! 测试
|-
| 1 || John || 35 || 250
|-
| 1 || Jane || 36 || 340
|-
| 2 || Jimmy || 22 || 460
|-
| 2 || Jessy || 21 || 200
|}
|
{| align="right" class="wikitable"
|+ 重复测量示例
|-
! 编号 !! 姓名 !! 测试1 !! 测试2
|-
| 1 || Mike || 35% || 67%
|-
| 2 || Melanie || 50% || 46%
|-
| 3 || Melissa|| 90% || 86%
|-
| 4 || Mitchell || 78% || 91%
|}
|}
 
== '''实际例子''' ==
{{bad summary}}
让 {{math|''A''<sub>1</sub>}} 代表通过抽取六个测量值得到的一个集合:
 
:[math]A_1=\{30.02,\ 29.99,\ 30.11,\ 29.97,\ 30.01,\ 29.99\}[/math]
 
并让 {{math|''A''<sub>2</sub>}} 代表以类似方式得到的第二个集合:
 
:[math]A_2=\{29.89,\ 29.93,\ 29.72,\ 29.98,\ 30.02,\ 29.98\}[/math]
 
这些可能是由两台不同机器制造的螺丝的重量。
 
我们将进行测试,检验两个样本所取的群体的[[Arithmetic mean|平均值]]是否相等的零假设。
 
两个样本平均值之间的差异,每个由 {{math|{{overline|''X''}}<sub>''i''</sub>}} 表示,出现在上述所有双样本测试方法的分子中,是
 
:[math]\bar{X}_1 - \bar{X}_2 = 0.095.[/math]
 
这两个样本的[[standard deviations|样本标准差]]分别约为0.05和0.11。对于这样的小样本,两个群体方差之间的相等性测试将不会非常有效。由于样本大小相等,这个例子中的双样本[math]t[/math]-检验的两种形式将表现相似。
 
=== 不等方差 ===
如果遵循不等方差的方法(如上所述),结果是
:[math]\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}} \approx 0.04849[/math]
 
和自由度
 
:[math]\text{d.f.} \approx 7.031.[/math]
 
检验统计量大约为1.959,给出双尾检验的[math]p[/math]-值为0.09077。
 
=== 等方差 ===
如果遵循等方差的方法(如上所述),结果是
 
:[math]s_p \approx 0.08396[/math]
 
和自由度
 
:[math]\text{d.f.} = 10.[/math]
 
检验统计量大约等于1.959,给出双尾[math]p[/math]-值为0.07857。
 
== '''相关统计检验''' ==
=== [math]t[/math]-检验的位置问题的替代方法 ===
[math]t[/math]-检验为两个独立同分布的正态群体的平均值相等性提供了一个精确检验,这两个群体具有未知但相等的方差。([[Welch's t-test|韦尔奇的[math]t[/math]-检验]]几乎是一个精确的检验,用于数据正态但方差可能不同的情况。)对于中等大的样本和单尾检验,[math]t[/math]-检验对正态性假设的中度违反相对稳健。<ref name="Sawilowsky-Blair">{{cite journal |last1=Sawilowsky |first1=Shlomo S. |last2=Blair |first2=R. Clifford |year=1992 |title=A More Realistic Look at the Robustness and Type II Error Properties of the [math]t[/math] Test to Departures From Population Normality |journal=Psychological Bulletin |volume=111 |issue=2 |pages=352–360 |doi=10.1037/0033-2909.111.2.352}}</ref> 在足够大的样本中,[math]t[/math]-检验渐近地接近[[Z-test|[math]z[/math]-检验]],即使对正态性的大幅偏离也变得稳健。<ref name=":0" />
 
如果数据明显非正态且样本量小,[math]t[/math]-检验可能给出误导性结果。参见[[location testing for Gaussian scale mixture distributions|高斯尺度混合分布的位置检验]],了解与某一特定非正态分布家族相关的一些理论。
 
当正态性假设不成立时,使用非参数方法如[[non-parametric]]替代[math]t[/math]-检验可能会有更好的[[statistical power|统计功效]]。然而,当数据非正态且各组间方差不同,[math]t[/math]-检验可能比某些非参数替代方法在控制[[Type 1 error|第一类错误]]上更有优势。<ref>{{Cite journal|last=Zimmerman|first=Donald W.|date=January 1998|title=Invalidation of Parametric and Nonparametric Statistical Tests by Concurrent Violation of Two Assumptions|journal=The Journal of Experimental Education|volume=67|issue=1|pages=55–68|doi=10.1080/00220979809598344|issn=0022-0973}}</ref> 此外,非参数方法,如下面讨论的[[Mann–Whitney U test|Mann-Whitney U检验]],通常不用于检验均值差异,因此如果主要科学兴趣是均值差异,则应谨慎使用。<ref name=":0"/> 例如,如果两组具有相同的分布,Mann-Whitney U检验将在期望的alpha水平上保持第一类错误。如果组B的分布与组A相同,但经过某个常数的平移(在这种情况下,两组的均值确实存在差异),它也有探测替代方案的能力。然而,也可能存在A组和B组具有不同分布但均值相同的情况(例如两个分布,一个正偏斜,另一个负偏斜,但平移后均值相同)。在这种情况下,MW可能在拒绝零假设时超过alpha水平的功效,但将这种结果解释为均值差异将是不正确的。
 
在[[outlier|异常值]]存在的情况下,[math]t[/math]-检验并不稳健。例如,对于两个独立样本,当数据分布不对称(即分布为[[skewness|偏斜]])或分布具有大尾部时,Wilcoxon秩和检验(也称为[[Mann–Whitney U test|Mann–Whitney [math]U[/math]检验]])的功效可能是[math]t[/math]-检验的三到四倍。<ref name="Sawilowsky-Blair"/><ref>{{cite journal |last1=Blair |first1=R. Clifford |last2=Higgins |first2=James J. |journal=Journal of Educational Statistics |year=1980 |pages=309–335 | volume=5 |issue=4 |title=A Comparison of the Power of Wilcoxon's Rank-Sum Statistic to That of Student's [math]t[/math] Statistic Under Various Nonnormal Distributions |doi=10.2307/1164905 |jstor=1164905}}</ref><ref>{{cite journal |last1=Fay |first1=Michael P. |last2=Proschan |first2=Michael A. |journal=Statistics Surveys |year=2010 |pages=1–39 |volume=4 |url=http://www.i-journals.org/ss/viewarticle.php?id=51 |title=Wilcoxon–Mann–Whitney or [math]t[/math]-test? On assumptions for hypothesis tests and multiple interpretations of decision rules |doi=10.1214/09-SS051 |pmid=20414472 |pmc=2857732}}</ref> 配对样本[math]t[/math]-检验的非参数对应方法是[[Wilcoxon signed-rank test]]配对样本Wilcoxon符号秩检验。有关在[math]t[/math]-检验和非参数替代方法之间进行选择的讨论,请参见Lumley等人(2002)。<ref name=":0" />
 
一元[[analysis of variance]](ANOVA)在数据属于两个以上组时推广了两样本[math]t[/math]-检验。
 
===同时包含配对观测和独立观测的设计===
当两样本设计中同时存在配对观测和独立观测时,假设数据完全随机缺失(MCAR),可以舍弃配对观测或独立观测以进行上述标准测试。或者,在假设正态性和MCAR的情况下,利用所有可用数据,可以使用泛化的部分重叠样本[math]t[/math]-检验。<ref name="Partover">{{cite journal|last1=Derrick|first1=B|last2=Toher|first2=D|last3=White|first3=P|title=How to compare the means of two samples that include paired observations and independent observations: A companion to Derrick, Russ, Toher and White (2017)|journal=The Quantitative Methods for Psychology|date=2017|volume=13|issue=2|pages=120–126|doi=10.20982/tqmp.13.2.p120|url=http://eprints.uwe.ac.uk/31765/1/How%20to%20compare%20means......%20BD_DT_PW.pdf|doi-access=free}}</ref>
 
===多变量检验===
{{main|Hotelling's T-squared distribution}}
学生的[math]t[/math]统计量的一种推广,称为[[Hotelling's t-squared statistic|Hotelling's [math]t[/math]-squared statistic]],允许对同一样本中的多个(通常相关的)度量进行假设检验。例如,研究者可能会让多个受试者接受包含多个人格量表(如[[Minnesota Multiphasic Personality Inventory]])的人格测试。由于这类度量通常呈正相关,因此不建议进行单独的单变量[math]t[/math]-检验来测试假设,因为这将忽略度量之间的协方差并增加至少错误拒绝一个假设的可能性([[Type I error]])。在这种情况下,单一的多元测试更适合假设检验。[[Fisher's Method#Limitations of independent assumption|Fisher's Method]]用于结合多个检验,其中测试之间的正相关性降低了[math][[Type I and type II errors#Type I error|alpha]][/math]。另一个是Hotelling的[math]T[/math]{{isup|2}}统计量遵循[math]T[/math]{{isup|2}}分布。然而,在实践中,这种分布很少被使用,因为[math]T[/math]{{isup|2}}的表格值很难找到。通常,[math]T[/math]{{isup|2}}被转换为[math]F[/math]统计量。
 
对于单样本多元测试,假设是平均向量 ({{math|'''μ'''}}) 等于给定向量 ({{math|'''μ'''<sub>0</sub>}})。测试统计量是[[Hotelling's t-squared statistic|Hotelling's [math]t[/math]{{isup|2}}]]:
 
:[math]t^2=n(\bar{\mathbf x}-{\boldsymbol\mu_0})'{\mathbf S}^{-1}(\bar{\mathbf x}-{\boldsymbol\mu_0})[/math]
 
其中 {{math|''n''}} 是样本量,{{math|{{overline|'''x'''}}}} 是列均值向量,{{math|'''S'''}} 是一个 {{math|''m'' × ''m''}} [[sample covariance matrix]]。
 
对于两样本多元测试,假设是两个样本的平均向量 ({{math|'''μ'''<sub>1</sub>, '''μ'''<sub>2</sub>}}) 相等。测试统计量是[[Hotelling's two-sample t-squared statistic|Hotelling's two-sample [math]t[/math]{{isup|2}}]]:
 
:[math]t^2 = \frac{n_1 n_2}{n_1+n_2}\left(\bar{\mathbf x}_1-\bar{\mathbf x}_2\right)'{\mathbf S_\text{pooled}}^{-1}\left(\bar{\mathbf x}_1-\bar{\mathbf x}_2\right)[/math]
 
### 两样本t检验是简单线性回归的特例
 
两样本t检验是简单[[linear regression]]的特例,如下例所示。
 
一项临床试验检查了6名给予药物或安慰剂的患者。三(3)名患者获得0单位药物(安慰剂组)。三(3)名患者获得1单位药物(活性治疗组)。治疗结束时,研究人员测量了每位患者在记忆测试中能回忆单词数量的基线变化。
 
[[File:Graph_of_word_recall_vs_drug_dose.svg|300px|alt=散点图有六个点。左侧的三个点垂直对齐于0单位药物剂量。右侧的另外三个点垂直对齐于1单位药物剂量。]]
 
下面显示了患者的单词回忆量和药物剂量值的表格。
 
{| {{Table}}
! 患者 !! drug.dose !! word.recall
|-
! 1
! 0
| 1
|-
! 2
! 0
| 2
|-
! 3
! 0
| 3
|-
! 4
! 1
| 5
|-
! 5
! 1
| 6
|-
! 6
! 1
| 7
|}
 
使用[[R programming language]],给出了使用<code>t.test</code>和<code>lm</code>函数进行t检验和线性回归分析的数据和代码。以下是在R中生成的相同(虚构的)数据。
 
<syntaxhighlight lang="R">
> word.recall.data=data.frame(drug.dose=c(0,0,0,1,1,1), word.recall=c(1,2,3,5,6,7))
</syntaxhighlight>
 
进行t检验。注意,假设等方差,<code>var.equal=T</code>,是必需的,以使分析完全等同于简单线性回归。
 
<syntaxhighlight lang="R">
> with(word.recall.data, t.test(word.recall~drug.dose, var.equal=T))
</syntaxhighlight>
 
运行R代码得到以下结果。
* 0药物剂量组的平均word.recall是2。
* 1药物剂量组的平均word.recall是6。
* 治疗组之间的平均word.recall差异是6 - 2 = 4。
* 药物剂量之间的word.recall差异显著(p=0.00805)。
 
使用相同的数据进行线性回归。计算可以使用R函数<code>lm()</code>来进行线性模型。
<syntaxhighlight lang="R">
> word.recall.data.lm =  lm(word.recall~drug.dose, data=word.recall.data)
> summary(word.recall.data.lm)
</syntaxhighlight>
 
线性回归提供了一个系数和p值的表格。
 
{| {{Table}}
! 系数 !! 估计值 !! 标准误差 !! t 值 !! P 值
|-
! 截距
! 2
! 0.5774
! 3.464
| 0.02572
|-
! 药物剂量
! 4
! 0.8165
! 4.899
| 0.000805
|}
 
系数表格给出以下结果:
*[math]截距的估计值为 2,即在药物剂量为 0 时,单词回忆的平均值。[/math]
*[math]药物剂量的估计值为 4,表示药物剂量每变化 1 单位(从 0 变到 1),单词回忆的平均值变化 4 单位(从 2 变到 6)。这是连接两个组平均值的线的斜率。[/math]
*[math]斜率为 4 与 0 不同的 p 值为 p = 0.00805。[/math]
 
线性回归的系数指定了连接两组平均值的线的斜率和截距,如图所示。截距是 2,斜率是 4。
 
[[File:Regression_lines_with_slopes_4_and_0.jpg|400px|回归线]]
 
将线性回归的结果与 t 检验的结果进行比较:
* 通过 t 检验,组平均值之间的差异为 6-2=4。
* 从回归中看,斜率也是 4,表明药物剂量每变化 1 单位(从 0 变到 1),单词回忆的平均值变化 4 单位(从 2 变到 6)。
* t 检验的 p 值用于比较平均值差异,回归的 p 值用于比较斜率,两者均为 0.00805。这两种方法给出了相同的结果。
 
这个例子表明,在单个 x 变量的值为 0 和 1 的简单线性回归的特殊情况下,t 检验与线性回归给出相同的结果。这种关系也可以用代数方式显示。
 
识别 t 检验和线性回归之间的关系有助于使用多元线性回归和多元[[方差分析]]。这些 t 检验的替代方法允许包括额外的[[因变量和自变量|解释变量]],这些变量与反应相关联。在回归或方差分析中包括这些额外的解释变量可以减少其他未解释的[[方差]],并通常比两样本 t 检验提供更大的[[检验的效能|效能]]来检测差异。
 
 
== '''节点使用的R语言示例代码''' ==
=== 两独立样本T检验 ===
<syntaxhighlight lang="R">
t.test(x, y = NULL,
alternative = c("two.sided", "less", "greater"),
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 0.95, ...)
</syntaxhighlight>
 
== '''节点使用指南''' ==
* 两个独立样本均值之间的差异是否在统计学上显著
* 两个独立样本的总体均值之差是否为零
 
=== 方法选择 ===
* 无方法选择
 
=== 参数配置 ===
* 分组变量:选择二分类分组变量
* 统计变量:选择一个或多个连续型数值变量,每个变量与分组变量做一次T检验
* 置信区间百分比:输入百分比,95%置信区间就是0.95
* 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
* 筛选阈值:选择需要的P值阈值,节点会自动将满足阈值的变量筛选出,数据集也会同步筛选出满足的变量。
* 分组变量和统计变量要规避复用
* 此算法兼容空值
 
=== 注意事项 ===
* 分组变量只能选择二分类,变量只有两组,多组不可以选择
* 两组数量可以不相等
 
 
== '''引用''' ==
{{Reflist}}
 
 
{{Navplate AlgorithmNodeList}}
 
[[Category:参数检验]]

2024年1月22日 (一) 21:21的最新版本

Two Independent Samples T test.png
节点状态
Windows / Windows 10 Win10及以上可用
V1.0部署
两独立样本T检验Two Independent Samples T test.svg
节点开发者决策链算法研发部 (Dev.Team-DPS)
节点英文名Two Independent Samples T_test
功能主类别数据分析
英文缩写TInpdSamTt
功能亚类别参数检验
节点类型数据挖掘
开发语言R
节点简介

两独立样本T检验是利用来自两个总体的独立样本,推断两个总体的均值是否存在显著差异。检验的前提条件是两样本是相互独立,样本来自的两个总体应该服从正态分布。

用途:用于比较两个独立样本的均值是否存在显著差异。这种检验通常用于比较两个不同的群体或条件。

参数:选择一个分组变量和连续型数值变量。

端口数量与逻辑控制(PC)
Input-入口4个
Output-出口3个
Loop-支持循环
If/Switch-支持逻辑判断
输入输出
可生成图片类型(推荐)
可生成数据表类型(推荐)
相关节点
上一节点单样本T检验
下一节点两样本配对T检验



t检验是一种用于测试两组反应之间的差异是否具有统计意义统计假设检验方法。它是任何在零假设检验统计量遵循学生t分布统计假设检验。当测试统计量在其缩放项已知的情况下遵循正态分布时,最常用(通常情况下,缩放项是未知的,因此是一个干扰参数)。当基于数据估计缩放项时,在某些条件下,测试统计量遵循学生t分布。t检验最常见的应用是测试两个群体的均值是否显著不同。在许多情况下,Z检验的结果与t检验非常相似,因为后者随着数据集大小的增加而趋近于前者。

历史

文件:William Sealy Gosset.jpg
开发了“t统计量”并以假名“学生”发表的威廉·西利·戈塞特

t统计量”这一术语是从“假设检验统计量”缩写而来。[1] 在统计学中,t分布最初由赫尔默特[2][3][4]吕罗特[5][6][7]于1876年首次将其作为后验分布推导出来。t分布也在卡尔·皮尔逊1895年的论文中以更一般的形式作为皮尔逊类型 IV分布出现。[8] 然而,t分布,也被称为学生t分布,是因威廉·西利·戈塞特而得名,他于1908年首次用英文在科学期刊Biometrika上发表了该论文,使用了假名“学生”[9][10],因为他的雇主更喜欢员工在发表科学论文时使用笔名[11] 戈塞特在都柏林健力士啤酒厂工作,对小样本问题感兴趣 – 例如,小样本大小的大麦化学性质。因此,术语Student的第二个词源版本是健力士不希望竞争对手知道他们正在使用t检验来确定原材料的质量。尽管是威廉·戈塞特命名的“学生”这一术语,但实际上是通过罗纳德·费舍尔的工作,该分布被广为人知,称为“学生分布”[12]和“学生t检验”。

戈塞特设计了t检验作为一种经济有效的方法来监控烈性啤酒的质量。t检验的工作被提交并被Biometrika期刊接受,并于1908年发表。[9]

Gosset发明了t检验作为一种经济方式来监控stout的质量。这项t检验工作被提交并被接受在杂志Biometrika上,并于1908年发表。[9]

Guinness有一项政策,允许技术人员请假学习(所谓的"学习假期"),Gosset在1906–1907学年的前两个学期中,在University College LondonKarl Pearson教授的生物测量实验室使用了这一政策。[13] 当时Gosset的身份已为其他统计学家和主编Karl Pearson所知。[14]

应用

最常用的t检验是单样本和双样本检验:

  • 一种单样本位置检验,用于检验某一总体的均值是否具有零假设中指定的值。
  • 一种双样本位置检验,零假设是两个总体的均值相等。所有这些检验通常被称为Student的t检验,严格来说,这个名称只应当在假设两个总体的方差也相等时使用;当这个假设被放弃时,使用的检验形式有时被称为Welch's t检验。这些检验通常被称为非配对独立样本t检验,因为它们通常用于比较两个样本的统计单元不重叠的情况。[15]

假设

, October 2022 {{citation}}: Cite has empty unknown parameters: |cat2=, |cat-date2=, |cat3=, and |cat-date3= (help); Missing or empty |title= (help); Unknown parameter |cat-date= ignored (help); Unknown parameter |cat= ignored (help)[dubious ] 大多数检验统计量的形式为t = Z/s,其中Zs是数据的函数。

Z可能对替代假设敏感(即,当替代假设为真时,其大小倾向于更大),而s是一个缩放参数,允许确定t的分布。

例如,在单样本t检验中

[math]t = \frac{Z}{s} = \frac{\bar{X} - \mu}{\hat\sigma / \sqrt{n}},[/math]

其中X是来自样本X1, X2, …, Xn样本均值,样本大小为ns标准误差,[math]\hat\sigma[/math]是标准差的估计值,μ总体均值

最简单形式的t检验所基于的假设是:

  • X遵循均值为μ、方差为σ2/n的正态分布。
  • s2(n − 1)/σ2遵循χ2分布,自由度为n − 1。当用于估计s2的观测值来自正态分布(并且每组i.i.d.)时,此假设成立。
  • Zs独立的。

在比较两个独立样本的均值的t检验中,应满足以下假设:

  • 被比较的两个总体的均值应遵循正态分布。在弱假设下,即使每组观测值的分布不是正态的,这也可以从中心极限定理中在大样本中得出。[16]
  • 如果使用Student最初定义的t检验,被比较的两个总体应具有相同的方差(可使用F检验Levene检验Bartlett检验Brown–Forsythe检验检验;或使用Q-Q图进行图形评估)。如果被比较的两组的样本大小相等,Student最初的t检验对不等方差的存在非常稳健。[17] Welch的t检验对方差是否相等不敏感,无论样本大小是否相似。
  • 进行检验的数据应从两个被比较的群体中独立抽样,或者完全配对。一般情况下,这一点无法从数据中检验,但如果数据被已知依赖(例如通过测试设计配对),则必须应用依赖测试。对于部分配对的数据,传统的独立t检验可能会给出无效结果,因为测试统计量可能不会遵循t分布,而依赖t检验则是次优的,因为它会丢弃未配对的数据。[18]

大多数两样本t检验对于假设的大偏差以外都是稳健的。[19]

为了精确性t检验和Z检验要求样本均值的正态性,并且t检验还要求样本方差遵循比例χ2分布,样本均值和样本方差必须统计独立。如果满足这些条件,则不需要个别数据值的正态性。根据中心极限定理,中等大小样本的样本均值通常即使数据本身不是正态分布,也能被正态分布很好地近似。对于非正态数据,样本方差的分布可能会与χ2分布大幅偏离。

然而,如果样本量很大,根据斯鲁茨基定理,样本方差的分布对测试统计量的分布影响不大。也就是说,当样本大小[math]n[/math]增加时:

[math]\sqrt{n}(\bar{X} - \mu) \xrightarrow{d} N(0, \sigma^2)[/math],根据中心极限定理
[math]s^2 \xrightarrow{p} \sigma^2[/math],根据大数定律
[math]\therefore \frac{\sqrt{n}(\bar{X} - \mu)}{s} \xrightarrow{d} N(0, 1)[/math]。

无配对和配对的两样本t检验

文件:Type 1 error.png
无配对和配对两样本t检验的I型错误,作为相关性的函数。模拟的随机数源自方差为1的双变量正态分布。显著性水平为5%,案例数为60。
文件:Power of t-tests.png
无配对和配对两样本t检验的功效,作为相关性的函数。模拟的随机数源自方差为1、期望值偏差为0.4的双变量正态分布。显著性水平为5%,案例数为60。

两样本t检验用于检验均值差异,涉及独立样本(无配对样本)或配对样本。配对t检验是分组的一种形式,当配对单元在与比较的两组成员身份无关的“噪声因素”(见混杂因素)方面相似时,其统计功效(避免II型错误,也称为假阴性的概率)比无配对检验更大。[20] 在不同的情境中,配对t检验可以用于减少混杂因素观察研究中的影响。

独立(无配对)样本

当获得两套独立且同分布的样本,并且比较两个群体中的一个变量时,使用独立样本t检验。例如,假设我们正在评估一种医疗治疗的效果,我们招募了100名受试者,然后随机分配50名受试者到治疗组,50名受试者到对照组。在这种情况下,我们有两个独立样本,将使用无配对形式的t检验。

配对样本

配对样本 t检验通常由匹配的相似单位对组成的样本,或一个已被测试两次的单位组(“重复测量”t检验)。

重复测量t检验的一个典型例子是,受试者在接受治疗前进行测试,例如高血压,然后在使用降血压药物治疗后再次测试相同的受试者。通过比较同一患者治疗前后的数值,我们有效地将每个患者作为自己的对照。这样,正确拒绝零假设(这里是:治疗无效)变得更有可能,因为随机的患者间变异现在已被消除,统计功效因此而增加。然而,统计功效的提高需要付出代价:需要进行更多的测试,每个受试者需要测试两次。因为样本的一半现在依赖于另一半,配对版的学生t检验只有[math]n|2 − 1[/math]个自由度(其中[math]n[/math]是总观察次数)。配对成为个别测试单位,为了达到相同的自由度数目,样本量必须翻倍。通常情况下,有[math]n − 1[/math]个自由度(其中[math]n[/math]是总观察次数)。[21]

根据“匹配样本对”进行的成对样本[math]t[/math]-检验是基于非配对样本,通过测量与感兴趣的变量一起的额外变量,随后用来形成配对样本。[ref]David, H. A.; Gunnink, Jason L. (1997). "The Paired [math]t[/math] Test Under Artificial Pairing". The American Statistician. 51 (1): 9–12. doi:10.2307/2684684. JSTOR 2684684.[/ref] 匹配是通过识别由两个样本中的各一个观测值组成的值对来进行的,这些值对在其他测量变量上是相似的。这种方法有时用于观察性研究中,以减少或消除混杂因素的影响。

成对样本[math]t[/math]-检验通常被称为“依赖样本[math]t[/math]-检验”。

计算

下面给出了可用于执行各种[math]t[/math]-检验的显式表达式。在每种情况下,都给出了在零假设下完全遵循或接近遵循[math]t[/math]-分布的检验统计量的公式。同时,每种情况下都给出了适当的自由度。每一种统计量都可以用于执行单尾或双尾检验

一旦确定了[math]t[/math]值和自由度,就可以使用学生[math]t[/math]-分布的值表来找到[math]p[/math]-值。如果计算出的[math]p[/math]-值低于选择的统计显著性阈值(通常是0.10、0.05或0.01水平),那么将拒绝零假设,支持备选假设。

单样本[math]t[/math]-检验

在测试总体均值等于指定值[math]μ_0[/math]的零假设时,使用以下统计量

[math] t = \frac{\bar{x} - μ_0}{s/\sqrt{n}}, [/math]

其中[math]\bar x[/math]是样本均值,[math]s[/math]是样本标准差,[math]n[/math]是样本量。这个检验中使用的自由度是[math]n - 1[/math]。尽管父总体不需要正态分布,但假设样本均值的总体分布[math]\bar x[/math]是正态的。

根据中心极限定理,如果观测值是独立的并且存在二阶矩,则[math]t[/math]将近似正态[math]N(0; 1)[/math]。

回归线的斜率

假设正在拟合模型

[math] Y = α + βx + ε, [/math]

其中[math]x[/math]是已知的,[math]α[/math]和[math]β[/math]是未知的,[math]ε[/math]是一个均值为0且方差未知的正态分布随机变量,[math]Y[/math]是感兴趣的结果。我们想要检验斜率[math]β[/math]等于某个指定值[math]β_0[/math](通常取为0,这种情况下零假设是[math]x[/math]和[math]y[/math]不相关)的零假设。

[math]\begin{align} \hat\alpha, \hat\beta &= \text{最小二乘估计量}, \\ SE_{\hat\alpha}, SE_{\hat\beta} &= \text{最小二乘估计量的标准误差}. \end{align}[/math]

那么

[math]t_\text{score} = \frac{\hat\beta - β_0}{ SE_{\hat\beta} } \sim \mathcal{T}_{n-2}[/math]

在零假设为真时,具有[math]n - 2[/math]自由度的[math]t[/math]-分布。斜率系数的标准误差

[math]SE_{\hat\beta} = \frac{\sqrt{\displaystyle \frac{1}{n - 2}\sum_{i=1}^n (y_i - \hat y_i)^2}}{\sqrt{\displaystyle \sum_{i=1}^n (x_i - \bar{x})^2}}[/math]

可以用残差来表示。设

[math]\begin{align} \hat\varepsilon_i &= y_i - \hat y_i = y_i - (\hat\alpha + \hat\beta x_i) = \text{残差} = \text{估计误差}, \\ \text{SSR} &= \sum_{i=1}^n {\hat\varepsilon_i}^2 = \text{残差平方和}. \end{align}[/math]

然后[math]t[/math]score由以下公式给出

[math] t_\text{score} = \frac{(\hat\beta - β_0) \sqrt{n-2}}{\sqrt{\frac{SSR}{\sum_{i=1}^n (x_i - \bar{x})^2}}}. [/math]

确定[math]t[/math]score的另一种方法是

[math] t_\text{score} = \frac{r\sqrt{n - 2}}{\sqrt{1 - r^2}}, [/math]

其中'r'是皮尔逊相关系数

[math]t[/math]score, intercept可以从[math]t[/math]score, slope确定:

[math] t_\text{score,intercept} = \frac{α}{β} \frac{t_\text{score,slope}}{\sqrt{s_\text{x}^2 + \bar{x}^2}}, [/math]

其中[math]s_\text{x}^2[/math]是样本方差。

独立两样本[math]t[/math]-检验

样本量和方差相等

给定两组(1,2),这个检验只适用于:

  • 两个样本量相等,
  • 可以假设两个分布具有相同的方差。
 对这些假设的违反在下文中讨论。

测试均值是否不同的[math]t[/math]统计量可以如下计算:

[math] t = \frac{\bar{X}_1 - \bar{X}_2}{s_p \sqrt\frac{2}{n}}, [/math]

其中

[math] s_p = \sqrt{\frac{s_{X_1}^2 + s_{X_2}^2}{2}}.[/math]

这里[math]s_p[/math]是对于[math]n = n_1 = n_2[/math]的合并标准差,而[math]s_{X_1}^2[/math]和[math]s_{X_2}^2[/math]是总体方差的无偏估计量。[math]t[/math]的分母是两个均值之差的标准误

对于显著性检验,这个检验的自由度是[math]2n - 2[/math],其中[math]n[/math]是样本量。

相同或不同样本量,方差类似(1/2 < [math]s[/math][math]X[/math]1/[math]s[/math][math]X[/math]2 < 2)

此检验仅在假设两个分布具有相同的方差时使用(当此假设被违反时,请参见下文)。先前的公式是下面公式的特殊情况,当两个样本大小相等时,可以恢复它们:[math]n[/math] = [math]n[/math]1 = [math]n[/math]2

用于检验均值是否不同的[math]t[/math]统计量可以按以下方式计算:

[math]t = \frac{\bar{X}_1 - \bar{X}_2}{s_p \cdot \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}},[/math]

其中

[math] s_p = \sqrt{\frac{(n_1 - 1)s_{X_1}^2 + (n_2 - 1)s_{X_2}^2}{n_1 + n_2-2}}[/math]

是两个样本的合并标准差:其定义是使其平方成为公共方差的无偏估计量,无论总体均值是否相同。在这些公式中,[math]ni[/math] − 1 是每个组的自由度数目,而总样本量减去二(即,[math]n[/math]1 + [math]n[/math]2 − 2)是用于显著性检验的总自由度数。

相同或不同样本量,方差不等([math]s[/math][math]X[/math]1 > 2[math]s[/math][math]X[/math]2 或 [math]s[/math][math]X[/math]2 > 2[math]s[/math][math]X[/math]1

此检验,也称为Welch's [math]t[/math]-检验,仅在两个总体方差不假设相等时使用(两个样本量可能相等也可能不等),因此必须分别估计。用于检验总体均值是否不同的[math]t[/math]统计量按以下方式计算:

[math]t = \frac{\bar{X}_1 - \bar{X}_2}{s_{\bar\Delta}},[/math]

其中

[math]s_{\bar\Delta} = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}.[/math]

这里[math]si[/math]2 是两个样本的方差无偏估计量[math]ni[/math] = 组[math]i[/math]中的参与者数量([math]i[/math] = 1 或 2)。在这种情况下,[math](s_{\bar\Delta})^2[/math]不是合并方差。在显著性检验中,测试统计量的分布被近似为普通学生[math]t[/math]-分布,自由度使用以下方式计算:

[math] \text{d.f.} = \frac{\left(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}\right)^2}{\frac{(s_1^2/n_1)^2}{n_1 - 1} + \frac{(s_2^2/n_2)^2}{n_2 - 1}}.[/math]

这被称为Welch–Satterthwaite 方程。测试统计量的真实分布实际上(略微)依赖于两个未知的总体方差(参见Behrens–Fisher 问题)。

不等方差和样本量的精确方法

该检验[22]处理著名的Behrens–Fisher 问题,即在不假设两个总体方差相等的情况下,基于两个独立样本比较两个正态分布总体均值的差异。

该检验被开发为一个精确检验,允许两个总体具有不等样本量不等方差。即使在样本量极小且不平衡的情况下(例如 [math]n_1=5, n_2=50[/math]),精确特性仍然成立。

检验均值是否不同的统计量可按以下方式计算:

设 [math]X = [X_1,X_2,\ldots,X_m]^T[/math] 和 [math]Y = [Y_1,Y_2,\ldots,Y_n]^T[/math] 分别是来自 [math]N(\mu_1,\sigma_1^2)[/math] 和 [math]N(\mu_2,\sigma_2^2)[/math] 的独立同分布样本向量([math]m\ge n[/math])。

设 [math](P^T)_{n\times n}[/math] 为一个 [math]n\times n[/math] 正交矩阵,其第一行的元素全部为 [math]1/\sqrt{n}[/math],类似地,设 [math](Q^T)_{n\times m}[/math] 为一个 [math]m\times m[/math] 正交矩阵的前 n 行(其第一行的元素全部为 [math]1/\sqrt{m}[/math])。

然后 [math]Z:=(Q^T)_{n\times m}X/\sqrt{m}-(P^T)_{n\times n}Y/\sqrt{n}[/math] 是一个 n 维正态随机向量。

[math]Z \sim N((\mu_1-\mu_2,0,...,0)^T , (\sigma_1^2/m+\sigma_2^2/n)I_n).[/math]

从上述分布中我们可以看到

[math] Z_1=\bar X-\bar Y=\frac1m\sum_{i=1}^m X_i-\frac1n\sum_{j=1}^n Y_j,[/math]
[math] Z_1-(\mu_1-\mu_2)\sim N(0,\sigma_1^2/m+\sigma_2^2/n),[/math]
[math]\frac{\sum_{i=2}^n Z^2_i}{n-1}\sim \frac{\chi^2_{n-1}}{n-1}\times\left(\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}\right)[/math]
[math]Z_1-(\mu_1-\mu_2) \perp \sum_{i=2}^n Z^2_i.[/math]
[math]T_e := \frac{ Z_1-(\mu_1-\mu_2) }{ \sqrt{ (\sum_{i=2}^{n} Z^2_i) /(n-1) } } \sim t_{n-1}.[/math]

配对样本的依赖性[math]t[/math]-检验

此检验用于样本是依赖的情况;即,当只有一个样本被测试两次(重复测量)或者有两个被匹配或“配对”的样本时。这是一个配对差异检验的例子。[math]t[/math] 统计量的计算公式为

[math]t = \frac{\bar{X}_D - \mu_0}{s_D/\sqrt n}, [/math]

其中 [math]\bar{X}_D[/math] 和 [math]s_D[/math] 是所有配对差异的平均值和标准差。配对例如一个人的前测和后测成绩或者是匹配成有意义组别的人之间的配对(例如,来自同一家庭或年龄组:见表格)。常数 μ0 为零,如果我们想检验差异的平均值是否显著不同。使用的自由度是 n − 1,其中 n 代表配对的数量。

配对样本示例
配对 姓名 年龄 测试
1 John 35 250
1 Jane 36 340
2 Jimmy 22 460
2 Jessy 21 200
重复测量示例
编号 姓名 测试1 测试2
1 Mike 35% 67%
2 Melanie 50% 46%
3 Melissa 90% 86%
4 Mitchell 78% 91%

实际例子

A1 代表通过抽取六个测量值得到的一个集合:

[math]A_1=\{30.02,\ 29.99,\ 30.11,\ 29.97,\ 30.01,\ 29.99\}[/math]

并让 A2 代表以类似方式得到的第二个集合:

[math]A_2=\{29.89,\ 29.93,\ 29.72,\ 29.98,\ 30.02,\ 29.98\}[/math]

这些可能是由两台不同机器制造的螺丝的重量。

我们将进行测试,检验两个样本所取的群体的平均值是否相等的零假设。

两个样本平均值之间的差异,每个由 Xi 表示,出现在上述所有双样本测试方法的分子中,是

[math]\bar{X}_1 - \bar{X}_2 = 0.095.[/math]

这两个样本的样本标准差分别约为0.05和0.11。对于这样的小样本,两个群体方差之间的相等性测试将不会非常有效。由于样本大小相等,这个例子中的双样本[math]t[/math]-检验的两种形式将表现相似。

不等方差

如果遵循不等方差的方法(如上所述),结果是

[math]\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}} \approx 0.04849[/math]

和自由度

[math]\text{d.f.} \approx 7.031.[/math]

检验统计量大约为1.959,给出双尾检验的[math]p[/math]-值为0.09077。

等方差

如果遵循等方差的方法(如上所述),结果是

[math]s_p \approx 0.08396[/math]

和自由度

[math]\text{d.f.} = 10.[/math]

检验统计量大约等于1.959,给出双尾[math]p[/math]-值为0.07857。

相关统计检验

[math]t[/math]-检验的位置问题的替代方法

[math]t[/math]-检验为两个独立同分布的正态群体的平均值相等性提供了一个精确检验,这两个群体具有未知但相等的方差。(韦尔奇的[math]t[/math]-检验几乎是一个精确的检验,用于数据正态但方差可能不同的情况。)对于中等大的样本和单尾检验,[math]t[/math]-检验对正态性假设的中度违反相对稳健。[23] 在足够大的样本中,[math]t[/math]-检验渐近地接近[math]z[/math]-检验,即使对正态性的大幅偏离也变得稳健。[16]

如果数据明显非正态且样本量小,[math]t[/math]-检验可能给出误导性结果。参见高斯尺度混合分布的位置检验,了解与某一特定非正态分布家族相关的一些理论。

当正态性假设不成立时,使用非参数方法如non-parametric替代[math]t[/math]-检验可能会有更好的统计功效。然而,当数据非正态且各组间方差不同,[math]t[/math]-检验可能比某些非参数替代方法在控制第一类错误上更有优势。[24] 此外,非参数方法,如下面讨论的Mann-Whitney U检验,通常不用于检验均值差异,因此如果主要科学兴趣是均值差异,则应谨慎使用。[16] 例如,如果两组具有相同的分布,Mann-Whitney U检验将在期望的alpha水平上保持第一类错误。如果组B的分布与组A相同,但经过某个常数的平移(在这种情况下,两组的均值确实存在差异),它也有探测替代方案的能力。然而,也可能存在A组和B组具有不同分布但均值相同的情况(例如两个分布,一个正偏斜,另一个负偏斜,但平移后均值相同)。在这种情况下,MW可能在拒绝零假设时超过alpha水平的功效,但将这种结果解释为均值差异将是不正确的。

异常值存在的情况下,[math]t[/math]-检验并不稳健。例如,对于两个独立样本,当数据分布不对称(即分布为偏斜)或分布具有大尾部时,Wilcoxon秩和检验(也称为Mann–Whitney [math]U[/math]检验)的功效可能是[math]t[/math]-检验的三到四倍。[23][25][26] 配对样本[math]t[/math]-检验的非参数对应方法是Wilcoxon signed-rank test配对样本Wilcoxon符号秩检验。有关在[math]t[/math]-检验和非参数替代方法之间进行选择的讨论,请参见Lumley等人(2002)。[16]

一元analysis of variance(ANOVA)在数据属于两个以上组时推广了两样本[math]t[/math]-检验。

同时包含配对观测和独立观测的设计

当两样本设计中同时存在配对观测和独立观测时,假设数据完全随机缺失(MCAR),可以舍弃配对观测或独立观测以进行上述标准测试。或者,在假设正态性和MCAR的情况下,利用所有可用数据,可以使用泛化的部分重叠样本[math]t[/math]-检验。[27]

多变量检验

学生的[math]t[/math]统计量的一种推广,称为Hotelling's [math]t[/math]-squared statistic,允许对同一样本中的多个(通常相关的)度量进行假设检验。例如,研究者可能会让多个受试者接受包含多个人格量表(如Minnesota Multiphasic Personality Inventory)的人格测试。由于这类度量通常呈正相关,因此不建议进行单独的单变量[math]t[/math]-检验来测试假设,因为这将忽略度量之间的协方差并增加至少错误拒绝一个假设的可能性(Type I error)。在这种情况下,单一的多元测试更适合假设检验。Fisher's Method用于结合多个检验,其中测试之间的正相关性降低了[math]alpha[/math]。另一个是Hotelling的[math]T[/math]2统计量遵循[math]T[/math]2分布。然而,在实践中,这种分布很少被使用,因为[math]T[/math]2的表格值很难找到。通常,[math]T[/math]2被转换为[math]F[/math]统计量。

对于单样本多元测试,假设是平均向量 (μ) 等于给定向量 (μ0)。测试统计量是Hotelling's [math]t[/math]2

[math]t^2=n(\bar{\mathbf x}-{\boldsymbol\mu_0})'{\mathbf S}^{-1}(\bar{\mathbf x}-{\boldsymbol\mu_0})[/math]

其中 n 是样本量,x 是列均值向量,S 是一个 m × m sample covariance matrix

对于两样本多元测试,假设是两个样本的平均向量 (μ1, μ2) 相等。测试统计量是Hotelling's two-sample [math]t[/math]2

[math]t^2 = \frac{n_1 n_2}{n_1+n_2}\left(\bar{\mathbf x}_1-\bar{\mathbf x}_2\right)'{\mathbf S_\text{pooled}}^{-1}\left(\bar{\mathbf x}_1-\bar{\mathbf x}_2\right)[/math]
      1. 两样本t检验是简单线性回归的特例

两样本t检验是简单linear regression的特例,如下例所示。

一项临床试验检查了6名给予药物或安慰剂的患者。三(3)名患者获得0单位药物(安慰剂组)。三(3)名患者获得1单位药物(活性治疗组)。治疗结束时,研究人员测量了每位患者在记忆测试中能回忆单词数量的基线变化。

文件:Graph of word recall vs drug dose.svg

下面显示了患者的单词回忆量和药物剂量值的表格。

患者 drug.dose word.recall
1 0 1
2 0 2
3 0 3
4 1 5
5 1 6
6 1 7

使用R programming language,给出了使用t.testlm函数进行t检验和线性回归分析的数据和代码。以下是在R中生成的相同(虚构的)数据。

> word.recall.data=data.frame(drug.dose=c(0,0,0,1,1,1), word.recall=c(1,2,3,5,6,7))

进行t检验。注意,假设等方差,var.equal=T,是必需的,以使分析完全等同于简单线性回归。

> with(word.recall.data, t.test(word.recall~drug.dose, var.equal=T))

运行R代码得到以下结果。

  • 0药物剂量组的平均word.recall是2。
  • 1药物剂量组的平均word.recall是6。
  • 治疗组之间的平均word.recall差异是6 - 2 = 4。
  • 药物剂量之间的word.recall差异显著(p=0.00805)。

使用相同的数据进行线性回归。计算可以使用R函数lm()来进行线性模型。

> word.recall.data.lm =  lm(word.recall~drug.dose, data=word.recall.data)
> summary(word.recall.data.lm)

线性回归提供了一个系数和p值的表格。

系数 估计值 标准误差 t 值 P 值
截距 2 0.5774 3.464 0.02572
药物剂量 4 0.8165 4.899 0.000805

系数表格给出以下结果:

  • [math]截距的估计值为 2,即在药物剂量为 0 时,单词回忆的平均值。[/math]
  • [math]药物剂量的估计值为 4,表示药物剂量每变化 1 单位(从 0 变到 1),单词回忆的平均值变化 4 单位(从 2 变到 6)。这是连接两个组平均值的线的斜率。[/math]
  • [math]斜率为 4 与 0 不同的 p 值为 p = 0.00805。[/math]

线性回归的系数指定了连接两组平均值的线的斜率和截距,如图所示。截距是 2,斜率是 4。

回归线

将线性回归的结果与 t 检验的结果进行比较:

  • 通过 t 检验,组平均值之间的差异为 6-2=4。
  • 从回归中看,斜率也是 4,表明药物剂量每变化 1 单位(从 0 变到 1),单词回忆的平均值变化 4 单位(从 2 变到 6)。
  • t 检验的 p 值用于比较平均值差异,回归的 p 值用于比较斜率,两者均为 0.00805。这两种方法给出了相同的结果。

这个例子表明,在单个 x 变量的值为 0 和 1 的简单线性回归的特殊情况下,t 检验与线性回归给出相同的结果。这种关系也可以用代数方式显示。

识别 t 检验和线性回归之间的关系有助于使用多元线性回归和多元方差分析。这些 t 检验的替代方法允许包括额外的解释变量,这些变量与反应相关联。在回归或方差分析中包括这些额外的解释变量可以减少其他未解释的方差,并通常比两样本 t 检验提供更大的效能来检测差异。


节点使用的R语言示例代码

两独立样本T检验

t.test(x, y = NULL,
alternative = c("two.sided", "less", "greater"),
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 0.95, ...)

节点使用指南

  • 两个独立样本均值之间的差异是否在统计学上显著
  • 两个独立样本的总体均值之差是否为零

方法选择

  • 无方法选择

参数配置

  • 分组变量:选择二分类分组变量
  • 统计变量:选择一个或多个连续型数值变量,每个变量与分组变量做一次T检验
  • 置信区间百分比:输入百分比,95%置信区间就是0.95
  • 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
  • 筛选阈值:选择需要的P值阈值,节点会自动将满足阈值的变量筛选出,数据集也会同步筛选出满足的变量。
  • 分组变量和统计变量要规避复用
  • 此算法兼容空值

注意事项

  • 分组变量只能选择二分类,变量只有两组,多组不可以选择
  • 两组数量可以不相等


引用

  1. The Microbiome in Health and Disease. Academic Press. 2020-05-29. p. 397. ISBN 978-0-12-820001-8.
  2. Szabó, István (2003). "Systeme aus einer endlichen Anzahl starrer Körper". Einführung in die Technische Mechanik (in Deutsch). Springer Berlin Heidelberg. pp. 196–199. doi:10.1007/978-3-642-61925-0_16. ISBN 978-3-540-13293-6.
  3. Schlyvitch, B. (October 1937). "Untersuchungen über den anastomotischen Kanal zwischen der Arteria coeliaca und mesenterica superior und damit in Zusammenhang stehende Fragen". Zeitschrift für Anatomie und Entwicklungsgeschichte (in Deutsch). 107 (6): 709–737. doi:10.1007/bf02118337. ISSN 0340-2061. S2CID 27311567.
  4. Helmert (1876). "Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers directer Beobachtungen gleicher Genauigkeit". Astronomische Nachrichten (in Deutsch). 88 (8–9): 113–131. Bibcode:1876AN.....88..113H. doi:10.1002/asna.18760880802.
  5. Lüroth, J. (1876). "Vergleichung von zwei Werthen des wahrscheinlichen Fehlers". Astronomische Nachrichten (in Deutsch). 87 (14): 209–220. Bibcode:1876AN.....87..209L. doi:10.1002/asna.18760871402.
  6. Pfanzagl, J. (1996). "Studies in the history of probability and statistics XLIV. A forerunner of the t-distribution". Biometrika. 83 (4): 891–898. doi:10.1093/biomet/83.4.891. MR 1766040.
  7. Sheynin, Oscar (1995). "Helmert's work in the theory of errors". Archive for History of Exact Sciences. 49 (1): 73–104. doi:10.1007/BF00374700. ISSN 0003-9519. S2CID 121241599.
  8. Pearson, Karl (1895). "X. Contributions to the mathematical theory of evolution.—II. Skew variation in homogeneous material". Philosophical Transactions of the Royal Society of London A. 186: 343–414. Bibcode:1895RSPTA.186..343P. doi:10.1098/rsta.1895.0010.
  9. 9.0 9.1 9.2 Student (1908). "The Probable Error of a Mean" (PDF). Biometrika. 6 (1): 1–25. doi:10.1093/biomet/6.1.1. hdl:10338.dmlcz/143545. Retrieved 24 July 2016.
  10. "T Table".
  11. Wendl, Michael C. (2016). "Pseudonymous fame". Science. 351 (6280): 1406. doi:10.1126/science.351.6280.1406. PMID 27013722.
  12. Walpole, Ronald E. (200). Probability & statistics for engineers & scientists. Myers, H. Raymond (7th ed.). New Delhi: Pearson. ISBN 81-7758-404-9. OCLC 818811849.
  13. Raju, T. N. (2005). "William Sealy Gosset and William A. Silverman: Two 'Students' of Science". Pediatrics. 116 (3): 732–735. doi:10.1542/peds.2005-1134. PMID 16140715. S2CID 32745754.
  14. Dodge, Yadolah (2008). The Concise Encyclopedia of Statistics. Springer Science & Business Media. pp. 234–235. ISBN 978-0-387-31742-7.
  15. Fadem, Barbara (2008). High-Yield Behavioral Science. High-Yield Series. Hagerstown, MD: Lippincott Williams & Wilkins. ISBN 9781451130300.
  16. 16.0 16.1 16.2 16.3 Lumley, Thomas; Diehr, Paula; Emerson, Scott; Chen, Lu (May 2002). "The Importance of the Normality Assumption in Large Public Health Data Sets". Annual Review of Public Health. 23 (1): 151–169. doi:10.1146/annurev.publhealth.23.100901.140546. ISSN 0163-7525. PMID 11910059.
  17. Markowski, Carol A.; Markowski, Edward P. (1990). "Conditions for the Effectiveness of a Preliminary Test of Variance". The American Statistician. 44 (4): 322–326. doi:10.2307/2684360. JSTOR 2684360.
  18. Guo, Beibei; Yuan, Ying (2017). "A comparative review of methods for comparing means using partially paired data". Statistical Methods in Medical Research. 26 (3): 1323–1340. doi:10.1177/0962280215577111. PMID 25834090. S2CID 46598415.
  19. Bland, Martin (1995). An Introduction to Medical Statistics. Oxford University Press. p. 168. ISBN 978-0-19-262428-4.
  20. Rice, John A. (2006). Mathematical Statistics and Data Analysis (3rd ed.). Duxbury Advanced. {{citation}}: Empty citation (help)[ISBN missing]
  21. Weisstein, Eric. "Student's t-Distribution". mathworld.wolfram.com.
  22. Wang, Chang; Jia, Jinzhu (2022). "Te Test: A New Non-asymptotic T-test for Behrens-Fisher Problems". arXiv:2210.16473 [math.ST].
  23. 23.0 23.1 Sawilowsky, Shlomo S.; Blair, R. Clifford (1992). "A More Realistic Look at the Robustness and Type II Error Properties of the [math]t[/math] Test to Departures From Population Normality". Psychological Bulletin. 111 (2): 352–360. doi:10.1037/0033-2909.111.2.352.
  24. Zimmerman, Donald W. (January 1998). "Invalidation of Parametric and Nonparametric Statistical Tests by Concurrent Violation of Two Assumptions". The Journal of Experimental Education. 67 (1): 55–68. doi:10.1080/00220979809598344. ISSN 0022-0973.
  25. Blair, R. Clifford; Higgins, James J. (1980). "A Comparison of the Power of Wilcoxon's Rank-Sum Statistic to That of Student's [math]t[/math] Statistic Under Various Nonnormal Distributions". Journal of Educational Statistics. 5 (4): 309–335. doi:10.2307/1164905. JSTOR 1164905.
  26. Fay, Michael P.; Proschan, Michael A. (2010). "Wilcoxon–Mann–Whitney or [math]t[/math]-test? On assumptions for hypothesis tests and multiple interpretations of decision rules". Statistics Surveys. 4: 1–39. doi:10.1214/09-SS051. PMC 2857732. PMID 20414472.
  27. Derrick, B; Toher, D; White, P (2017). "How to compare the means of two samples that include paired observations and independent observations: A companion to Derrick, Russ, Toher and White (2017)" (PDF). The Quantitative Methods for Psychology. 13 (2): 120–126. doi:10.20982/tqmp.13.2.p120.


查找其他类别的节点,请参考以下列表