两独立样本T检验

两独立样本T检验
节点状态	/ Win10及以上可用在V1.0部署
两独立样本T检验
节点开发者	决策链算法研发部 (Dev.Team-DPS)
节点英文名	Two Independent Samples T_test
功能主类别	数据分析
英文缩写	TInpdSamTt
功能亚类别	参数检验
节点类型	数据挖掘
开发语言	R
节点简介
	两独立样本T检验是利用来自两个总体的独立样本，推断两个总体的均值是否存在显著差异。检验的前提条件是两样本是相互独立，样本来自的两个总体应该服从正态分布。用途：用于比较两个独立样本的均值是否存在显著差异。这种检验通常用于比较两个不同的群体或条件。参数：选择一个分组变量和连续型数值变量。
端口数量与逻辑控制(PC)
Input-入口	4个
Output-出口	3个
Loop-支持循环	是
If/Switch-支持逻辑判断	否
输入输出
	可生成图片类型（推荐）分面分组云雨图; 可生成数据表类型（推荐） t值; 自由度; P值 (P-Value); 置信区间; 均值; 标准误差; 可配置参数例型变量列表; 下拉菜单; 文本输入; 入口类型控制流程 ➤; 传输变量 ◆; 传输源数据表 ■; 出口类型控制流程 ➤; 传输变量 ◆; 传输源数据表 ■;
相关节点
上一节点	单样本T检验
下一节点	两样本配对T检验
相关网站 ;

t检验是一种用于测试两组反应之间的差异是否具有统计意义的统计假设检验方法。它是任何在零假设下检验统计量遵循学生t分布的统计假设检验。当测试统计量在其缩放项已知的情况下遵循正态分布时，最常用（通常情况下，缩放项是未知的，因此是一个干扰参数）。当基于数据估计缩放项时，在某些条件下，测试统计量遵循学生t分布。t检验最常见的应用是测试两个群体的均值是否显著不同。在许多情况下，Z检验的结果与t检验非常相似，因为后者随着数据集大小的增加而趋近于前者。

历史

文件:William Sealy Gosset.jpg

开发了“t统计量”并以假名“学生”发表的威廉·西利·戈塞特

“t统计量”这一术语是从“假设检验统计量”缩写而来。^[1] 在统计学中，t分布最初由赫尔默特^[2]^[3]^[4]和吕罗特^[5]^[6]^[7]于1876年首次将其作为后验分布推导出来。t分布也在卡尔·皮尔逊1895年的论文中以更一般的形式作为皮尔逊类型 IV分布出现。^[8] 然而，t分布，也被称为学生t分布，是因威廉·西利·戈塞特而得名，他于1908年首次用英文在科学期刊Biometrika上发表了该论文，使用了假名“学生”^[9]^[10]，因为他的雇主更喜欢员工在发表科学论文时使用笔名。^[11] 戈塞特在都柏林的健力士啤酒厂工作，对小样本问题感兴趣 – 例如，小样本大小的大麦化学性质。因此，术语Student的第二个词源版本是健力士不希望竞争对手知道他们正在使用t检验来确定原材料的质量。尽管是威廉·戈塞特命名的“学生”这一术语，但实际上是通过罗纳德·费舍尔的工作，该分布被广为人知，称为“学生分布”^[12]和“学生t检验”。

戈塞特设计了t检验作为一种经济有效的方法来监控烈性啤酒的质量。t检验的工作被提交并被Biometrika期刊接受，并于1908年发表。^[9]

Gosset发明了t检验作为一种经济方式来监控stout的质量。这项t检验工作被提交并被接受在杂志Biometrika上，并于1908年发表。^[9]

Guinness有一项政策，允许技术人员请假学习（所谓的"学习假期"），Gosset在1906–1907学年的前两个学期中，在University College London的Karl Pearson教授的生物测量实验室使用了这一政策。^[13] 当时Gosset的身份已为其他统计学家和主编Karl Pearson所知。^[14]

应用

文件:One sample t-test.png

文件:2 Sample Test.png

最常用的t检验是单样本和双样本检验：

一种单样本位置检验，用于检验某一总体的均值是否具有零假设中指定的值。
一种双样本位置检验，零假设是两个总体的均值相等。所有这些检验通常被称为Student的t检验，严格来说，这个名称只应当在假设两个总体的方差也相等时使用；当这个假设被放弃时，使用的检验形式有时被称为Welch's t检验。这些检验通常被称为非配对或独立样本t检验，因为它们通常用于比较两个样本的统计单元不重叠的情况。^[15]

假设

, October 2022 {{citation}}: Cite has empty unknown parameters: |cat2=, |cat-date2=, |cat3=, and |cat-date3= (help); Missing or empty |title= (help); Unknown parameter |cat-date= ignored (help); Unknown parameter |cat= ignored (help)^{[dubious – discuss]} 大多数检验统计量的形式为 $t = Z / s$ ，其中 $Z$ 和 $s$ 是数据的函数。

$Z$ 可能对替代假设敏感（即，当替代假设为真时，其大小倾向于更大），而 $s$ 是一个缩放参数，允许确定 $t$ 的分布。

例如，在单样本t检验中

[math]t = \frac{Z}{s} = \frac{\bar{X} - \mu}{\hat\sigma / \sqrt{n}},[/math]

其中 $X$ 是来自样本 $X 1, X 2, \dots, X n$ 的样本均值，样本大小为 $n$ ， $s$ 是标准误差，[math]\hat\sigma[/math]是标准差的估计值， $μ$ 是总体均值。

最简单形式的t检验所基于的假设是：

$X$ 遵循均值为 $μ$ 、方差为 $σ 2 / n$ 的正态分布。
$s 2 (n - 1)/ σ 2$ 遵循 $χ 2$ 分布，自由度为 $n - 1$ 。当用于估计 $s 2$ 的观测值来自正态分布（并且每组i.i.d.）时，此假设成立。
$Z$ 和 $s$ 是独立的。

在比较两个独立样本的均值的t检验中，应满足以下假设：

被比较的两个总体的均值应遵循正态分布。在弱假设下，即使每组观测值的分布不是正态的，这也可以从中心极限定理中在大样本中得出。^[16]
如果使用Student最初定义的t检验，被比较的两个总体应具有相同的方差（可使用F检验、Levene检验、Bartlett检验或Brown–Forsythe检验检验；或使用Q-Q图进行图形评估）。如果被比较的两组的样本大小相等，Student最初的t检验对不等方差的存在非常稳健。^[17] Welch的t检验对方差是否相等不敏感，无论样本大小是否相似。
进行检验的数据应从两个被比较的群体中独立抽样，或者完全配对。一般情况下，这一点无法从数据中检验，但如果数据被已知依赖（例如通过测试设计配对），则必须应用依赖测试。对于部分配对的数据，传统的独立t检验可能会给出无效结果，因为测试统计量可能不会遵循t分布，而依赖t检验则是次优的，因为它会丢弃未配对的数据。^[18]

大多数两样本t检验对于假设的大偏差以外都是稳健的。^[19]

为了精确性，t检验和Z检验要求样本均值的正态性，并且t检验还要求样本方差遵循比例χ²分布，样本均值和样本方差必须统计独立。如果满足这些条件，则不需要个别数据值的正态性。根据中心极限定理，中等大小样本的样本均值通常即使数据本身不是正态分布，也能被正态分布很好地近似。对于非正态数据，样本方差的分布可能会与χ²分布大幅偏离。

然而，如果样本量很大，根据斯鲁茨基定理，样本方差的分布对测试统计量的分布影响不大。也就是说，当样本大小[math]n[/math]增加时：

[math]\sqrt{n}(\bar{X} - \mu) \xrightarrow{d} N(0, \sigma^2)[/math]，根据中心极限定理，

[math]s^2 \xrightarrow{p} \sigma^2[/math]，根据大数定律，

[math]\therefore \frac{\sqrt{n}(\bar{X} - \mu)}{s} \xrightarrow{d} N(0, 1)[/math]。

无配对和配对的两样本t检验

文件:Type 1 error.png

无配对和配对两样本t检验的I型错误，作为相关性的函数。模拟的随机数源自方差为1的双变量正态分布。显著性水平为5%，案例数为60。

文件:Power of t-tests.png

无配对和配对两样本t检验的功效，作为相关性的函数。模拟的随机数源自方差为1、期望值偏差为0.4的双变量正态分布。显著性水平为5%，案例数为60。

两样本t检验用于检验均值差异，涉及独立样本（无配对样本）或配对样本。配对t检验是分组的一种形式，当配对单元在与比较的两组成员身份无关的“噪声因素”（见混杂因素）方面相似时，其统计功效（避免II型错误，也称为假阴性的概率）比无配对检验更大。^[20] 在不同的情境中，配对t检验可以用于减少混杂因素在观察研究中的影响。

独立（无配对）样本

当获得两套独立且同分布的样本，并且比较两个群体中的一个变量时，使用独立样本t检验。例如，假设我们正在评估一种医疗治疗的效果，我们招募了100名受试者，然后随机分配50名受试者到治疗组，50名受试者到对照组。在这种情况下，我们有两个独立样本，将使用无配对形式的t检验。

配对样本

配对样本 t检验通常由匹配的相似单位对组成的样本，或一个已被测试两次的单位组（“重复测量”t检验）。

重复测量t检验的一个典型例子是，受试者在接受治疗前进行测试，例如高血压，然后在使用降血压药物治疗后再次测试相同的受试者。通过比较同一患者治疗前后的数值，我们有效地将每个患者作为自己的对照。这样，正确拒绝零假设（这里是：治疗无效）变得更有可能，因为随机的患者间变异现在已被消除，统计功效因此而增加。然而，统计功效的提高需要付出代价：需要进行更多的测试，每个受试者需要测试两次。因为样本的一半现在依赖于另一半，配对版的学生t检验只有[math]n|2 − 1[/math]个自由度（其中[math]n[/math]是总观察次数）。配对成为个别测试单位，为了达到相同的自由度数目，样本量必须翻倍。通常情况下，有[math]n − 1[/math]个自由度（其中[math]n[/math]是总观察次数）。^[21]

根据“匹配样本对”进行的成对样本[math]t[/math]-检验是基于非配对样本，通过测量与感兴趣的变量一起的额外变量，随后用来形成配对样本。[ref]David, H. A.; Gunnink, Jason L. (1997). "The Paired [math]t[/math] Test Under Artificial Pairing". The American Statistician. 51 (1): 9–12. doi:10.2307/2684684. JSTOR 2684684.[/ref] 匹配是通过识别由两个样本中的各一个观测值组成的值对来进行的，这些值对在其他测量变量上是相似的。这种方法有时用于观察性研究中，以减少或消除混杂因素的影响。

成对样本[math]t[/math]-检验通常被称为“依赖样本[math]t[/math]-检验”。

计算

下面给出了可用于执行各种[math]t[/math]-检验的显式表达式。在每种情况下，都给出了在零假设下完全遵循或接近遵循[math]t[/math]-分布的检验统计量的公式。同时，每种情况下都给出了适当的自由度。每一种统计量都可以用于执行单尾或双尾检验。

一旦确定了[math]t[/math]值和自由度，就可以使用学生[math]t[/math]-分布的值表来找到[math]p[/math]-值。如果计算出的[math]p[/math]-值低于选择的统计显著性阈值（通常是0.10、0.05或0.01水平），那么将拒绝零假设，支持备选假设。

单样本[math]t[/math]-检验

在测试总体均值等于指定值[math]μ_0[/math]的零假设时，使用以下统计量

[math] t = \frac{\bar{x} - μ_0}{s/\sqrt{n}}, [/math]

其中[math]\bar x[/math]是样本均值，[math]s[/math]是样本标准差，[math]n[/math]是样本量。这个检验中使用的自由度是[math]n - 1[/math]。尽管父总体不需要正态分布，但假设样本均值的总体分布[math]\bar x[/math]是正态的。

根据中心极限定理，如果观测值是独立的并且存在二阶矩，则[math]t[/math]将近似正态[math]N(0; 1)[/math]。

回归线的斜率

假设正在拟合模型

[math] Y = α + βx + ε, [/math]

其中[math]x[/math]是已知的，[math]α[/math]和[math]β[/math]是未知的，[math]ε[/math]是一个均值为0且方差未知的正态分布随机变量，[math]Y[/math]是感兴趣的结果。我们想要检验斜率[math]β[/math]等于某个指定值[math]β_0[/math]（通常取为0，这种情况下零假设是[math]x[/math]和[math]y[/math]不相关）的零假设。

设

[math]\begin{align} \hat\alpha, \hat\beta &= \text{最小二乘估计量}, \\ SE_{\hat\alpha}, SE_{\hat\beta} &= \text{最小二乘估计量的标准误差}. \end{align}[/math]

那么

[math]t_\text{score} = \frac{\hat\beta - β_0}{ SE_{\hat\beta} } \sim \mathcal{T}_{n-2}[/math]

在零假设为真时，具有[math]n - 2[/math]自由度的[math]t[/math]-分布。斜率系数的标准误差：

[math]SE_{\hat\beta} = \frac{\sqrt{\displaystyle \frac{1}{n - 2}\sum_{i=1}^n (y_i - \hat y_i)^2}}{\sqrt{\displaystyle \sum_{i=1}^n (x_i - \bar{x})^2}}[/math]

可以用残差来表示。设

[math]\begin{align} \hat\varepsilon_i &= y_i - \hat y_i = y_i - (\hat\alpha + \hat\beta x_i) = \text{残差} = \text{估计误差}, \\ \text{SSR} &= \sum_{i=1}^n {\hat\varepsilon_i}^2 = \text{残差平方和}. \end{align}[/math]

然后[math]t[/math]_score由以下公式给出

[math] t_\text{score} = \frac{(\hat\beta - β_0) \sqrt{n-2}}{\sqrt{\frac{SSR}{\sum_{i=1}^n (x_i - \bar{x})^2}}}. [/math]

确定[math]t[/math]_score的另一种方法是

[math] t_\text{score} = \frac{r\sqrt{n - 2}}{\sqrt{1 - r^2}}, [/math]

其中'r'是皮尔逊相关系数。

[math]t[/math]_{score, intercept}可以从[math]t[/math]_{score, slope}确定：

[math] t_\text{score,intercept} = \frac{α}{β} \frac{t_\text{score,slope}}{\sqrt{s_\text{x}^2 + \bar{x}^2}}, [/math]

其中[math]s_\text{x}^2[/math]是样本方差。

独立两样本[math]t[/math]-检验

样本量和方差相等

给定两组（1，2），这个检验只适用于：

两个样本量相等，
可以假设两个分布具有相同的方差。

 对这些假设的违反在下文中讨论。

测试均值是否不同的[math]t[/math]统计量可以如下计算：

[math] t = \frac{\bar{X}_1 - \bar{X}_2}{s_p \sqrt\frac{2}{n}}, [/math]

其中

[math] s_p = \sqrt{\frac{s_{X_1}^2 + s_{X_2}^2}{2}}.[/math]

这里[math]s_p[/math]是对于[math]n = n_1 = n_2[/math]的合并标准差，而[math]s_{X_1}^2[/math]和[math]s_{X_2}^2[/math]是总体方差的无偏估计量。[math]t[/math]的分母是两个均值之差的标准误。

对于显著性检验，这个检验的自由度是[math]2n - 2[/math]，其中[math]n[/math]是样本量。

相同或不同样本量，方差类似（1/2 < [math]s[/math]_{[math]X[/math]₁}/[math]s[/math]_{[math]X[/math]₂} < 2)

此检验仅在假设两个分布具有相同的方差时使用（当此假设被违反时，请参见下文）。先前的公式是下面公式的特殊情况，当两个样本大小相等时，可以恢复它们： $[math]n[/math] = [math]n[/math] 1 = [math]n[/math] 2$ 。

用于检验均值是否不同的[math]t[/math]统计量可以按以下方式计算：

[math]t = \frac{\bar{X}_1 - \bar{X}_2}{s_p \cdot \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}},[/math]

其中

[math] s_p = \sqrt{\frac{(n_1 - 1)s_{X_1}^2 + (n_2 - 1)s_{X_2}^2}{n_1 + n_2-2}}[/math]

是两个样本的合并标准差：其定义是使其平方成为公共方差的无偏估计量，无论总体均值是否相同。在这些公式中， $[math]n i [/math] - 1$ 是每个组的自由度数目，而总样本量减去二（即， $[math]n[/math] 1 + [math]n[/math] 2 - 2$ ）是用于显著性检验的总自由度数。

相同或不同样本量，方差不等（[math]s[/math]_{[math]X[/math]₁} > 2[math]s[/math]_{[math]X[/math]₂} 或 [math]s[/math]_{[math]X[/math]₂} > 2[math]s[/math]_{[math]X[/math]₁}）

此检验，也称为Welch's [math]t[/math]-检验，仅在两个总体方差不假设相等时使用（两个样本量可能相等也可能不等），因此必须分别估计。用于检验总体均值是否不同的[math]t[/math]统计量按以下方式计算：

[math]t = \frac{\bar{X}_1 - \bar{X}_2}{s_{\bar\Delta}},[/math]

其中

[math]s_{\bar\Delta} = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}.[/math]

这里 $[math]s i [/math] 2$ 是两个样本的方差的无偏估计量， $[math]n i [/math]$ = 组[math]i[/math]中的参与者数量（[math]i[/math] = 1 或 2）。在这种情况下，[math](s_{\bar\Delta})^2[/math]不是合并方差。在显著性检验中，测试统计量的分布被近似为普通学生[math]t[/math]-分布，自由度使用以下方式计算：

[math] \text{d.f.} = \frac{\left(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}\right)^2}{\frac{(s_1^2/n_1)^2}{n_1 - 1} + \frac{(s_2^2/n_2)^2}{n_2 - 1}}.[/math]

这被称为Welch–Satterthwaite 方程。测试统计量的真实分布实际上（略微）依赖于两个未知的总体方差（参见Behrens–Fisher 问题)。

不等方差和样本量的精确方法

该检验^[22]处理著名的Behrens–Fisher 问题，即在不假设两个总体方差相等的情况下，基于两个独立样本比较两个正态分布总体均值的差异。

该检验被开发为一个精确检验，允许两个总体具有不等样本量和不等方差。即使在样本量极小且不平衡的情况下（例如 [math]n_1=5, n_2=50[/math]），精确特性仍然成立。

检验均值是否不同的统计量可按以下方式计算：

设 [math]X = [X_1,X_2,\ldots,X_m]^T[/math] 和 [math]Y = [Y_1,Y_2,\ldots,Y_n]^T[/math] 分别是来自 [math]N(\mu_1,\sigma_1^2)[/math] 和 [math]N(\mu_2,\sigma_2^2)[/math] 的独立同分布样本向量（[math]m\ge n[/math]）。

设 [math](P^T)_{n\times n}[/math] 为一个 [math]n\times n[/math] 正交矩阵，其第一行的元素全部为 [math]1/\sqrt{n}[/math]，类似地，设 [math](Q^T)_{n\times m}[/math] 为一个 [math]m\times m[/math] 正交矩阵的前 n 行（其第一行的元素全部为 [math]1/\sqrt{m}[/math]）。

然后 [math]Z:=(Q^T)_{n\times m}X/\sqrt{m}-(P^T)_{n\times n}Y/\sqrt{n}[/math] 是一个 n 维正态随机向量。

[math]Z \sim N((\mu_1-\mu_2,0,...,0)^T , (\sigma_1^2/m+\sigma_2^2/n)I_n).[/math]

从上述分布中我们可以看到

[math] Z_1=\bar X-\bar Y=\frac1m\sum_{i=1}^m X_i-\frac1n\sum_{j=1}^n Y_j,[/math]

[math] Z_1-(\mu_1-\mu_2)\sim N(0,\sigma_1^2/m+\sigma_2^2/n),[/math]

[math]\frac{\sum_{i=2}^n Z^2_i}{n-1}\sim \frac{\chi^2_{n-1}}{n-1}\times\left(\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}\right)[/math]

[math]Z_1-(\mu_1-\mu_2) \perp \sum_{i=2}^n Z^2_i.[/math]

[math]T_e := \frac{ Z_1-(\mu_1-\mu_2) }{ \sqrt{ (\sum_{i=2}^{n} Z^2_i) /(n-1) } } \sim t_{n-1}.[/math]

配对样本的依赖性[math]t[/math]-检验

此检验用于样本是依赖的情况；即，当只有一个样本被测试两次（重复测量）或者有两个被匹配或“配对”的样本时。这是一个配对差异检验的例子。[math]t[/math] 统计量的计算公式为

[math]t = \frac{\bar{X}_D - \mu_0}{s_D/\sqrt n}, [/math]

其中 [math]\bar{X}_D[/math] 和 [math]s_D[/math] 是所有配对差异的平均值和标准差。配对例如一个人的前测和后测成绩或者是匹配成有意义组别的人之间的配对（例如，来自同一家庭或年龄组：见表格）。常数 $μ 0$ 为零，如果我们想检验差异的平均值是否显著不同。使用的自由度是 $n - 1$ ，其中 $n$ 代表配对的数量。

配对样本示例
配对	姓名	年龄	测试
1	John	35	250
1	Jane	36	340
2	Jimmy	22	460
2	Jessy	21	200

重复测量示例
编号	姓名	测试1	测试2
1	Mike	35%	67%
2	Melanie	50%	46%
3	Melissa	90%	86%
4	Mitchell	78%	91%

实际例子

让 $A 1$ 代表通过抽取六个测量值得到的一个集合：

[math]A_1=\{30.02,\ 29.99,\ 30.11,\ 29.97,\ 30.01,\ 29.99\}[/math]

并让 $A 2$ 代表以类似方式得到的第二个集合：

[math]A_2=\{29.89,\ 29.93,\ 29.72,\ 29.98,\ 30.02,\ 29.98\}[/math]

这些可能是由两台不同机器制造的螺丝的重量。

我们将进行测试，检验两个样本所取的群体的平均值是否相等的零假设。

两个样本平均值之间的差异，每个由 $X i$ 表示，出现在上述所有双样本测试方法的分子中，是

[math]\bar{X}_1 - \bar{X}_2 = 0.095.[/math]

这两个样本的样本标准差分别约为0.05和0.11。对于这样的小样本，两个群体方差之间的相等性测试将不会非常有效。由于样本大小相等，这个例子中的双样本[math]t[/math]-检验的两种形式将表现相似。

不等方差

如果遵循不等方差的方法（如上所述），结果是

[math]\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}} \approx 0.04849[/math]

和自由度

[math]\text{d.f.} \approx 7.031.[/math]

检验统计量大约为1.959，给出双尾检验的[math]p[/math]-值为0.09077。

等方差

如果遵循等方差的方法（如上所述），结果是

[math]s_p \approx 0.08396[/math]

和自由度

[math]\text{d.f.} = 10.[/math]

检验统计量大约等于1.959，给出双尾[math]p[/math]-值为0.07857。

相关统计检验

[math]t[/math]-检验的位置问题的替代方法

[math]t[/math]-检验为两个独立同分布的正态群体的平均值相等性提供了一个精确检验，这两个群体具有未知但相等的方差。（韦尔奇的[math]t[/math]-检验几乎是一个精确的检验，用于数据正态但方差可能不同的情况。）对于中等大的样本和单尾检验，[math]t[/math]-检验对正态性假设的中度违反相对稳健。^[23] 在足够大的样本中，[math]t[/math]-检验渐近地接近[math]z[/math]-检验，即使对正态性的大幅偏离也变得稳健。^[16]

如果数据明显非正态且样本量小，[math]t[/math]-检验可能给出误导性结果。参见高斯尺度混合分布的位置检验，了解与某一特定非正态分布家族相关的一些理论。

当正态性假设不成立时，使用非参数方法如non-parametric替代[math]t[/math]-检验可能会有更好的统计功效。然而，当数据非正态且各组间方差不同，[math]t[/math]-检验可能比某些非参数替代方法在控制第一类错误上更有优势。^[24] 此外，非参数方法，如下面讨论的Mann-Whitney U检验，通常不用于检验均值差异，因此如果主要科学兴趣是均值差异，则应谨慎使用。^[16] 例如，如果两组具有相同的分布，Mann-Whitney U检验将在期望的alpha水平上保持第一类错误。如果组B的分布与组A相同，但经过某个常数的平移（在这种情况下，两组的均值确实存在差异），它也有探测替代方案的能力。然而，也可能存在A组和B组具有不同分布但均值相同的情况（例如两个分布，一个正偏斜，另一个负偏斜，但平移后均值相同）。在这种情况下，MW可能在拒绝零假设时超过alpha水平的功效，但将这种结果解释为均值差异将是不正确的。

在异常值存在的情况下，[math]t[/math]-检验并不稳健。例如，对于两个独立样本，当数据分布不对称（即分布为偏斜）或分布具有大尾部时，Wilcoxon秩和检验（也称为Mann–Whitney [math]U[/math]检验）的功效可能是[math]t[/math]-检验的三到四倍。^[23]^[25]^[26] 配对样本[math]t[/math]-检验的非参数对应方法是Wilcoxon signed-rank test配对样本Wilcoxon符号秩检验。有关在[math]t[/math]-检验和非参数替代方法之间进行选择的讨论，请参见Lumley等人（2002）。^[16]

一元analysis of variance（ANOVA）在数据属于两个以上组时推广了两样本[math]t[/math]-检验。

同时包含配对观测和独立观测的设计

当两样本设计中同时存在配对观测和独立观测时，假设数据完全随机缺失（MCAR），可以舍弃配对观测或独立观测以进行上述标准测试。或者，在假设正态性和MCAR的情况下，利用所有可用数据，可以使用泛化的部分重叠样本[math]t[/math]-检验。^[27]

多变量检验

学生的[math]t[/math]统计量的一种推广，称为Hotelling's [math]t[/math]-squared statistic，允许对同一样本中的多个（通常相关的）度量进行假设检验。例如，研究者可能会让多个受试者接受包含多个人格量表（如Minnesota Multiphasic Personality Inventory）的人格测试。由于这类度量通常呈正相关，因此不建议进行单独的单变量[math]t[/math]-检验来测试假设，因为这将忽略度量之间的协方差并增加至少错误拒绝一个假设的可能性（Type I error）。在这种情况下，单一的多元测试更适合假设检验。Fisher's Method用于结合多个检验，其中测试之间的正相关性降低了[math]alpha[/math]。另一个是Hotelling的[math]T[/math]²统计量遵循[math]T[/math]²分布。然而，在实践中，这种分布很少被使用，因为[math]T[/math]²的表格值很难找到。通常，[math]T[/math]²被转换为[math]F[/math]统计量。

对于单样本多元测试，假设是平均向量 ( $μ$ ) 等于给定向量 ( $μ 0$ )。测试统计量是Hotelling's [math]t[/math]²：

[math]t^2=n(\bar{\mathbf x}-{\boldsymbol\mu_0})'{\mathbf S}^{-1}(\bar{\mathbf x}-{\boldsymbol\mu_0})[/math]

其中 $n$ 是样本量， $x$ 是列均值向量， $S$ 是一个 $m \times m$ sample covariance matrix。

对于两样本多元测试，假设是两个样本的平均向量 ( $μ 1, μ 2$ ) 相等。测试统计量是Hotelling's two-sample [math]t[/math]²：

[math]t^2 = \frac{n_1 n_2}{n_1+n_2}\left(\bar{\mathbf x}_1-\bar{\mathbf x}_2\right)'{\mathbf S_\text{pooled}}^{-1}\left(\bar{\mathbf x}_1-\bar{\mathbf x}_2\right)[/math]

1. 1. 两样本t检验是简单线性回归的特例

两样本t检验是简单linear regression的特例，如下例所示。

一项临床试验检查了6名给予药物或安慰剂的患者。三（3）名患者获得0单位药物（安慰剂组）。三（3）名患者获得1单位药物（活性治疗组）。治疗结束时，研究人员测量了每位患者在记忆测试中能回忆单词数量的基线变化。

文件:Graph of word recall vs drug dose.svg

下面显示了患者的单词回忆量和药物剂量值的表格。

患者	drug.dose	word.recall
1	0	1
2	0	2
3	0	3
4	1	5
5	1	6
6	1	7

使用R programming language，给出了使用t.test和lm函数进行t检验和线性回归分析的数据和代码。以下是在R中生成的相同（虚构的）数据。

> word.recall.data=data.frame(drug.dose=c(0,0,0,1,1,1), word.recall=c(1,2,3,5,6,7))

进行t检验。注意，假设等方差，var.equal=T，是必需的，以使分析完全等同于简单线性回归。

> with(word.recall.data, t.test(word.recall~drug.dose, var.equal=T))

运行R代码得到以下结果。

0药物剂量组的平均word.recall是2。
1药物剂量组的平均word.recall是6。
治疗组之间的平均word.recall差异是6 - 2 = 4。
药物剂量之间的word.recall差异显著（p=0.00805）。

使用相同的数据进行线性回归。计算可以使用R函数lm()来进行线性模型。

> word.recall.data.lm =  lm(word.recall~drug.dose, data=word.recall.data)
> summary(word.recall.data.lm)

线性回归提供了一个系数和p值的表格。

系数	估计值	标准误差	t 值	P 值
截距	2	0.5774	3.464	0.02572
药物剂量	4	0.8165	4.899	0.000805

系数表格给出以下结果：

[math]截距的估计值为 2，即在药物剂量为 0 时，单词回忆的平均值。[/math]
[math]药物剂量的估计值为 4，表示药物剂量每变化 1 单位（从 0 变到 1），单词回忆的平均值变化 4 单位（从 2 变到 6）。这是连接两个组平均值的线的斜率。[/math]
[math]斜率为 4 与 0 不同的 p 值为 p = 0.00805。[/math]

线性回归的系数指定了连接两组平均值的线的斜率和截距，如图所示。截距是 2，斜率是 4。

回归线

将线性回归的结果与 t 检验的结果进行比较：

通过 t 检验，组平均值之间的差异为 6-2=4。
从回归中看，斜率也是 4，表明药物剂量每变化 1 单位（从 0 变到 1），单词回忆的平均值变化 4 单位（从 2 变到 6）。
t 检验的 p 值用于比较平均值差异，回归的 p 值用于比较斜率，两者均为 0.00805。这两种方法给出了相同的结果。

这个例子表明，在单个 x 变量的值为 0 和 1 的简单线性回归的特殊情况下，t 检验与线性回归给出相同的结果。这种关系也可以用代数方式显示。

识别 t 检验和线性回归之间的关系有助于使用多元线性回归和多元方差分析。这些 t 检验的替代方法允许包括额外的解释变量，这些变量与反应相关联。在回归或方差分析中包括这些额外的解释变量可以减少其他未解释的方差，并通常比两样本 t 检验提供更大的效能来检测差异。

节点使用的R语言示例代码