两样本配对T检验:修订间差异

来自决策链云智库
无编辑摘要
无编辑摘要
 
(未显示2个用户的9个中间版本)
第5行: 第5行:
|simpleicon=Paired Samples T_test_Pure.svg
|simpleicon=Paired Samples T_test_Pure.svg
|developer=Dev.Team-DPS
|developer=Dev.Team-DPS
|productionstate=PC可用
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[DecisionLinnc | V1.0]]部署
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=[[Has english name::Paired Samples T_test]]
|nodeenglishname=Paired Samples T_test
|abbreviation=[[Has abbreviation::PT_Test]]
|abbreviation=PaSamTt
|funcmaincategory=数据分析
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::参数检验]]
|funcsubcategory=[[DataAGM Lv1 Cat::参数检验]]
|nodecategory=数据挖掘
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeinterpretor=R
|nodeshortdescription=<p>两样本配对T检验是利用来自两个配对的总体,推断这两个配对总体的均值是否存在显著差异。检验的前提条件是两配对样本的样本数量相等,样本来自的两个总体应该服从正态分布。</p><p>用途:用于比较两个相关样本或配对观察值的均值是否存在显著差异。这种检验通常用于比较同一组实验对象在不同条件下或在不同时间点上的表现。</p><p>参数:选择一个分组变量和连续型数值变量</p>
|nodeshortdescription=<p>两样本配对T检验是利用来自两个配对的总体,推断这两个配对总体的均值是否存在显著差异。检验的前提条件是两配对样本的样本数量相等,样本来自的两个总体应该服从正态分布。</p><p>用途:用于比较两个相关样本或配对观察值的均值是否存在显著差异。这种检验通常用于比较同一组实验对象在不同条件下或在不同时间点上的表现。</p><p>参数:选择一个分组变量和连续型数值变量。</p>
|nodeinputnumber=4
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeoutputnumber=3
第19行: 第19行:
|nodeifswitchsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=SplittingNephelogram
|nodeavailableplotlist=SplittingNephelogram
|nodeavailabletablelist=Table_For_Downstream
|nodeavailabletablelist=t-Value;df;P-Value;CI;Mean;SE
|nodeconfiguration=VariableList;DropManu;Text
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control 🠶;Transfer-Variable ◆;Transfer-Table ■
|nodeinputports=WorkFlow-Control ;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control 🠶;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/两样本配对T检验
|statsapewikiurl=https://wiki.statsape.com/两样本配对T检验
|previousnode=[[两独立样本T检验]]
|previousnode=[[两独立样本T检验]]
|nextnode=[[KM生存曲线]]
|nextnode=[[Friedman检验]]
}}
}}


在[[统计学]]中,'''配对差异检验'''是一种[[位置检验]],用于比较两组[[成对样本|成对测量]]数据,以评估它们的[[期望值|总体均值]]是否有差异。配对差异检验使用了一些在普通非配对检测情况下不存在的[[样本(统计学)|样本]]的额外信息,旨在增加[[统计功效]],或减少[[混杂变量]]的影响。
具体进行配对差异检验的方法包括:对于正态分布差异的[[t检验]](差异的总体标准差未知)和配对[[Z检验]](差异的总体标准差已知),以及对于可能不呈正态分布的差异的[[Wilcoxon符号秩检验]]<ref name="outie">{{cite journal|last1=Derrick|first1=B|last2=Broad|first2=A|last3=Toher|first3=D|last4=White|first4=P|title= 在配对样本设计中极端观察值的影响 |journal= Metodološki Zvezki - Advances in Methodology and Statistics|date=2017|volume=14|issue=2|pages=1–17|url= http://www.stat-d.si/mz/Articles.html }}</ref>和配对[[排列检验]]。
配对差异检验最常见的例子是在治疗前后对受试者进行测量。这种“重复测量”检验比较了受试者内部的这些测量值,而不是跨受试者的比较,并且通常比非配对检验具有更大的功效。另一个例子来自于[[匹配(统计学)|匹配]]疾病病例与相应的对照组。
=='''用于减少方差'''==
配对差异检验减少方差的方法是一种特定类型的[[分组(统计学)|分组]]。为了说明这一点,假设我们正在评估一种治疗高胆固醇的药物的性能。在我们的研究设计下,我们招募了100名受试者,并测量了每个受试者的胆固醇水平。然后,所有受试者接受该药物治疗六个月后,再次测量他们的胆固醇水平。我们感兴趣的是药物对平均胆固醇水平是否有影响,这可以通过比较治疗后和治疗前的测量结果来推断。
激发配对差异检验的关键问题是,除非研究有非常严格的入组标准,否则在治疗开始前受试者之间可能存在显著差异。受试者之间的重要基线差异可能是由于他们的性别、年龄、吸烟状况、活动水平和饮食。
分析这些数据有两种自然方法:
* 在“非配对分析”中,数据被视为实际上是招募了200名受试者的研究设计,然后随机将100名受试者分配到治疗组和对照组。非配对设计中的治疗组被视为与配对设计中的治疗后测量相类似,而对照组则被视为与治疗前测量相类似。我们可以计算治疗组和未治疗组受试者的样本均值,并将这些均值相互比较。
* 在“配对差异分析”中,我们首先从每个受试者的治疗后值中减去治疗前值,然后将这些差异与零进行比较。
如果我们只考虑均值,配对和非配对的方法给出相同的结果。要看到这一点,设[math]Y_{i1}, Y_{i2}[/math]为第[math]i[/math]对观察数据,设[math]D_i = Y_{i2} - Y_{i1}[/math]。另设[math]\overline{D}, \overline{Y_1}[/math]和[math]\overline{Y_2}[/math]分别表示[math]D_i, Y_{i1}[/math]和[math]Y_{i2}[/math]的样本均值。通过重新排列项,我们可以看到:
[math]
\overline{D} = \frac{1}{n}\sum_i (Y_{i2}-Y_{i1}) = \frac{1}{n}\sum_iY_{i2} - \frac{1}{n}\sum_iY_{i1} = \overline{Y}_2 - \overline{Y}_1,
[/math]
其中[math]n[/math]是对的数量。因此,组间的平均差异不依赖于我们是否将数据作为对组织。
尽管配对和非配对统计的平均差异是相同的,但它们的统计显著性水平可能非常不同,因为非配对统计的方差容易被高估。[math]\overline{D}[/math]的方差是[math]\begin{aligned} \operatorname{var}(\bar{D}) & =\operatorname{var}\left(\bar{Y}_{2}-\bar{Y}_{1}\right) \\ & =\operatorname{var}\left(\bar{Y}_{2}\right)+\operatorname{var}\left(\bar{Y}_{1}\right)-2 \operatorname{cov}\left(\bar{Y}_{1}, \bar{Y}_{2}\right) \\ & =\sigma_{1}^{2} / n+\sigma_{2}^{2} / n-2 \sigma_{1} \sigma_{2} \operatorname{corr}\left(Y_{i 1}, Y_{i 2}\right) / n\end{aligned}[/math]
其中[math]\sigma_1[/math]和[math]\sigma_2[/math]分别是[math]Y_{i1}[/math]和[math]Y_{i2}[/math]数据的总体标准差。因此,如果每对内有正相关,[math]\overline{D}[/math]的方差会更低。在重复测量设置中,这种相关性非常常见,因为许多影响被比较值的因素不受治疗影响。例如,如果胆固醇水平与年龄相关,年龄的影响将导致受试者内部测量的胆固醇水平之间的正相关性,只要研究的持续时间相对于样本中年龄变化的小。
===配对Z检验的功效===
假设我们使用[[Z检验]]来分析数据,其中治疗前和治疗后数据的方差[math]\sigma_1^2[/math]和[math]\sigma_2^2[/math]是已知的(与[[t检验]]的情况相似)。非配对Z检验统计量是:
[math]
\frac{\overline{Y}_2 - \overline{Y}_1}{\sqrt{\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{n}}},
[/math]
在水平[math]\alpha = 0.05[/math]进行的非配对、[[双尾检验|单尾]]检验的功效可以如下计算:
[math]
\begin{align}
P\left(\frac{\overline{Y}_2 - \overline{Y}_1}{\sqrt{\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{n}}} > 1.645\right) &=
P\left(\frac{\overline{Y}_2 - \overline{Y}_1}{S} > 1.645\sqrt{\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{n}}/S\right)\\
&= P\left(\frac{\overline{Y}_2 - \overline{Y}_1-\delta+\delta}{S} > 1.645\sqrt{\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{n}}/S\right)\\
&= P\left(\frac{\overline{Y}_2 - \overline{Y}_1-\delta}{S} > 1.645\sqrt{\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{n}}/S - \frac{\delta}{S}\right)\\
&= 1 - \Phi(1.645\sqrt{\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{n}}/S - \frac{\delta}{S}),
\end{align}
[/math]
在哪里''S''是<span style="text-decoration: overline">''D''</span>的标准偏差,Φ是标准的[[正态分布|正态]] [[累积分布函数]],而''δ''&nbsp;=&nbsp;E''Y''<sub>2</sub>&nbsp;&minus;&nbsp;E''Y''<sub>1</sub>是治疗的真实效果。常数1.645是标准正态分布的第95个百分位数,定义了测试的拒绝区域。
通过类似的计算,成对Z检验的功效为
[math]
1 - \Phi(1.645 - \delta/S).
[/math]
通过比较成对和非成对检验的功效表达式,可以看出,只要满足以下条件,成对检验的功效就更高:
[math]
\sqrt{\sigma_1^2/n + \sigma_2^2/n}/S = \sqrt{\frac{\sigma_1^2+\sigma_2^2}{\sigma_1^2+\sigma_2^2-2\sigma_1\sigma_2\rho}} > 1 \text{ 其中 } \rho := \operatorname{corr}(Y_{i1},Y_{i2})。
[/math]
只要[math]\rho[/math],即成对相关性为正,就满足这个条件。
===用于成对检验的随机效应模型===
以下统计模型有助于理解成对差异检验
[math]
Y_{ij} = \mu_j + \alpha_i + \varepsilon_{ij}
[/math]
其中{{math|''α''<sub>''i''</sub>}}是成对中两个值共享的[[随机效应]],{{math|''ε''<sub>''ij''</sub>}}是所有数据点中独立的随机噪声项。常数值{{math|''μ''<sub>1</sub>,&nbsp;''μ''<sub>2</sub>}}是被比较的两次测量的[[期望值]],我们关注的是{{math|1=''δ''&nbsp;=&nbsp;''μ''<sub>2</sub>&nbsp;&minus;&nbsp;''μ''<sub>1</sub>}}。
在这个模型中,{{math|''α''<sub>''i''</sub>}}捕获了对治疗前后测量都有相同影响的"稳定混杂因素"。当我们相减形成{{math|''D''<sub>''i''</sub>}}时,''α''<sub>''i''</sub>会抵消,因此不会对方差产生贡献。成对的协方差是
[math]
\operatorname{cov}(Y_{i1}, Y_{i2}) = \operatorname{var}(\alpha_i)。
[/math]
这是非负的,因此与未配对检验相比,配对差异检验的性能更好,除非[math]α_i[/math]在[math]i[/math]上是常数,在这种情况下,配对和未配对检验是等效的。
用较少的数学术语来说,未配对检验假设被比较的两组数据是独立的。这个假设决定了[math]<span style="text-decoration: overline">D</span>[/math]方差的形式。然而,当对每个受试者进行两次测量时,这两次测量不太可能是独立的。如果受试者内部的两次测量呈正相关,未配对检验会高估[math]<span style="text-decoration: overline">D</span>[/math]的方差,使其成为一种保守的检验,其实际[[Type I and type II errors|第一类错误]]的概率将低于名义水平,相应地导致统计功效的损失。在罕见情况下,数据在受试者内部可能呈负相关,在这种情况下,未配对检验变得不保守。当对同一受试者进行重复测量时,通常使用配对检验,因为无论双内测量的相关性如何,它都具有正确的水平。
=='''在减少混杂因素中的应用'''==
当在一组[[observational study|观察性数据]]中比较两组时,配对差异检验的另一个应用场景出现了,其目标是从其他可能发挥作用的因素的影响中分离出一个感兴趣因素的效果。例如,假设教师采用两种不同的方法,标记为“A”和“B”,来教授特定的数学主题。我们可能对学生在标准化数学测试中的表现是否根据教学方法的不同而有所差异感兴趣。如果教师可以自由选择方法A或方法B,那么数学表现已经很好的学生的教师可能会更倾向于选择方法A(或反之亦然)。在这种情况下,仅仅比较使用方法A和方法B教学的学生的平均表现很可能会显示出差异,但这种差异部分或全部是由于两组学生之间先前存在的差异造成的。在这种情况下,学生的基线能力作为一个[[confounder|混杂变量]],因为它们既与结果(标准化测试的表现)相关,也与治疗分配到方法A或方法B相关。
我们可以通过构建“人工对”并进行成对差异测试,来减少(但不一定完全消除)混杂变量的影响。这些人工对是基于被认为是混杂因素的额外变量构建的。通过配对在混杂变量上数值相似的学生,对感兴趣的值(例如上述例子中的标准化考试成绩)的差异中,更大的部分归因于感兴趣的因素,而较小的部分归因于混杂因子。为成对差异测试形成人工对是一种减少使用观察数据进行比较时混杂效应的通用方法,这种方法被称为[[匹配(统计学)|匹配]]。<ref>{{cite journal | last=Rubin | first=Donald B. | title=Matching to Remove Bias in Observational Studies | journal=Biometrics | volume=29 | year=1973 | pages=159&ndash;183 | doi=10.2307/2529684 | issue=1 | jstor=2529684}}</ref><ref>{{cite journal | title=On Stratification, Grouping and Matching | last=Anderson | first=Dallas W. |author2=Kish, Leslie |author3=Cornell, Richard G.  | journal=Scandinavian Journal of Statistics | volume=7 | year=1980 | pages=61&ndash;66 | issue=2 | publisher=Blackwell Publishing | jstor=4615774}}</ref><ref>{{cite journal | title=Matching in Epidemiologic Studies: Validity and Efficiency Considerations | last=Kupper | first=Lawrence L. |author2=Karon, John M. |author3=Kleinbaum, David G. |author4=Morgenstern, Hal |author5= Lewis, Donald K.  | journal=Biometrics | volume=37 | year=1981 | pages=271&ndash;291 | doi=10.2307/2530417 | issue=2 | jstor=2530417 | pmid=7272415| citeseerx=10.1.1.154.1197 }}</ref>
举一个具体的例子,假设我们观察到学生在实施{{mvar|A}}和{{mvar|B}}两种教学策略下的考试成绩[math]X[/math],每位学生在实施这两种教学策略之前,其数学知识水平要么“高”要么“低”。然而,我们不知道哪些学生属于“高”类别,哪些属于“低”类别。这四个可能的群体中的[[期望值|人口平均]]考试成绩为
[math]\begin{array}{l|ll}
&  A  &  B  \\
\hline High &  \mu_{H A}  &  \mu_{H B}  \\
Low &  \mu_{L A}  &  \mu_{L B}
\end{array}[/math]
和学生在各组中的比例为
[math]\begin{array}{l|ll}
&  A  &  B  \\
\hline High &  p_{H A}  &  p_{H B}  \\
Low &  p_{L A}  &  p_{L B}
\end{array}[/math]
其中 {{math|1=[math]p_{HA} + p_{HB} + p_{LA} + p_{LB} = 1[/math]}}。
在“高”组中学生的“处理差异”是 {{math|μ_{HA} - μ_{HB}}},而在“低”组中学生的处理差异是 {{math|μ_{LA} - μ_{LB}}}。 一般来说,这两种教学策略可能在任何方向上有所不同,或没有差异,且其效果在“高”和“低”组之间可能在幅度或甚至符号上有所不同。 例如,如果策略B对于准备充分的学生来说优于策略A,但策略A对于准备不足的学生来说优于策略B,那么这两种处理差异将具有相反的符号。
由于我们不知道学生的基线水平,所以在A组中学生平均考试成绩的期望值 [math]\bar{X}_A[/math] 是两个基线水平中的平均值:
[math]
E\bar{X}_A = \mu_{HA}\frac{p_{HA}}{p_{HA}+p_{LA}} + \mu_{LA}\frac{p_{LA}}{p_{HA}+p_{LA}},
[/math]
同样地,B组中学生平均考试成绩的期望值 [math]\bar{X}_B[/math] 是
[math]
E\bar{X}_B = \mu_{HB}\frac{p_{HB}}{p_{HB}+p_{LB}} + \mu_{LB}\frac{p_{LB}}{p_{HB}+p_{LB}}.
[/math]
同样地,“B”组学生的平均测试成绩{{math|1=<span style="text-decoration: overline">''X''</span><sub>''B''</sub>}}为:
[math]
E\bar{X}_B = \mu_{HB}\frac{p_{HB}}{p_{HB}+p_{LB}} + \mu_{LB}\frac{p_{LB}}{p_{HB}+p_{LB}}.
[/math]
因此,观察到的治疗差异的期望值{{math|1=<span style="text-decoration: overline">''D''</span>&nbsp;=&nbsp;<span style="text-decoration: overline">''X''</span><sub>''A''</sub>&nbsp;&minus;&nbsp;<span style="text-decoration: overline">''X''</span><sub>''B''</sub>}}为:
[math]
\mu_{HA}\frac{p_{HA}}{p_{HA}+p_{LA}} - \mu_{HB}\frac{p_{HB}}{p_{HB}+p_{LB}} + \mu_{LA}\frac{p_{LA}}{p_{HA}+p_{LA}} - \mu_{LB}\frac{p_{LB}}{p_{HB}+p_{LB}}.
[/math]
一个合理的[[null hypothesis]]是,在“高”或“低”学生组中,治疗无效,即{{math|1=''μ''<sub>''HA''</sub>&nbsp;=&nbsp;''μ''<sub>''HB''</sub> 和 ''μ''<sub>''LA''</sub>&nbsp;=&nbsp;''μ''<sub>''LB''</sub>}}。根据这一零假设,如果满足以下条件,{{math|1=<span style="text-decoration: overline">''D''</span>}}的期望值将为零:
[math]
p_{HA} = (p_{HA}+p_{LA})(p_{HA}+p_{HB})
[/math]
以及:
[math]
p_{HB} = (p_{HB}+p_{LB})(p_{HA}+p_{HB}).
[/math]
这个条件表明,将学生分配到{{mvar|A}}和{{mvar|B}}教学策略组是独立于他们在实施教学策略之前的数学知识的。如果这一点成立,基线数学知识不是一个混杂因素;相反,如果基线数学知识是一个混杂因素,{{math|1=<span style="text-decoration: overline">''D''</span>}}的期望值通常会与零不同。如果在零假设下{{math|1=<span style="text-decoration: overline">''D''</span>}}的期望值不等于零,那么我们拒绝零假设的情况可能是由于{{mvar|A}}和{{mvar|B}}教学策略之间的实际差异效应,或者可能是由于学生被分配到{{mvar|A}}和{{mvar|B}}组的非独立性(即使在教学策略没有效果的情况下也是如此)。
这个例子说明,如果在存在混杂因素时直接比较两组,我们无法知道观察到的任何差异是由于分组本身,还是由于其他因素。如果我们能够通过精确或估计的方式匹配学生的基线数学能力,那么我们只是在比较上述均值表中的“行内”学生。因此,如果零假设成立,{{math|1=<span style="text-decoration: overline">''D''</span>}}的期望值将等于零,[[statistical significance]]水平将具有其预期的解释。
== '''节点使用的R语言示例代码''' ==
=== 两样本配对T检验 ===
<syntaxhighlight lang="R">
t.test(x, y = NULL,
      alternative = c("two.sided", "less", "greater"),
      mu = 0, paired = TRUE, var.equal = FALSE,
      conf.level = 0.95, ...)
</syntaxhighlight>
== '''节点使用指南''' ==
* 用于比较两个相关样本(如同一组受试者在不同条件下的测量结果)的平均值差异是否显著
* 适用于在“之前”和“之后”的研究设计,或者当两组观测数据是成对出现时
=== 方法选择 ===
* 无方法选择
=== 参数配置 ===
* 分组变量:选择二分类分组变量,而且两组之间是配对的,数量一样
* 统计变量:选择一个或多个连续型数值变量,每个变量与分组变量做一次配对T检验
* 置信区间百分比:输入百分比,95%置信区间就是0.95
* 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
* 筛选阈值:选择需要的P值阈值,节点会自动将满足阈值的变量筛选出,数据集也会同步筛选出满足的变量。
* 分组变量和统计变量要规避复用
* 此算法兼容空值
=== 注意事项 ===
* 分组变量只能选择二分类,变量只有两组,多组不可以选择
* 两组数量必须相等,一对对的配对,不可以选择数量不一致的
== '''引用''' ==
{{Reflist}}





2024年1月24日 (三) 10:52的最新版本

Paired Samples T test.png
节点状态
Windows / Windows 10 Win10及以上可用
V1.0部署
两样本配对T检验Paired Samples T test.svg
节点开发者决策链算法研发部 (Dev.Team-DPS)
节点英文名Paired Samples T_test
功能主类别数据分析
英文缩写PaSamTt
功能亚类别参数检验
节点类型数据挖掘
开发语言R
节点简介

两样本配对T检验是利用来自两个配对的总体,推断这两个配对总体的均值是否存在显著差异。检验的前提条件是两配对样本的样本数量相等,样本来自的两个总体应该服从正态分布。

用途:用于比较两个相关样本或配对观察值的均值是否存在显著差异。这种检验通常用于比较同一组实验对象在不同条件下或在不同时间点上的表现。

参数:选择一个分组变量和连续型数值变量。

端口数量与逻辑控制(PC)
Input-入口4个
Output-出口3个
Loop-支持循环
If/Switch-支持逻辑判断
输入输出
可生成图片类型(推荐)
可生成数据表类型(推荐)
相关节点
上一节点两独立样本T检验
下一节点Friedman检验



统计学中,配对差异检验是一种位置检验,用于比较两组成对测量数据,以评估它们的总体均值是否有差异。配对差异检验使用了一些在普通非配对检测情况下不存在的样本的额外信息,旨在增加统计功效,或减少混杂变量的影响。

具体进行配对差异检验的方法包括:对于正态分布差异的t检验(差异的总体标准差未知)和配对Z检验(差异的总体标准差已知),以及对于可能不呈正态分布的差异的Wilcoxon符号秩检验[1]和配对排列检验

配对差异检验最常见的例子是在治疗前后对受试者进行测量。这种“重复测量”检验比较了受试者内部的这些测量值,而不是跨受试者的比较,并且通常比非配对检验具有更大的功效。另一个例子来自于匹配疾病病例与相应的对照组。

用于减少方差

配对差异检验减少方差的方法是一种特定类型的分组。为了说明这一点,假设我们正在评估一种治疗高胆固醇的药物的性能。在我们的研究设计下,我们招募了100名受试者,并测量了每个受试者的胆固醇水平。然后,所有受试者接受该药物治疗六个月后,再次测量他们的胆固醇水平。我们感兴趣的是药物对平均胆固醇水平是否有影响,这可以通过比较治疗后和治疗前的测量结果来推断。

激发配对差异检验的关键问题是,除非研究有非常严格的入组标准,否则在治疗开始前受试者之间可能存在显著差异。受试者之间的重要基线差异可能是由于他们的性别、年龄、吸烟状况、活动水平和饮食。

分析这些数据有两种自然方法:

  • 在“非配对分析”中,数据被视为实际上是招募了200名受试者的研究设计,然后随机将100名受试者分配到治疗组和对照组。非配对设计中的治疗组被视为与配对设计中的治疗后测量相类似,而对照组则被视为与治疗前测量相类似。我们可以计算治疗组和未治疗组受试者的样本均值,并将这些均值相互比较。
  • 在“配对差异分析”中,我们首先从每个受试者的治疗后值中减去治疗前值,然后将这些差异与零进行比较。

如果我们只考虑均值,配对和非配对的方法给出相同的结果。要看到这一点,设[math]Y_{i1}, Y_{i2}[/math]为第[math]i[/math]对观察数据,设[math]D_i = Y_{i2} - Y_{i1}[/math]。另设[math]\overline{D}, \overline{Y_1}[/math]和[math]\overline{Y_2}[/math]分别表示[math]D_i, Y_{i1}[/math]和[math]Y_{i2}[/math]的样本均值。通过重新排列项,我们可以看到: [math] \overline{D} = \frac{1}{n}\sum_i (Y_{i2}-Y_{i1}) = \frac{1}{n}\sum_iY_{i2} - \frac{1}{n}\sum_iY_{i1} = \overline{Y}_2 - \overline{Y}_1, [/math]

其中[math]n[/math]是对的数量。因此,组间的平均差异不依赖于我们是否将数据作为对组织。

尽管配对和非配对统计的平均差异是相同的,但它们的统计显著性水平可能非常不同,因为非配对统计的方差容易被高估。[math]\overline{D}[/math]的方差是[math]\begin{aligned} \operatorname{var}(\bar{D}) & =\operatorname{var}\left(\bar{Y}_{2}-\bar{Y}_{1}\right) \\ & =\operatorname{var}\left(\bar{Y}_{2}\right)+\operatorname{var}\left(\bar{Y}_{1}\right)-2 \operatorname{cov}\left(\bar{Y}_{1}, \bar{Y}_{2}\right) \\ & =\sigma_{1}^{2} / n+\sigma_{2}^{2} / n-2 \sigma_{1} \sigma_{2} \operatorname{corr}\left(Y_{i 1}, Y_{i 2}\right) / n\end{aligned}[/math]

其中[math]\sigma_1[/math]和[math]\sigma_2[/math]分别是[math]Y_{i1}[/math]和[math]Y_{i2}[/math]数据的总体标准差。因此,如果每对内有正相关,[math]\overline{D}[/math]的方差会更低。在重复测量设置中,这种相关性非常常见,因为许多影响被比较值的因素不受治疗影响。例如,如果胆固醇水平与年龄相关,年龄的影响将导致受试者内部测量的胆固醇水平之间的正相关性,只要研究的持续时间相对于样本中年龄变化的小。

配对Z检验的功效

假设我们使用Z检验来分析数据,其中治疗前和治疗后数据的方差[math]\sigma_1^2[/math]和[math]\sigma_2^2[/math]是已知的(与t检验的情况相似)。非配对Z检验统计量是: [math] \frac{\overline{Y}_2 - \overline{Y}_1}{\sqrt{\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{n}}}, [/math]

在水平[math]\alpha = 0.05[/math]进行的非配对、单尾检验的功效可以如下计算: [math] \begin{align} P\left(\frac{\overline{Y}_2 - \overline{Y}_1}{\sqrt{\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{n}}} > 1.645\right) &= P\left(\frac{\overline{Y}_2 - \overline{Y}_1}{S} > 1.645\sqrt{\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{n}}/S\right)\\ &= P\left(\frac{\overline{Y}_2 - \overline{Y}_1-\delta+\delta}{S} > 1.645\sqrt{\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{n}}/S\right)\\ &= P\left(\frac{\overline{Y}_2 - \overline{Y}_1-\delta}{S} > 1.645\sqrt{\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{n}}/S - \frac{\delta}{S}\right)\\ &= 1 - \Phi(1.645\sqrt{\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{n}}/S - \frac{\delta}{S}), \end{align} [/math]

在哪里SD的标准偏差,Φ是标准的正态 累积分布函数,而δ = EY2 − EY1是治疗的真实效果。常数1.645是标准正态分布的第95个百分位数,定义了测试的拒绝区域。

通过类似的计算,成对Z检验的功效为

[math] 1 - \Phi(1.645 - \delta/S). [/math]

通过比较成对和非成对检验的功效表达式,可以看出,只要满足以下条件,成对检验的功效就更高:

[math] \sqrt{\sigma_1^2/n + \sigma_2^2/n}/S = \sqrt{\frac{\sigma_1^2+\sigma_2^2}{\sigma_1^2+\sigma_2^2-2\sigma_1\sigma_2\rho}} > 1 \text{ 其中 } \rho := \operatorname{corr}(Y_{i1},Y_{i2})。 [/math]

只要[math]\rho[/math],即成对相关性为正,就满足这个条件。

用于成对检验的随机效应模型

以下统计模型有助于理解成对差异检验

[math] Y_{ij} = \mu_j + \alpha_i + \varepsilon_{ij} [/math]

其中αi是成对中两个值共享的随机效应εij是所有数据点中独立的随机噪声项。常数值μ1μ2是被比较的两次测量的期望值,我们关注的是δ = μ2 − μ1

在这个模型中,αi捕获了对治疗前后测量都有相同影响的"稳定混杂因素"。当我们相减形成Di时,αi会抵消,因此不会对方差产生贡献。成对的协方差是

[math] \operatorname{cov}(Y_{i1}, Y_{i2}) = \operatorname{var}(\alpha_i)。 [/math]

这是非负的,因此与未配对检验相比,配对差异检验的性能更好,除非[math]α_i[/math]在[math]i[/math]上是常数,在这种情况下,配对和未配对检验是等效的。

用较少的数学术语来说,未配对检验假设被比较的两组数据是独立的。这个假设决定了[math]D[/math]方差的形式。然而,当对每个受试者进行两次测量时,这两次测量不太可能是独立的。如果受试者内部的两次测量呈正相关,未配对检验会高估[math]D[/math]的方差,使其成为一种保守的检验,其实际第一类错误的概率将低于名义水平,相应地导致统计功效的损失。在罕见情况下,数据在受试者内部可能呈负相关,在这种情况下,未配对检验变得不保守。当对同一受试者进行重复测量时,通常使用配对检验,因为无论双内测量的相关性如何,它都具有正确的水平。

在减少混杂因素中的应用

当在一组观察性数据中比较两组时,配对差异检验的另一个应用场景出现了,其目标是从其他可能发挥作用的因素的影响中分离出一个感兴趣因素的效果。例如,假设教师采用两种不同的方法,标记为“A”和“B”,来教授特定的数学主题。我们可能对学生在标准化数学测试中的表现是否根据教学方法的不同而有所差异感兴趣。如果教师可以自由选择方法A或方法B,那么数学表现已经很好的学生的教师可能会更倾向于选择方法A(或反之亦然)。在这种情况下,仅仅比较使用方法A和方法B教学的学生的平均表现很可能会显示出差异,但这种差异部分或全部是由于两组学生之间先前存在的差异造成的。在这种情况下,学生的基线能力作为一个混杂变量,因为它们既与结果(标准化测试的表现)相关,也与治疗分配到方法A或方法B相关。

我们可以通过构建“人工对”并进行成对差异测试,来减少(但不一定完全消除)混杂变量的影响。这些人工对是基于被认为是混杂因素的额外变量构建的。通过配对在混杂变量上数值相似的学生,对感兴趣的值(例如上述例子中的标准化考试成绩)的差异中,更大的部分归因于感兴趣的因素,而较小的部分归因于混杂因子。为成对差异测试形成人工对是一种减少使用观察数据进行比较时混杂效应的通用方法,这种方法被称为匹配[2][3][4]

举一个具体的例子,假设我们观察到学生在实施AB两种教学策略下的考试成绩[math]X[/math],每位学生在实施这两种教学策略之前,其数学知识水平要么“高”要么“低”。然而,我们不知道哪些学生属于“高”类别,哪些属于“低”类别。这四个可能的群体中的人口平均考试成绩为

[math]\begin{array}{l|ll} & A & B \\ \hline High & \mu_{H A} & \mu_{H B} \\ Low & \mu_{L A} & \mu_{L B} \end{array}[/math]

和学生在各组中的比例为 [math]\begin{array}{l|ll} & A & B \\ \hline High & p_{H A} & p_{H B} \\ Low & p_{L A} & p_{L B} \end{array}[/math]

其中 [math]p_{HA} + p_{HB} + p_{LA} + p_{LB} = 1[/math]

在“高”组中学生的“处理差异”是 μ_{HA} - μ_{HB},而在“低”组中学生的处理差异是 μ_{LA} - μ_{LB}。 一般来说,这两种教学策略可能在任何方向上有所不同,或没有差异,且其效果在“高”和“低”组之间可能在幅度或甚至符号上有所不同。 例如,如果策略B对于准备充分的学生来说优于策略A,但策略A对于准备不足的学生来说优于策略B,那么这两种处理差异将具有相反的符号。

由于我们不知道学生的基线水平,所以在A组中学生平均考试成绩的期望值 [math]\bar{X}_A[/math] 是两个基线水平中的平均值: [math] E\bar{X}_A = \mu_{HA}\frac{p_{HA}}{p_{HA}+p_{LA}} + \mu_{LA}\frac{p_{LA}}{p_{HA}+p_{LA}}, [/math]

同样地,B组中学生平均考试成绩的期望值 [math]\bar{X}_B[/math] 是

[math] E\bar{X}_B = \mu_{HB}\frac{p_{HB}}{p_{HB}+p_{LB}} + \mu_{LB}\frac{p_{LB}}{p_{HB}+p_{LB}}. [/math]

同样地,“B”组学生的平均测试成绩XB为:

[math] E\bar{X}_B = \mu_{HB}\frac{p_{HB}}{p_{HB}+p_{LB}} + \mu_{LB}\frac{p_{LB}}{p_{HB}+p_{LB}}. [/math]

因此,观察到的治疗差异的期望值D = XA − XB为:

[math] \mu_{HA}\frac{p_{HA}}{p_{HA}+p_{LA}} - \mu_{HB}\frac{p_{HB}}{p_{HB}+p_{LB}} + \mu_{LA}\frac{p_{LA}}{p_{HA}+p_{LA}} - \mu_{LB}\frac{p_{LB}}{p_{HB}+p_{LB}}. [/math]

一个合理的null hypothesis是,在“高”或“低”学生组中,治疗无效,即μHA = μHBμLA = μLB。根据这一零假设,如果满足以下条件,D的期望值将为零:

[math] p_{HA} = (p_{HA}+p_{LA})(p_{HA}+p_{HB}) [/math]

以及:

[math] p_{HB} = (p_{HB}+p_{LB})(p_{HA}+p_{HB}). [/math]

这个条件表明,将学生分配到AB教学策略组是独立于他们在实施教学策略之前的数学知识的。如果这一点成立,基线数学知识不是一个混杂因素;相反,如果基线数学知识是一个混杂因素,D的期望值通常会与零不同。如果在零假设下D的期望值不等于零,那么我们拒绝零假设的情况可能是由于AB教学策略之间的实际差异效应,或者可能是由于学生被分配到AB组的非独立性(即使在教学策略没有效果的情况下也是如此)。

这个例子说明,如果在存在混杂因素时直接比较两组,我们无法知道观察到的任何差异是由于分组本身,还是由于其他因素。如果我们能够通过精确或估计的方式匹配学生的基线数学能力,那么我们只是在比较上述均值表中的“行内”学生。因此,如果零假设成立,D的期望值将等于零,statistical significance水平将具有其预期的解释。

节点使用的R语言示例代码

两样本配对T检验

t.test(x, y = NULL,
       alternative = c("two.sided", "less", "greater"),
       mu = 0, paired = TRUE, var.equal = FALSE,
       conf.level = 0.95, ...)

节点使用指南

  • 用于比较两个相关样本(如同一组受试者在不同条件下的测量结果)的平均值差异是否显著
  • 适用于在“之前”和“之后”的研究设计,或者当两组观测数据是成对出现时

方法选择

  • 无方法选择

参数配置

  • 分组变量:选择二分类分组变量,而且两组之间是配对的,数量一样
  • 统计变量:选择一个或多个连续型数值变量,每个变量与分组变量做一次配对T检验
  • 置信区间百分比:输入百分比,95%置信区间就是0.95
  • 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
  • 筛选阈值:选择需要的P值阈值,节点会自动将满足阈值的变量筛选出,数据集也会同步筛选出满足的变量。
  • 分组变量和统计变量要规避复用
  • 此算法兼容空值

注意事项

  • 分组变量只能选择二分类,变量只有两组,多组不可以选择
  • 两组数量必须相等,一对对的配对,不可以选择数量不一致的


引用

  1. Derrick, B; Broad, A; Toher, D; White, P (2017). "在配对样本设计中极端观察值的影响". Metodološki Zvezki - Advances in Methodology and Statistics. 14 (2): 1–17.
  2. Rubin, Donald B. (1973). "Matching to Remove Bias in Observational Studies". Biometrics. 29 (1): 159–183. doi:10.2307/2529684. JSTOR 2529684.
  3. Anderson, Dallas W.; Kish, Leslie; Cornell, Richard G. (1980). "On Stratification, Grouping and Matching". Scandinavian Journal of Statistics. Blackwell Publishing. 7 (2): 61–66. JSTOR 4615774.
  4. Kupper, Lawrence L.; Karon, John M.; Kleinbaum, David G.; Morgenstern, Hal; Lewis, Donald K. (1981). "Matching in Epidemiologic Studies: Validity and Efficiency Considerations". Biometrics. 37 (2): 271–291. CiteSeerX 10.1.1.154.1197. doi:10.2307/2530417. JSTOR 2530417. PMID 7272415.


查找其他类别的节点,请参考以下列表