One Way ANCOVA:修订间差异

来自决策链云智库
无编辑摘要
无编辑摘要
第28行: 第28行:
}}
}}


'''协方差分析'''('''ANCOVA''')是一种结合了[[ANOVA]]和[[regression analysis|回归分析]]的[[general linear model|通用线性模型]]。ANCOVA评估[[dependent variable|因变量]](DV)的均值在一个或多个[[Categorical variable|分类]] [[independent variable|自变量]](IV)的不同水平和一个或多个连续变量上是否相等。例如,分类变量可能描述治疗,而连续变量可能是[[covariate|协变量]]或干扰变量;或反之亦然。从数学上讲,ANCOVA将DV中的方差分解为由CV(s)解释的方差、分类IV解释的方差和残差方差。直观上,ANCOVA可以被认为是通过CV(s)的组均值“调整”DV。<ref>Keppel, G. (1991). ''设计与分析:研究者手册''(第三版)。恩格尔伍德悬崖:Prentice-Hall, Inc.</ref>


ANCOVA模型假设响应(DV)与协变量(CV)之间存在线性关系:
[math]y_{ij} = \mu + \tau_i + \Beta(x_{ij} - \overline{x}) + \epsilon_{ij}.[/math]
在这个方程中,DV,[math]y_{ij}[/math]是第i个分类组下的第j个观察值;CV,[math]x_{ij}[/math]是第i组下的协变量的第j个观察值。模型中由观测数据派生的变量包括[math]\mu[/math](总体均值)和[math]\overline{x}[/math](协变量[math]x[/math]的全局均值)。待拟合的变量有[math]\tau_i[/math](分类IV的第i级效应),[math]B[/math](线性关系的斜率)和[math]\epsilon_{ij}[/math](第i组中第j个观察值的未观测误差项)。
根据这一规定,分类处理效应的总和为零[math]\left(\sum_i^a \tau_i = 0\right).[/math]也假设线性回归模型的标准假设成立,如下所述。<ref name="Montgomery, Douglas C 2012">Montgomery, Douglas C. "实验设计与分析"(第八版)。John Wiley & Sons, 2012。</ref>
=='''应用'''==
===增强功效===
ANCOVA可用于通过减少组内误差[[variance|方差]]来增加[[Statistical significance|统计功效]](发现组间存在显著差异的概率)。<ref>{{cite book |last1=Tabachnick |first1=B. G. |last2=Fidell |first2=L. S. |year=2007 |title=使用多变量统计 |edition=第5版 |location=波士顿 |publisher=Pearson Education }}</ref>为了理解这一点,必须了解用于评估组间差异的检验,即[[F-test|F检验]]。F检验通过将组间解释方差(例如,医疗恢复差异)除以组内未解释方差来计算。因此,
:[math]F = \frac{MS_{between} }{MS_{within}}[/math]
如果这个值大于临界值,我们就可以得出组间存在显著差异的结论。未解释的方差包括误差方差(例如,个体差异)以及其他因素的影响。因此,CVs的影响被归入分母中。当我们控制CVs对DV的效应时,我们会将其从分母中移除,从而使F值变大,进而增加我们发现显著效应的能力,如果根本存在的话。
[[File:ANCOVA - Partitioning Variance.jpg|right|划分方差]]
===调整先前存在的差异===
ANCOVA的另一个用途是调整非等价(完整)组中先前存在的差异。这种有争议的应用旨在纠正组分配前DV上存在的初始组差异。在这种情况下,参与者不能通过随机分配实现平等,因此使用CVs调整分数,使参与者相比没有CV时更加相似。然而,即使使用了协变量,也没有统计技术能够使不平等的组等同。此外,CV可能与分类IV紧密相关,以至于移除与CV相关的DV上的方差会移除DV上的大量方差,使结果失去意义。<ref>{{cite journal |last1=Miller |first1=G. A. |last2=Chapman |first2=J. P. |year=2001 |title=协方差分析的误解 |journal=异常心理学杂志 |volume=110 |issue=1 |pages=40–48 |doi=10.1037/0021-843X.110.1.40 |pmid=11261398 }}</ref>
=='''假设'''==
使用ANCOVA并影响结果解释的有几个关键假设。<ref name="Montgomery, Douglas C 2012"/>标准的[[regression analysis|线性回归]]假设成立;此外,我们假设所有治疗组的协变量斜率相等(回归斜率的同质性)。
===假设1:回归的线性===
因变量和共变量之间的回归关系必须是线性的。
===假设2:误差方差的同质性===
误差是一个随机变量,对不同治疗类别和观察具有条件零均值和相等的方差。
===假设3:误差项的独立性===
误差是不相关的。也就是说,误差协方差矩阵是对角的。
===假设4:误差项的正态性===
[[Errors and residuals in statistics|残差(误差项)]]应该呈正态分布[math]\epsilon_{ij}[/math] ~ [math]N(0, \sigma^2)[/math]。
===假设5:回归斜率的同质性===
不同回归线的斜率应当是等价的,即,各组之间的回归线应当是平行的。
第五个问题,关于不同处理回归斜率的同质性,对于评估ANCOVA模型的适当性尤其重要。还需注意,我们只需要误差项正态分布。实际上,大多数情况下,独立变量和伴随变量都不会正态分布。
=='''进行ANCOVA'''==
===测试[[多重共线性]]===
如果一个协变量(CV)与另一个CV高度相关(相关系数达到0.5或更高),那么它将不会对因变量(DV)进行调整,超越另一个CV的作用。因为它们在统计上是多余的,所以应该移除其中之一。
===测试方差同质性假设===
通过[[Levene's test]]检验误差方差的等式。
这在调整后尤为重要,但如果调整前就存在,那么调整后很可能仍然存在。
===测试回归斜率的同质性假设===
要检验CV是否显著地与分类自变量(IV)交互,可以运行一个包含IV和CVxIV交互项的ANCOVA模型。
如果CVxIV交互作用显著,则不应进行ANCOVA。相反,Green和Salkind<ref name="Green">Green, S. B., & Salkind, N. J. (2011). ''使用SPSS for Windows and Macintosh: 分析和理解数据'' (第6版)。Upper Saddle River, NJ: Prentice Hall.</ref>建议在CV的特定水平上评估组间DV的差异。也可以考虑使用[[Moderation (statistics)|调节回归分析]],将CV及其交互作用视为另一个IV。或者,可以使用[[Mediation (statistics)|中介分析]]来确定CV是否解释了IV对DV的影响{{Citation needed|date=December 2022}}。
===运行ANCOVA分析===
如果CV×IV交互作用不显著,重新运行ANCOVA,不包括CV×IV交互项。
在这次分析中,你需要使用调整后的均值和调整后的MSerror。调整后的均值(也称为最小二乘均值、LS均值、估计边际均值或EMM)指的是在控制了CV对DV的影响后的组均值。
===后续分析===
如果存在显著的[[主效应]],这意味着忽略所有其他因素,一个分类IV的水平之间存在显著差异。<ref name="Howell">Howell, D. C. (2009) ''心理学统计方法'' (第7版)。Belmont: Cengage Wadsworth.</ref>为了准确找出哪些水平之间存在显著差异,可以使用与ANOVA相同的后续检验。
如果存在两个或多个IV,可能存在[[Interaction (statistics)|显著交互作用]],这意味着一个IV对DV的效应根据另一个因素的水平而变化。可以使用与[[Factor analysis|因子ANOVA]]中相同的方法研究简单主效应。
=='''功效考虑'''==
虽然将协变量纳入ANOVA通常会通过解释因变量中的一部分方差从而增加[[统计功效]],提高由独立变量解释的方差比例,但将协变量加入ANOVA也会减少[[Degrees of freedom (statistics)|自由度]]。因此,添加一个在因变量中解释很少方差的协变量实际上可能会降低功效。
== '''节点使用的R语言示例代码''' ==
=== One Way ANCOVA ===
<syntaxhighlight lang="R">
aov_ez(
  id,
  dv,
  data,
  between = NULL,
  within = NULL,
  covariate = NULL,
  observed = NULL,
  type = afex_options("type"),
  factorize = afex_options("factorize"),
  return = afex_options("return_aov")
)
</syntaxhighlight>
== '''节点使用指南''' ==
* 用于比较两个或多个独立(处理)组在协变量调整后的均值差异
* 比较不同组在控制一个或多个协变量后的均值差异
* 协变量应与因变量相关,但与处理组之间应独立
=== 方法选择 ===
* 无方法选择
=== 参数配置 ===
* 因变量:选择正态分布连续型数值变量,每个变量做一次ANCOVA
* 分组自变量:选择一个分类分组
* 协变量: 选择一个或者多个协变量,可以是连续型或者离散型
* 筛选阈值:选择需要的P值阈值,节点会自动将满足阈值的变量筛选出,数据集也会同步筛选出满足的变量。
* 因变量,分组自变量和协变量要规避复用
* 此算法兼容空值
=== 注意事项 ===
* 检查数据是否满足正态分布、独立性、方差齐性等基本假设
* 检验协变量和因变量是否有交互作用,如果有,标准ANCOVA可能不适用
* 确保每个组的样本量足够,以便有足够的统计功效检测组间差异
== '''引用''' ==
{{Reflist}}


{{Navplate AlgorithmNodeList}}
{{Navplate AlgorithmNodeList}}


[[Category:方差分析]]
[[Category:方差分析]]

2024年2月8日 (四) 13:53的版本

One Way ANCOVA.png
节点状态
Windows / Windows 10 Win10及以上可用
V1.0.2部署
One_Way_ANCOVAOne Way ANCOVA.svg
节点开发者决策链算法研发部 (Dev.Team-DPS)
节点英文名One Way ANCOVA
功能主类别数据分析
英文缩写ANCOVAO
功能亚类别方差分析
节点类型数据挖掘
开发语言R
节点简介

单因素协方差分析One Way ANCOVA是一种用来比较一个因变量在一个因子水平上的均值是否有显著差异的统计方法,同时控制一个或多个协变量的影响。

用途:用于调整后的均值比较和控制混杂变量。

参数:选择正态分布数值因变量,和分组自变量,一个或多个协变量。

端口数量与逻辑控制(PC)
Input-入口5个
Output-出口3个
Loop-支持循环
If/Switch-支持逻辑判断
输入输出
可生成图片类型(推荐)
可生成数据表类型(推荐)
相关节点
上一节点多元方差分析
下一节点Two_Way_ANCOVA



协方差分析ANCOVA)是一种结合了ANOVA回归分析通用线性模型。ANCOVA评估因变量(DV)的均值在一个或多个分类 自变量(IV)的不同水平和一个或多个连续变量上是否相等。例如,分类变量可能描述治疗,而连续变量可能是协变量或干扰变量;或反之亦然。从数学上讲,ANCOVA将DV中的方差分解为由CV(s)解释的方差、分类IV解释的方差和残差方差。直观上,ANCOVA可以被认为是通过CV(s)的组均值“调整”DV。[1]

ANCOVA模型假设响应(DV)与协变量(CV)之间存在线性关系:

[math]y_{ij} = \mu + \tau_i + \Beta(x_{ij} - \overline{x}) + \epsilon_{ij}.[/math]

在这个方程中,DV,[math]y_{ij}[/math]是第i个分类组下的第j个观察值;CV,[math]x_{ij}[/math]是第i组下的协变量的第j个观察值。模型中由观测数据派生的变量包括[math]\mu[/math](总体均值)和[math]\overline{x}[/math](协变量[math]x[/math]的全局均值)。待拟合的变量有[math]\tau_i[/math](分类IV的第i级效应),[math]B[/math](线性关系的斜率)和[math]\epsilon_{ij}[/math](第i组中第j个观察值的未观测误差项)。

根据这一规定,分类处理效应的总和为零[math]\left(\sum_i^a \tau_i = 0\right).[/math]也假设线性回归模型的标准假设成立,如下所述。[2]

应用

增强功效

ANCOVA可用于通过减少组内误差方差来增加统计功效(发现组间存在显著差异的概率)。[3]为了理解这一点,必须了解用于评估组间差异的检验,即F检验。F检验通过将组间解释方差(例如,医疗恢复差异)除以组内未解释方差来计算。因此,

[math]F = \frac{MS_{between} }{MS_{within}}[/math]

如果这个值大于临界值,我们就可以得出组间存在显著差异的结论。未解释的方差包括误差方差(例如,个体差异)以及其他因素的影响。因此,CVs的影响被归入分母中。当我们控制CVs对DV的效应时,我们会将其从分母中移除,从而使F值变大,进而增加我们发现显著效应的能力,如果根本存在的话。

调整先前存在的差异

ANCOVA的另一个用途是调整非等价(完整)组中先前存在的差异。这种有争议的应用旨在纠正组分配前DV上存在的初始组差异。在这种情况下,参与者不能通过随机分配实现平等,因此使用CVs调整分数,使参与者相比没有CV时更加相似。然而,即使使用了协变量,也没有统计技术能够使不平等的组等同。此外,CV可能与分类IV紧密相关,以至于移除与CV相关的DV上的方差会移除DV上的大量方差,使结果失去意义。[4]

假设

使用ANCOVA并影响结果解释的有几个关键假设。[2]标准的线性回归假设成立;此外,我们假设所有治疗组的协变量斜率相等(回归斜率的同质性)。

假设1:回归的线性

因变量和共变量之间的回归关系必须是线性的。

假设2:误差方差的同质性

误差是一个随机变量,对不同治疗类别和观察具有条件零均值和相等的方差。

假设3:误差项的独立性

误差是不相关的。也就是说,误差协方差矩阵是对角的。

假设4:误差项的正态性

残差(误差项)应该呈正态分布[math]\epsilon_{ij}[/math] ~ [math]N(0, \sigma^2)[/math]。

假设5:回归斜率的同质性

不同回归线的斜率应当是等价的,即,各组之间的回归线应当是平行的。

第五个问题,关于不同处理回归斜率的同质性,对于评估ANCOVA模型的适当性尤其重要。还需注意,我们只需要误差项正态分布。实际上,大多数情况下,独立变量和伴随变量都不会正态分布。

进行ANCOVA

测试多重共线性

如果一个协变量(CV)与另一个CV高度相关(相关系数达到0.5或更高),那么它将不会对因变量(DV)进行调整,超越另一个CV的作用。因为它们在统计上是多余的,所以应该移除其中之一。

测试方差同质性假设

通过Levene's test检验误差方差的等式。 这在调整后尤为重要,但如果调整前就存在,那么调整后很可能仍然存在。

测试回归斜率的同质性假设

要检验CV是否显著地与分类自变量(IV)交互,可以运行一个包含IV和CVxIV交互项的ANCOVA模型。 如果CVxIV交互作用显著,则不应进行ANCOVA。相反,Green和Salkind[5]建议在CV的特定水平上评估组间DV的差异。也可以考虑使用调节回归分析,将CV及其交互作用视为另一个IV。或者,可以使用中介分析来确定CV是否解释了IV对DV的影响, December 2022 {{citation}}: Cite has empty unknown parameters: |cat2=, |cat-date2=, |cat3=, and |cat-date3= (help); Missing or empty |title= (help); Unknown parameter |cat-date= ignored (help); Unknown parameter |cat= ignored (help)[citation needed]

运行ANCOVA分析

如果CV×IV交互作用不显著,重新运行ANCOVA,不包括CV×IV交互项。 在这次分析中,你需要使用调整后的均值和调整后的MSerror。调整后的均值(也称为最小二乘均值、LS均值、估计边际均值或EMM)指的是在控制了CV对DV的影响后的组均值。

后续分析

如果存在显著的主效应,这意味着忽略所有其他因素,一个分类IV的水平之间存在显著差异。[6]为了准确找出哪些水平之间存在显著差异,可以使用与ANOVA相同的后续检验。 如果存在两个或多个IV,可能存在显著交互作用,这意味着一个IV对DV的效应根据另一个因素的水平而变化。可以使用与因子ANOVA中相同的方法研究简单主效应。

功效考虑

虽然将协变量纳入ANOVA通常会通过解释因变量中的一部分方差从而增加统计功效,提高由独立变量解释的方差比例,但将协变量加入ANOVA也会减少自由度。因此,添加一个在因变量中解释很少方差的协变量实际上可能会降低功效。

节点使用的R语言示例代码

One Way ANCOVA

aov_ez(
  id,
  dv,
  data,
  between = NULL,
  within = NULL,
  covariate = NULL,
  observed = NULL,
  type = afex_options("type"),
  factorize = afex_options("factorize"),
  return = afex_options("return_aov")
)

节点使用指南

  • 用于比较两个或多个独立(处理)组在协变量调整后的均值差异
  • 比较不同组在控制一个或多个协变量后的均值差异
  • 协变量应与因变量相关,但与处理组之间应独立

方法选择

  • 无方法选择

参数配置

  • 因变量:选择正态分布连续型数值变量,每个变量做一次ANCOVA
  • 分组自变量:选择一个分类分组
  • 协变量: 选择一个或者多个协变量,可以是连续型或者离散型
  • 筛选阈值:选择需要的P值阈值,节点会自动将满足阈值的变量筛选出,数据集也会同步筛选出满足的变量。
  • 因变量,分组自变量和协变量要规避复用
  • 此算法兼容空值

注意事项

  • 检查数据是否满足正态分布、独立性、方差齐性等基本假设
  • 检验协变量和因变量是否有交互作用,如果有,标准ANCOVA可能不适用
  • 确保每个组的样本量足够,以便有足够的统计功效检测组间差异

引用

  1. Keppel, G. (1991). 设计与分析:研究者手册(第三版)。恩格尔伍德悬崖:Prentice-Hall, Inc.
  2. 2.0 2.1 Montgomery, Douglas C. "实验设计与分析"(第八版)。John Wiley & Sons, 2012。
  3. Tabachnick, B. G.; Fidell, L. S. (2007). 使用多变量统计 (第5版 ed.). 波士顿: Pearson Education.
  4. Miller, G. A.; Chapman, J. P. (2001). "协方差分析的误解". 异常心理学杂志. 110 (1): 40–48. doi:10.1037/0021-843X.110.1.40. PMID 11261398.
  5. Green, S. B., & Salkind, N. J. (2011). 使用SPSS for Windows and Macintosh: 分析和理解数据 (第6版)。Upper Saddle River, NJ: Prentice Hall.
  6. Howell, D. C. (2009) 心理学统计方法 (第7版)。Belmont: Cengage Wadsworth.

查找其他类别的节点,请参考以下列表