多元方差分析:修订间差异

来自决策链云智库
无编辑摘要
无编辑摘要
第28行: 第28行:
}}
}}


在[[statistics|统计学]]中,'''多元方差分析'''('''MANOVA''')是一种比较[[multivariate random variable|多元]]样本均值的程序。作为一种多元程序,当存在两个或更多[[dependent variables|依赖变量]]时使用,<ref name="Warne2014">{{cite journal |last=Warne |first=R. T. |year=2014 |title=A primer on multivariate analysis of variance (MANOVA) for behavioral scientists |journal=Practical Assessment, Research & Evaluation |volume=19 |issue=17 |pages=1–10 |url=https://scholarworks.umass.edu/pare/vol19/iss1/17/ }}</ref>,通常会接着对涉及单独依赖变量的显著性测试。<ref>Stevens, J. P. (2002). ''Applied multivariate statistics for the social sciences.'' Mahwah, NJ: Lawrence Erblaum.</ref>


与图片无关,依赖变量可能是在连续时间点上测量的k个生活满意度得分和p个工作满意度得分。在这种情况下,有k+p个依赖变量,它们的线性组合遵循多元正态分布,多元方差-协方差矩阵的同质性,线性关系,无多重共线性,并且每个都没有离群值。
== '''模型''' ==
假设[math]n[/math][math]q[/math]-维观测值,其中第[math]i[/math]个观测值[math]y_i[/math]被分配到组[math]g(i)\in \{1,\dots,m\}[/math]中,并围绕组中心[math]\mu^{(g(i))}\in \mathbb R^q[/math]分布,带有[[Multivariate normal distribution|多元高斯]]噪声:[math display="block"]
y_i = \mu^{(g(i))} + \varepsilon_i\quad \varepsilon_i \overset{\text{i.i.d.}}{\sim} \mathcal N_q (0, \Sigma) \quad \text{ for } i=1,\dots, n,
[/math]其中[math]\Sigma[/math]是[[covariance matrix|协方差矩阵]]。然后我们将我们的[[null hypothesis|零假设]]表述为
[math display="block"]H_0\!:\;\mu^{(1)}=\mu^{(2)}=\dots =\mu^{(m)}.[/math]
=='''与ANOVA的关系'''==
MANOVA是单变量[[analysis of variance|方差分析]](ANOVA)的一种泛化形式,<ref name="Warne2014" />尽管与[[Analysis of variance|单变量ANOVA]]不同,它在测试均值差异的统计显著性时使用了结果变量之间的[[covariance|协方差]]。
在单变量方差分析中出现[[Partition of sums of squares|平方和分割]]的地方,在多元方差分析中出现了某些[[positive-definite matrix|正定矩阵]]。对角线条目是单变量ANOVA中出现的同种平方和。非对角线条目是相应的乘积和。在关于[[errors and residuals in statistics|误差]]分布的正态性假设下,由于误差的平方和的对应物具有[[Wishart distribution|Wishart分布]]。
== '''假设检验''' ==
首先,定义以下[math]n\times q[/math]矩阵:
* [math]Y[/math]:其中第[math]i[/math]行等于[math]y_i[/math]
* [math]\hat Y[/math]:其中第[math]i[/math]行是给定组成员[math]g(i)[/math]的最佳预测。即组[math]g(i)[/math]中所有观测值的均值:[math]\frac{1}{\text{size of group }g(i)}\sum_{k: g(k)=g(i)}y_k[/math]。
* [math]\bar Y[/math]:其中第[math]i[/math]行是给定无信息时的最佳预测。即所有[math]n[/math]观测值的[[Sample mean and covariance|经验均值]] [math]\frac{1}{n}\sum_{k=1}^n y_k[/math]
然后矩阵[math]S_{\text{model}} := (\hat Y - \bar Y)^T(\hat Y - \bar Y)[/math]是由组解释的平方和的概括,和[math]S_{\text{res}} := (Y - \hat Y)^T(Y - \hat Y)[/math]是[[residual sum of squares|残差平方和]]的概括。<ref name="Anderson1994">{{cite book |last=Anderson |first=T. W. |title=An Introduction to Multivariate Statistical Analysis |year=1994 |publisher=Wiley}}</ref> <ref name="Krzanowski1988">{{cite book |last=Krzanowski |first=W. J. |title=Principles of Multivariate Analysis. A User's Perspective |year=1988 |publisher=Oxford University Press}}</ref>
注意,另一种可能是,当上述矩阵以1/(n-1)缩放时,也可以讨论协方差,因为随后的检验统计量不会因为以相同的非零常数乘以[math]S_{\text{model}}[/math]和[math]S_{\text{res}}[/math]而改变。
最常见的<ref>{{cite web|last=Garson|first=G. David|title=Multivariate GLM, MANOVA, and MANCOVA|url=http://faculty.chass.ncsu.edu/garson/PA765/manova.htm|access-date=2011-03-22}}</ref><ref>{{cite web|last=UCLA: Academic Technology Services, Statistical Consulting Group.|title=Stata Annotated Output – MANOVA|url=http://www.ats.ucla.edu/stat/stata/output/Stata_MANOVA.htm|access-date=2011-03-22}}</ref>统计量是基于矩阵[math]A:= S_{\text{model}}S_{\text{res}}^{-1}[/math]的根(或特征值)[math]\lambda_p[/math]的摘要
* [[Samuel Stanley Wilks]]的[math]\Lambda_\text{Wilks} = \prod_{1,\ldots,p}(1/(1 + \lambda_{p})) = \det(I + A)^{-1} = \det(S_\text{res})/\det(S_\text{res} + S_\text{model})[/math],遵循[[Wilks' lambda distribution|Wilks的λ分布]](Λ)
* [[K. C. Sreedharan Pillai]]–[[M. S. Bartlett]]的[[trace of a matrix|矩阵迹]],[math]\Lambda_\text{Pillai} = \sum_{1,\ldots,p}(\lambda_p/(1 + \lambda_p)) = \operatorname{tr}(A(I + A)^{-1})[/math]<ref>{{cite web|url=http://www.real-statistics.com/multivariate-statistics/multivariate-analysis-of-variance-manova/manova-basic-concepts/|title=MANOVA Basic Concepts – Real Statistics Using Excel|website=www.real-statistics.com|access-date=5 April 2018}}</ref>
* Lawley–[[Harold Hotelling|Hotelling]]迹,[math]\Lambda_\text{LH} = \sum_{1,\ldots,p}(\lambda_{p}) = \operatorname{tr}(A)[/math]
* [[Roy's greatest root]](也称为''Roy的最大根''),[math]\Lambda_\text{Roy} = \max_p(\lambda_p) [/math]
关于每种方法的优点的讨论仍在继续,<ref name="Warne2014" /> 尽管最大根仅导致对显著性的一个界限,这通常不是实际关注的焦点。另一个复杂之处在于,除了Roy的最大根外,这些统计量在[[零假设]]下的分布并不直接,除了少数低维情况外,只能通过近似得到。<ref>Camo http://www.camo.com/multivariate_analysis.html</ref> 在<ref>{{Citation
|last=Chiani | first=M.
|year=2016
|title = 分布矩阵中最大根的分布,用于Roy检验在多元方差分析中
|journal=[[多元分析杂志]]
|volume=143
|pages=467–471
|arxiv=1401.3987v3
| doi=10.1016/j.jmva.2015.10.007
| s2cid=37620291
}}</ref>中推导了Roy的最大根在[[零假设]]下的分布算法,而在<ref>I.M. Johnstone, B. Nadler "在单一等级替代下Roy最大根检验" arXiv预印本 arXiv:1310.6581 (2013)</ref>中研究了在替代假设下的分布。
[[C. R. Rao]]推导出了Wilks' lambda的最著名[[近似值]]。
在两组的情况下,所有统计数据都是等效的,测试简化为[[Hotelling的T平方]]。
== '''引入协变量 (MANCOVA)''' ==
{{main|多元协方差分析}}
人们也可以测试在调整协变量后是否存在组效应。为此,请按照上述程序,但是用[[一般线性模型]]的预测值替换[math]\hat Y[/math],该模型包含组和协变量,并用只包含协变量(和截距)的一般线性模型的预测值替换[math]\bar Y[/math]。然后[math]S_{\text{model}}[/math]是通过添加分组信息而解释的额外平方和,[math]S_{\text{res}}[/math]是包含分组和协变量的模型的残差平方和。<ref name="Krzanowski1988" />
请注意,在不平衡数据的情况下,添加协变量的顺序很重要。
=='''因变量的相关性'''==
[[File:Outcome Variables.jpg|thumb|这是多元方差分析中所需结果变量间关系的图形描述。分析的一部分涉及创建一个复合变量,对照该变量分析独立变量的组别差异。复合变量可能有多个,是结果变量不同组合的结果。然后分析确定哪种组合显示出独立变量最大的组差异。然后使用描述性判别分析作为事后测试,以确定创建最大组差异的复合变量的构成。]]
[[File:MANOVAs and Highly Correlated Dependent Variables.png|thumb|这是MANOVA中两个高度相关因变量效应的简单视觉表示。如果两个(或更多)因变量高度相关,则发生类型I错误的可能性降低,但权衡是MANOVA测试的功效也降低了。]]
MANOVA的功效受因变量之间的相关性和与这些变量相关的效应大小的影响。例如,当有两组和两个因变量时,当相关性等于较小标准化效应大小与较大标准化效应大小的比率时,MANOVA的功效最低。<ref>{{cite journal|last1=Frane|first1=Andrew|title=在多元两组设计中单变量比较的功效和类型I错误控制|journal=多元行为研究|volume=50|issue=2|pages=233–247|date=2015|doi=10.1080/00273171.2014.968836|pmid=26609880|s2cid=1532673 }}</ref>
== '''节点使用的R语言示例代码''' ==
=== 多元方差分析 ===
<syntaxhighlight lang="R">
manova(...)
</syntaxhighlight>
== '''节点使用指南''' ==
* 用于判断多个因变量是否在两个或多个组之间存在差异
* 与单变量ANOVA(分析单个因变量)不同,MANOVA一次分析多个因变量
* 帮助研究者理解变量之间的交互作用以及不同组在多个维度上的表现
=== 方法选择 ===
* 无方法选择
=== 参数配置 ===
* 因变量:选择多个连续型数值变量
* 分组自变量:选择一个或多个分类变量
* 因变量和分组自变量要规避复用
* 此算法兼容空值
=== 注意事项 ===
* 观察结果必须是独立的
* 因变量在每个组内应近似呈正态分布
* 各组的协方差矩阵应该相等
* 因变量之间应存在线性关系
== '''引用''' ==
{{Reflist}}


{{Navplate AlgorithmNodeList}}
{{Navplate AlgorithmNodeList}}


[[Category:方差分析]]
[[Category:方差分析]]

2024年2月8日 (四) 17:51的版本

MANOVA.png
节点状态
Windows / Windows 10 Win10及以上可用
V1.0.2部署
多元方差分析MANOVA.svg
节点开发者决策链算法研发部 (Dev.Team-DPS)
节点英文名MANOVA
功能主类别数据分析
英文缩写MANOVA
功能亚类别方差分析
节点类型数据挖掘
开发语言R
节点简介

多元方差分析是一种多变量统计方法,用于比较两个或多个组之间的平均值是否显著不同。它是单因素方差分析的扩展,其中单个因素(例如治疗方案)有两个或多个水平(例如不同剂量或不同药物)且可能相互关联。在MANOVA中,可以同时考虑多个因变量及变量之间的相互关系,且减少了多个单独的方差分析所需的类型I错误率。

用途:用于同时考察两个或更多的因变量,以及一个或多个自变量对这些因变量的影响。

参数:选择多个数值因变量,和分组自变量。

端口数量与逻辑控制(PC)
Input-入口4个
Output-出口3个
Loop-支持循环
If/Switch-支持逻辑判断
输入输出
可生成图片类型(推荐)
可生成数据表类型(推荐)
相关节点
上一节点球形检验
下一节点One_Way_ANCOVA



统计学中,多元方差分析(MANOVA)是一种比较多元样本均值的程序。作为一种多元程序,当存在两个或更多依赖变量时使用,[1],通常会接着对涉及单独依赖变量的显著性测试。[2]

与图片无关,依赖变量可能是在连续时间点上测量的k个生活满意度得分和p个工作满意度得分。在这种情况下,有k+p个依赖变量,它们的线性组合遵循多元正态分布,多元方差-协方差矩阵的同质性,线性关系,无多重共线性,并且每个都没有离群值。

模型

假设[math]n[/math][math]q[/math]-维观测值,其中第[math]i[/math]个观测值[math]y_i[/math]被分配到组[math]g(i)\in \{1,\dots,m\}[/math]中,并围绕组中心[math]\mu^{(g(i))}\in \mathbb R^q[/math]分布,带有多元高斯噪声:[math display="block"] y_i = \mu^{(g(i))} + \varepsilon_i\quad \varepsilon_i \overset{\text{i.i.d.}}{\sim} \mathcal N_q (0, \Sigma) \quad \text{ for } i=1,\dots, n, [/math]其中[math]\Sigma[/math]是协方差矩阵。然后我们将我们的零假设表述为 [math display="block"]H_0\!:\;\mu^{(1)}=\mu^{(2)}=\dots =\mu^{(m)}.[/math]

与ANOVA的关系

MANOVA是单变量方差分析(ANOVA)的一种泛化形式,[1]尽管与单变量ANOVA不同,它在测试均值差异的统计显著性时使用了结果变量之间的协方差

在单变量方差分析中出现平方和分割的地方,在多元方差分析中出现了某些正定矩阵。对角线条目是单变量ANOVA中出现的同种平方和。非对角线条目是相应的乘积和。在关于误差分布的正态性假设下,由于误差的平方和的对应物具有Wishart分布

假设检验

首先,定义以下[math]n\times q[/math]矩阵:

  • [math]Y[/math]:其中第[math]i[/math]行等于[math]y_i[/math]
  • [math]\hat Y[/math]:其中第[math]i[/math]行是给定组成员[math]g(i)[/math]的最佳预测。即组[math]g(i)[/math]中所有观测值的均值:[math]\frac{1}{\text{size of group }g(i)}\sum_{k: g(k)=g(i)}y_k[/math]。
  • [math]\bar Y[/math]:其中第[math]i[/math]行是给定无信息时的最佳预测。即所有[math]n[/math]观测值的经验均值 [math]\frac{1}{n}\sum_{k=1}^n y_k[/math]

然后矩阵[math]S_{\text{model}} := (\hat Y - \bar Y)^T(\hat Y - \bar Y)[/math]是由组解释的平方和的概括,和[math]S_{\text{res}} := (Y - \hat Y)^T(Y - \hat Y)[/math]是残差平方和的概括。[3] [4] 注意,另一种可能是,当上述矩阵以1/(n-1)缩放时,也可以讨论协方差,因为随后的检验统计量不会因为以相同的非零常数乘以[math]S_{\text{model}}[/math]和[math]S_{\text{res}}[/math]而改变。

最常见的[5][6]统计量是基于矩阵[math]A:= S_{\text{model}}S_{\text{res}}^{-1}[/math]的根(或特征值)[math]\lambda_p[/math]的摘要

  • Samuel Stanley Wilks的[math]\Lambda_\text{Wilks} = \prod_{1,\ldots,p}(1/(1 + \lambda_{p})) = \det(I + A)^{-1} = \det(S_\text{res})/\det(S_\text{res} + S_\text{model})[/math],遵循Wilks的λ分布(Λ)
  • K. C. Sreedharan PillaiM. S. Bartlett矩阵迹,[math]\Lambda_\text{Pillai} = \sum_{1,\ldots,p}(\lambda_p/(1 + \lambda_p)) = \operatorname{tr}(A(I + A)^{-1})[/math][7]
  • Lawley–Hotelling迹,[math]\Lambda_\text{LH} = \sum_{1,\ldots,p}(\lambda_{p}) = \operatorname{tr}(A)[/math]
  • Roy's greatest root(也称为Roy的最大根),[math]\Lambda_\text{Roy} = \max_p(\lambda_p) [/math]

关于每种方法的优点的讨论仍在继续,[1] 尽管最大根仅导致对显著性的一个界限,这通常不是实际关注的焦点。另一个复杂之处在于,除了Roy的最大根外,这些统计量在零假设下的分布并不直接,除了少数低维情况外,只能通过近似得到。[8][9]中推导了Roy的最大根在零假设下的分布算法,而在[10]中研究了在替代假设下的分布。

C. R. Rao推导出了Wilks' lambda的最著名近似值

在两组的情况下,所有统计数据都是等效的,测试简化为Hotelling的T平方

引入协变量 (MANCOVA)

人们也可以测试在调整协变量后是否存在组效应。为此,请按照上述程序,但是用一般线性模型的预测值替换[math]\hat Y[/math],该模型包含组和协变量,并用只包含协变量(和截距)的一般线性模型的预测值替换[math]\bar Y[/math]。然后[math]S_{\text{model}}[/math]是通过添加分组信息而解释的额外平方和,[math]S_{\text{res}}[/math]是包含分组和协变量的模型的残差平方和。[4]

请注意,在不平衡数据的情况下,添加协变量的顺序很重要。

因变量的相关性

文件:Outcome Variables.jpg
这是多元方差分析中所需结果变量间关系的图形描述。分析的一部分涉及创建一个复合变量,对照该变量分析独立变量的组别差异。复合变量可能有多个,是结果变量不同组合的结果。然后分析确定哪种组合显示出独立变量最大的组差异。然后使用描述性判别分析作为事后测试,以确定创建最大组差异的复合变量的构成。
文件:MANOVAs and Highly Correlated Dependent Variables.png
这是MANOVA中两个高度相关因变量效应的简单视觉表示。如果两个(或更多)因变量高度相关,则发生类型I错误的可能性降低,但权衡是MANOVA测试的功效也降低了。

MANOVA的功效受因变量之间的相关性和与这些变量相关的效应大小的影响。例如,当有两组和两个因变量时,当相关性等于较小标准化效应大小与较大标准化效应大小的比率时,MANOVA的功效最低。[11]

节点使用的R语言示例代码

多元方差分析

manova(...)

节点使用指南

  • 用于判断多个因变量是否在两个或多个组之间存在差异
  • 与单变量ANOVA(分析单个因变量)不同,MANOVA一次分析多个因变量
  • 帮助研究者理解变量之间的交互作用以及不同组在多个维度上的表现

方法选择

  • 无方法选择

参数配置

  • 因变量:选择多个连续型数值变量
  • 分组自变量:选择一个或多个分类变量
  • 因变量和分组自变量要规避复用
  • 此算法兼容空值

注意事项

  • 观察结果必须是独立的
  • 因变量在每个组内应近似呈正态分布
  • 各组的协方差矩阵应该相等
  • 因变量之间应存在线性关系

引用

  1. 1.0 1.1 1.2 Warne, R. T. (2014). "A primer on multivariate analysis of variance (MANOVA) for behavioral scientists". Practical Assessment, Research & Evaluation. 19 (17): 1–10.
  2. Stevens, J. P. (2002). Applied multivariate statistics for the social sciences. Mahwah, NJ: Lawrence Erblaum.
  3. Anderson, T. W. (1994). An Introduction to Multivariate Statistical Analysis. Wiley.
  4. 4.0 4.1 Krzanowski, W. J. (1988). Principles of Multivariate Analysis. A User's Perspective. Oxford University Press.
  5. Garson, G. David. "Multivariate GLM, MANOVA, and MANCOVA". Retrieved 2011-03-22.
  6. UCLA: Academic Technology Services, Statistical Consulting Group. "Stata Annotated Output – MANOVA". Retrieved 2011-03-22.
  7. "MANOVA Basic Concepts – Real Statistics Using Excel". www.real-statistics.com. Retrieved 5 April 2018.
  8. Camo http://www.camo.com/multivariate_analysis.html
  9. Chiani, M. (2016), "分布矩阵中最大根的分布,用于Roy检验在多元方差分析中", 多元分析杂志, 143: 467–471, arXiv:1401.3987v3, doi:10.1016/j.jmva.2015.10.007, S2CID 37620291
  10. I.M. Johnstone, B. Nadler "在单一等级替代下Roy最大根检验" arXiv预印本 arXiv:1310.6581 (2013)
  11. Frane, Andrew (2015). "在多元两组设计中单变量比较的功效和类型I错误控制". 多元行为研究. 50 (2): 233–247. doi:10.1080/00273171.2014.968836. PMID 26609880. S2CID 1532673.

查找其他类别的节点,请参考以下列表