Zeroclanzhang(讨论 | 贡献) 无编辑摘要 |
Zeroclanzhang(讨论 | 贡献) 无编辑摘要 |
||
第27行: | 第27行: | ||
|nextnode=[[Two_Way_ANOVA]] | |nextnode=[[Two_Way_ANOVA]] | ||
}} | }} | ||
== ''' | == '''One Way ANOVA'''的概念(英语:Analysis of variance,简称'''ANOVA''') == | ||
在[[统计学]]中,'''单因素方差分析'''(或'''单向ANOVA''')是一种技术,用于比较两个样本的均值是否有显著差异(使用[[F分布]])。这种[[方差分析]]技术需要一个数值型[[因变量和自变量|响应]]变量“Y”和一个单一的解释变量“X”,因此称为“单向”。<ref name="Howell 2002 324–325">{{cite book |title=统计方法心理学 |last=Howell |first=David |year=2002 |publisher=Duxbury |isbn=0-534-37770-X |pages=[https://archive.org/details/statisticalmetho0000howe/page/324 324–325] |url=https://archive.org/details/statisticalmetho0000howe/page/324 }}</ref> | |||
ANOVA检验[[零假设]],该假设指出所有组中的样本均来自具有相同均值的总体。为此,需要对总体方差进行两次估计。这些估计依赖于各种假设([[#假设|见下文]])。ANOVA产生一个F统计量,即组间均值的方差与样本内方差的比率。如果组均值来自具有相同均值的总体,则组间均值的方差应低于样本的方差,根据[[中心极限定理]]。因此,较高的比率意味着样本来自具有不同均值的总体。<ref name="Howell 2002 324–325"/> | |||
然而,通常情况下,单向ANOVA用于测试至少三组之间的差异,因为两组情况可以用[[t检验]]来涵盖(Gosset,1908)。当只有两个均值进行比较时,[[t检验]]和[[F检验]]是等效的;ANOVA和''t''之间的关系由''F'' = ''t''<sup>2</sup>给出。单向ANOVA的一个扩展是[[双因素方差分析]],它检验两个不同分类自变量对一个因变量的影响。 | |||
==假设== | |||
只要满足以下假设,单向ANOVA的结果可以被认为是可靠的: | |||
响应变量[[统计学中的误差和残差|残差]]是[[正态分布]](或近似正态分布)。 | |||
总体的方差相等。 | |||
给定组的响应是[[独立同分布]]的正态随机变量(不是[[简单随机样本]](SRS))。 | |||
如果数据是[[序数尺度]],则应 | |||
使用此类测试的非参数替代方法,例如[[Kruskal-Wallis单因素方差分析]]。如果方差未知是否相等,可以使用2样本[[Welch's t检验]]的推广。<ref name="Welch1951">{{cite journal|last1=Welch|first1=B. L.|title=比较多个均值的一种替代方法|journal=Biometrika|date=1951|volume=38|issue=3/4|pages=330–336|doi=10.2307/2332579|jstor=2332579}}</ref> | |||
=== | ===偏离总体正态性=== | ||
ANOVA是一种相对稳健的程序,对正态性假设的违反相对宽容。<ref name=Kirk>{{cite book |first=RE |last=Kirk |year=1995 |title=行为科学的实验设计程序 |url=https://archive.org/details/experimentaldesi00roge |url-access=registration |edition=3 |location=Pacific Grove, CA, USA |publisher=Brooks/Cole}}</ref> | |||
单向ANOVA可以推广到因子和多变量布局,以及协方差分析。 | |||
流行文献中经常提到,当每个总体违反严重遵循[[正态分布]]的假设时,这些''F''检验都不是[[稳健统计|稳健的]],尤其是在小阿尔法水平和不平衡布局下。[1] 此外,还有观点认为,如果违反了[[同方差性]]的基本假设,[[第一类错误]]的性质会更严重地退化。[2] | |||
然而,这是一个基于20世纪50年代及更早期工作的误解。第一次对这个问题进行全面调查的蒙特卡洛模拟是Donaldson (1966)。[3] 他展示了在通常的偏差下(正偏态,不等方差),“''F''检验是保守的”,因此它找到一个变量是显著的可能性比它应该的要小。然而,随着样本量或单元数的增加,“功效曲线似乎趋于基于正态分布的那一条”。Tiku (1971) 发现,“非正态理论下的''F''的功效与正态理论功效的差异可以通过一个随着样本量增加而急剧减小的修正项来解释。”[4] 非正态性的问题,特别是在大样本中,远没有流行文章所暗示的那么严重。 | |||
[ | 目前的观点是,“蒙特卡洛研究广泛用于基于正态分布的测试,以确定它们对分析变量在总体中正态分布的假设违规的敏感程度。这些研究的总结是,这类违规的后果没有之前认为的那么严重。尽管这些结论不应完全阻止任何人对正态性假设持怀疑态度,但它们提高了所有研究领域中分布依赖统计测试的整体受欢迎程度。”[5] | ||
对于因子布局中的非参数替代方法,请参见Sawilowsky。[6] 有关更多讨论,请参见[[秩上的方差分析]]。 | |||
==固定效应、完全随机实验、不平衡数据情形== | |||
===模型=== | |||
正态线性模型描述的是具有不同均值的相同钟形(正态)曲线的处理组的概率分布。因此,拟合模型只需要每个处理组的均值和方差计算(使用治疗组内的平均方差)。作 | |||
为了提供更加准确的翻译,我需要继续翻译剩余的部分: | |||
的假设检验。 | |||
通常用于完全随机实验的正态线性模型是:[7] | |||
=== | ==固定效应、完全随机实验、不平衡数据情形== | ||
===模型=== | |||
正态线性模型描述了处理组的概率分布,它们是形状相同(正态)的曲线,但具有不同的均值。因此,拟合模型只需要每个处理组的均值和一个方差计算(使用治疗组内的平均方差)。假设检验中包括计算均值和方差的步骤。 | |||
通常用于完全随机实验的正态线性模型有:[8] | |||
这部分内容详细讨论了F检验的稳健性问题、对于非正态数据的F检验的功效,以及目前对这些问题的看法。还提到了非参数替代方法和ANOVA在秩上的讨论。最后,它讨论了固定效应、完全随机实验、不平衡数据的情形下的正态线性模型。 | |||
== '''节点使用的R语言示例代码''' == | == '''节点使用的R语言示例代码''' == |
2024年1月15日 (一) 10:46的版本
节点状态 | PC可用
在 V1.0部署
|
---|---|
One_Way_ANOVA | |
节点开发者 | 决策链算法研发部 (Dev.Team-DPS) |
节点英文名 | One Way ANOVA |
功能主类别 | 数据分析 |
英文缩写 | One Way ANOVA |
功能亚类别 | 方差分析 |
节点类型 | 数据挖掘 |
开发语言 | R |
节点简介 | |
One Way ANOVA也称为单因素方差分析, 是用来检验多个平均数之间的差异, 从而确定因素对试验结果有无显著性影响。单因素则是实验中只选择一个因素。方差分析需要满足以下条件: 观察变量为连续变量且不存在显著的异常值,观测值相互独立且需要为两组以上变量, 各组观测值必须为或接近正态分布,多组整体方差相等。 用途:用于研究一个因素(或独立变量)在不同水平上对一个因变量的影响是否显著,也就是检验三个或更多组的平均值是否相等。如果你只有两个组,通常会使用t检验,但如果有三个或更多的组,那么应该使用ANOVA。 参数:选择正态分布数值因变量,和分组自变量 | |
端口数量与逻辑控制(PC) | |
Input-入口 | 4个 |
Output-出口 | 3个 |
Loop-支持循环 | 是 |
If/Switch-支持逻辑判断 | 否 |
输入输出 | |
相关节点 | |
上一节点 | F检验 |
下一节点 | Two_Way_ANOVA |
One Way ANOVA的概念(英语:Analysis of variance,简称ANOVA)
在统计学中,单因素方差分析(或单向ANOVA)是一种技术,用于比较两个样本的均值是否有显著差异(使用F分布)。这种方差分析技术需要一个数值型响应变量“Y”和一个单一的解释变量“X”,因此称为“单向”。[1]
ANOVA检验零假设,该假设指出所有组中的样本均来自具有相同均值的总体。为此,需要对总体方差进行两次估计。这些估计依赖于各种假设(见下文)。ANOVA产生一个F统计量,即组间均值的方差与样本内方差的比率。如果组均值来自具有相同均值的总体,则组间均值的方差应低于样本的方差,根据中心极限定理。因此,较高的比率意味着样本来自具有不同均值的总体。[1]
然而,通常情况下,单向ANOVA用于测试至少三组之间的差异,因为两组情况可以用t检验来涵盖(Gosset,1908)。当只有两个均值进行比较时,t检验和F检验是等效的;ANOVA和t之间的关系由F = t2给出。单向ANOVA的一个扩展是双因素方差分析,它检验两个不同分类自变量对一个因变量的影响。
假设
只要满足以下假设,单向ANOVA的结果可以被认为是可靠的:
响应变量残差是正态分布(或近似正态分布)。 总体的方差相等。 给定组的响应是独立同分布的正态随机变量(不是简单随机样本(SRS))。 如果数据是序数尺度,则应 使用此类测试的非参数替代方法,例如Kruskal-Wallis单因素方差分析。如果方差未知是否相等,可以使用2样本Welch's t检验的推广。[2]
偏离总体正态性
ANOVA是一种相对稳健的程序,对正态性假设的违反相对宽容。[3]
单向ANOVA可以推广到因子和多变量布局,以及协方差分析。
流行文献中经常提到,当每个总体违反严重遵循正态分布的假设时,这些F检验都不是稳健的,尤其是在小阿尔法水平和不平衡布局下。[1] 此外,还有观点认为,如果违反了同方差性的基本假设,第一类错误的性质会更严重地退化。[2]
然而,这是一个基于20世纪50年代及更早期工作的误解。第一次对这个问题进行全面调查的蒙特卡洛模拟是Donaldson (1966)。[3] 他展示了在通常的偏差下(正偏态,不等方差),“F检验是保守的”,因此它找到一个变量是显著的可能性比它应该的要小。然而,随着样本量或单元数的增加,“功效曲线似乎趋于基于正态分布的那一条”。Tiku (1971) 发现,“非正态理论下的F的功效与正态理论功效的差异可以通过一个随着样本量增加而急剧减小的修正项来解释。”[4] 非正态性的问题,特别是在大样本中,远没有流行文章所暗示的那么严重。
目前的观点是,“蒙特卡洛研究广泛用于基于正态分布的测试,以确定它们对分析变量在总体中正态分布的假设违规的敏感程度。这些研究的总结是,这类违规的后果没有之前认为的那么严重。尽管这些结论不应完全阻止任何人对正态性假设持怀疑态度,但它们提高了所有研究领域中分布依赖统计测试的整体受欢迎程度。”[5]
对于因子布局中的非参数替代方法,请参见Sawilowsky。[6] 有关更多讨论,请参见秩上的方差分析。
固定效应、完全随机实验、不平衡数据情形
模型
正态线性模型描述的是具有不同均值的相同钟形(正态)曲线的处理组的概率分布。因此,拟合模型只需要每个处理组的均值和方差计算(使用治疗组内的平均方差)。作
为了提供更加准确的翻译,我需要继续翻译剩余的部分:
的假设检验。
通常用于完全随机实验的正态线性模型是:[7]
固定效应、完全随机实验、不平衡数据情形
模型
正态线性模型描述了处理组的概率分布,它们是形状相同(正态)的曲线,但具有不同的均值。因此,拟合模型只需要每个处理组的均值和一个方差计算(使用治疗组内的平均方差)。假设检验中包括计算均值和方差的步骤。
通常用于完全随机实验的正态线性模型有:[8]
这部分内容详细讨论了F检验的稳健性问题、对于非正态数据的F检验的功效,以及目前对这些问题的看法。还提到了非参数替代方法和ANOVA在秩上的讨论。最后,它讨论了固定效应、完全随机实验、不平衡数据的情形下的正态线性模型。
节点使用的R语言示例代码
配对样本
library(onewaytests)
out <- aov.test(Sepal.Length ~ Species, data = iris)
paircomp(out)
paircomp(out, adjust.method = "hochberg")
out2 <- kw.test(Sepal.Length ~ Species, data = iris)
paircomp(out2)
paircomp(out2, adjust.method = "hommel")
out3 <- kw.test(Sepal.Length ~ Species, data = iris)
paircomp(out3)
paircomp(out3, adjust.method = "holm")
方法参见R package: onewaytests的官方文档[4]
Anova
library(onewaytests)
aov.test(Sepal.Length ~ Species, data = iris)
out <- aov.test(Sepal.Length ~ Species, data = iris)
paircomp(out)
方法参见R package: onewaytests的官方文档[5]
节点使用指南
方法选择
对方法选择要点和关键事项进行表述。重点在于实用性。
参数配置
对参数配置中的一些关键点进行表述(比如变量类型、是否兼容空值、是否要规避复用等,比如立方条样变量不能和自变量重复等)。
注意事项
对注意事项进行表述。
视频链接
请前往视频号观看详细的使用指导。 点此链接
另行参见
引用
- ↑ 1.0 1.1 Howell, David (2002). 统计方法心理学. Duxbury. pp. 324–325. ISBN 0-534-37770-X.
- ↑ Welch, B. L. (1951). "比较多个均值的一种替代方法". Biometrika. 38 (3/4): 330–336. doi:10.2307/2332579. JSTOR 2332579.
- ↑ Kirk, RE (1995). 行为科学的实验设计程序 (3 ed.). Pacific Grove, CA, USA: Brooks/Cole.
- ↑ https://CRAN.R-project.org/package=onewaytests. 决策链云智库. Retrieved 2023.12.20
- ↑ https://CRAN.R-project.org/package=onewaytests. 决策链云智库. Retrieved 2023.12.20
查找其他类别的节点,请参考以下列表