节点状态 | / Win10及以上可用
在V1.0部署
|
---|---|
One_Way_ANOVA | |
节点开发者 | 决策链算法研发部 (Dev.Team-DPS) |
节点英文名 | One Way ANOVA |
功能主类别 | 数据分析 |
英文缩写 | ANOVAO |
功能亚类别 | 方差分析 |
节点类型 | 数据挖掘 |
开发语言 | R |
节点简介 | |
One Way ANOVA也称为单因素方差分析, 是用来检验多个平均数之间的差异, 从而确定因素对试验结果有无显著性影响。单因素则是实验中只选择一个因素。方差分析需要满足以下条件: 观察变量为连续变量且不存在显著的异常值,观测值相互独立且需要为两组以上变量, 各组观测值必须为或接近正态分布,多组整体方差相等。 用途:用于研究一个因素(或独立变量)在不同水平上对一个因变量的影响是否显著,也就是检验三个或更多组的平均值是否相等。如果你只有两个组,通常会使用t检验,但如果有三个或更多的组,那么应该使用ANOVA。 参数:选择正态分布数值因变量,和分组自变量 | |
端口数量与逻辑控制(PC) | |
Input-入口 | 4个 |
Output-出口 | 3个 |
Loop-支持循环 | 是 |
If/Switch-支持逻辑判断 | 否 |
输入输出 | |
相关节点 | |
上一节点 | F检验 |
下一节点 | Two_Way_ANOVA |
One Way ANOVA的概念(英语:Analysis of variance,简称ANOVA)
在统计学中,单因素方差分析(或单向ANOVA)是一种技术,用于比较两个样本的平均值是否存在显著差异(使用F分布)。这种方差分析技术要求一个数值型响应变量"Y"和一个单一的解释变量"X",因此称为"单向"。[1]
ANOVA测试零假设,该假设声明所有组中的样本均来自具有相同平均值的总体。为此,需要对总体方差进行两次估计。这些估计依赖于各种假设(见下文)。ANOVA产生一个F统计量,即组间平均值计算的方差与样本内方差的比值。如果组平均值来自具有相同平均值的总体,那么组间平均值的方差应该低于样本的方差,根据中心极限定理。因此,较高的比值意味着样本来自具有不同平均值的总体。[1]
然而,通常情况下,单向ANOVA用于测试至少三个组之间的差异,因为两组的情况可以通过t检验(Gosset, 1908)覆盖。当只有两个平均值需要比较时,t检验和F检验是等价的;ANOVA与t之间的关系由F = t2给出。单向ANOVA的一个扩展是双因素方差分析,它考察了两个不同分类自变量对一个因变量的影响。
假设
只要满足以下假设,单向ANOVA的结果可以被认为是可靠的:
- 响应变量残差呈正态分布(或近似正态分布)。
- 总体的方差相等。
- 给定组的响应是独立同分布的正态随机变量(而不是简单随机样本(SRS))。
- 如果数据是顺序的,应使用这个测试的非参数替代方法,如克鲁斯卡尔-沃利斯单向方差分析。
- 如果方差未知是否相等,可以使用2样本韦尔奇t检验的泛化版本。[2]
偏离总体正态性
ANOVA是一个相对健壮的程序,对于违反正态性假设具有一定的容忍度。[3]
单向ANOVA可以推广到因子和多变量布局,以及协方差分析。
通常在流行文献中提到,当每个总体遵循正态分布的假设被严重违反时,这些F检验都不是健壮的,特别是对于小的阿尔法水平和不平衡的布局。[4] 此外,还有人声称,如果违反了同方差性的基本假设,I型错误的特性会严重恶化。[5]
然而,这是一个误解,基于20世纪50年代及更早期的工作。第一次全面调查这个问题的蒙特卡罗模拟是Donaldson(1966年)所作。[6] 他表明,在通常的偏差(正偏态,不等方差)下,“F-检验是保守的”,因此它找到一个变量显著性的可能性比它应该的要小。然而,随着样本量或单元数的增加,“功效曲线似乎趋于基于正态分布的那种”。Tiku(1971)发现,“F的非正态理论功效与正态理论功效的差异,可以通过一个随着样本量增加而急剧减少的修正项来表示。”[7] 非正态性问题,尤其是在大样本中,远没有流行文章所暗示的那么严重。
目前的观点是,“蒙特卡罗研究广泛用于基于正态分布的检验,以确定它们对违反被分析变量在人群中的正态分布假设的敏感性。这些研究的总体结论是,这种违反的后果不如以前认为的那样严重。虽然这些结论不应该完全阻止任何人关注正态性假设,但它们增加了所有研究领域中对分布依赖的统计检验的总体受欢迎程度。”[8]
关于因子布局中的非参数替代方法,请参见Sawilowsky。[9]
固定效应、完全随机实验、非平衡数据的情况
模型
正态线性模型描述的是具有不同均值的概率分布,这些分布都是形状相同的钟形(正态)曲线。因此,拟合模型只需要每个处理组的均值和方差计算(使用处理组内的平均方差)。作为假设检验的一部分,会进行均值和方差的计算。
对于一个完全随机实验,常用的正态线性模型包括:[10]
- [math]y_{i,j}=\mu_j+\varepsilon_{i,j}[/math] (均值模型)
或者
- [math]y_{i,j}=\mu+\tau_j+\varepsilon_{i,j}[/math] (效应模型)
其中
- [math]i=1,\dotsc,I[/math] 是实验单元的索引
- [math]j=1,\dotsc,J[/math] 是处理组的索引
- [math]I_j[/math] 是第j个处理组中的实验单元数量
- [math]I = \sum_j I_j[/math] 是实验单元的总数
- [math]y_{i,j}[/math] 是观察值
- [math]\mu_j[/math] 是第j个处理组观察值的均值
- [math]\mu[/math] 是所有观察值的总均值
- [math]\tau_j[/math] 是第j个处理效应,即偏离总均值的差异
- [math]\sum\tau_j=0[/math]
- [math]\mu_j=\mu+\tau_j[/math]
- [math]\varepsilon \thicksim N(0, \sigma^2)[/math], [math]\varepsilon_{i,j}[/math] 是正态分布的零均值随机误差。
关于实验单元的索引 [math]i[/math] 可以有几种解释。在一些实验中,相同的实验单元会受到一系列处理;[math]i[/math] 可能指的是一个特定的单元。在其他实验中,每个处理组都有一组不同的实验单元;[math]i[/math] 可能仅仅是指向第 [math]j[/math] 个列表的索引。
数据和数据的统计汇总
一种组织实验观察值 [math]y_{ij}[/math] 的形式是将组放在列中:
Lists of Group Observations | ||||||||
---|---|---|---|---|---|---|---|---|
[math]I_{1}[/math] | [math]I_{2}[/math] | [math]I_{3}[/math] | [math]\dotso[/math] | [math]I_{j}[/math] | ||||
1 | [math]y_{11}[/math] | [math]y_{12}[/math] | [math]y_{13}[/math] | [math]y_{1j}[/math] | ||||
2 | [math]y_{21}[/math] | [math]y_{22}[/math] | [math]y_{23}[/math] | [math]y_{2j}[/math] | ||||
3 | [math]y_{31}[/math] | [math]y_{32}[/math] | [math]y_{33}[/math] | [math]y_{3j}[/math] | ||||
[math]\vdots[/math] | [math]\vdots[/math] | |||||||
[math]i[/math] | [math]y_{i1}[/math] | [math]y_{i2}[/math] | [math]y_{i3}[/math] | [math]\dotso[/math] | [math]y_{ij}[/math] | |||
Group Summary Statistics | Grand Summary Statistics | |||||||
# Observed | [math]I_1[/math] | [math]I_2[/math] | [math]\dotso[/math] | [math]I_j[/math] | [math]\dotso[/math] | [math]I_J[/math] | # Observed | [math]I = \sum I_j[/math] |
Sum | [math]\sum_i y_{ij}[/math] | Sum | [math]\sum_j \sum_i y_{ij}[/math] | |||||
Sum Sq | [math]\sum_i (y_{ij})^2[/math] | Sum Sq | [math]\sum_j \sum_i (y_{ij})^2[/math] | |||||
Mean | [math]m_1[/math] | [math]\dotso[/math] | [math]m_j[/math] | [math]\dotso[/math] | [math]m_J[/math] | Mean | [math]m[/math] | |
Variance | [math]s_1^2[/math] | [math]\dotso[/math] | [math]s_j^2[/math] | [math]\dotso[/math] | [math]s_J^2[/math] | Variance | [math]s^2[/math] |
比较模型和总结: [math]\mu = m[/math] 和 [math]\mu_j = m_j[/math]。总均值和总方差是根据总和计算的,而不是根据组均值和方差计算的。
假设检验
给定总结统计数据,假设检验的计算以表格形式展示。虽然展示了两列SS以说明它们的解释价值,但只需要一列来展示结果。
Source of variation | Sums of squares | Sums of squares | Degrees of freedom | Mean square | F |
---|---|---|---|---|---|
Explanatory SS[11] | Computational SS[12] | DF | MS | ||
Treatments | [math]\sum_{Treatments} I_j (m_j-m)^2[/math] | [math]\sum_j \frac{(\sum_i y_{ij})^2}{I_j} - \frac{(\sum_j \sum_i y_{ij})^2}{I}[/math] | [math]J-1[/math] | [math]\frac{SS_{Treatment}}{DF_{Treatment}}[/math] | [math]\frac{MS_{Treatment}}{MS_{Error}}[/math] |
Error | [math]\sum_{Treatments} (I_j-1)s_j^2[/math] | [math]\sum_j \sum_i y_{ij}^2 - \sum_j \frac{(\sum_i y_{ij})^2}{I_j}[/math] | [math]I-J[/math] | [math]\frac{SS_{Error}}{DF_{Error}}[/math] | |
Total | [math]\sum_{Observations} (y_{ij}-m)^2[/math] | [math]\sum_j \sum_i y_{ij}^2 - \frac{(\sum_j \sum_i y_{ij})^2}{I}[/math] | [math]I-1[/math] |
[math]MS_{Error}[/math] 是对模型中 [math]\sigma^2[/math] 的方差估计。
分析总结
核心ANOVA分析包括一系列计算。数据以表格形式收集。然后
- 每个处理组通过实验单元的数量、两个总和、一个均值和一个方差来进行总结。处理组总结合并以提供单位总数和总和。总均值和总方差是根据总和计算的。模型中使用处理和总均值。
- 从总结中计算出三个DF和SS。然后计算MS,比值决定F。
- 计算机通常根据F确定一个p值,以确定处理是否产生显著不同的结果。如果结果显著,那么模型暂时有效。
如果实验是平衡的,所有的 [math]I_j[/math] 项都相等,所以SS方程简化了。
在更复杂的实验中,如果实验单元(或环境效应)不是均质的,行统计也用于分析。模型包括依赖于 [math]i[/math] 的项。确定额外项会减少可用的自由度数量。
节点使用的R语言示例代码
One Way ANOVA
aov_ez(
id,
dv,
data,
between = NULL,
within = NULL,
covariate = NULL,
observed = NULL,
type = afex_options("type"),
factorize = afex_options("factorize"),
return = afex_options("return_aov")
)
方法参见R package: afex的官方文档
节点使用指南
- 用于比较三个或更多独立组的均值是否存在显著差异
- 该方法假设样本来自服从正态分布的总体,并且各总体具有相同的方差
- 零假设(H0):所有组的总体均值相等。
方法选择
- 无方法选择
参数配置
- 因变量:选择正态分布连续型数值变量。如果选择多个,每个变量做一次ANOVA
- 分组自变量:选择一个分类分组变量
- 筛选阈值:选择需要的P值阈值,节点会自动将满足阈值的变量筛选出,数据集也会同步筛选出满足的变量。
- 因变量和分组自变量要规避复用
- 此算法兼容空值
注意事项
- 数据应接近正态分布
- 组间方差应该相等(方差同质性)
- 数据应该是独立的,即一个数据点的值不应该影响另一个
- 最好每个组的样本量相似。较大的样本量差异可能会影响方差分析的结果
引用
- ↑ 1.0 1.1 Howell, David (2002). Statistical Methods for Psychology. Duxbury. pp. 324–325. ISBN 0-534-37770-X.
- ↑ Welch, B. L. (1951). "On the Comparison of Several Mean Values: An Alternative Approach". Biometrika. 38 (3/4): 330–336. doi:10.2307/2332579. JSTOR 2332579.
- ↑ Kirk, RE (1995). Experimental Design: Procedures For The Behavioral Sciences (3 ed.). Pacific Grove, CA, USA: Brooks/Cole.
- ↑ Blair, R. C. (1981). "A reaction to 'Consequences of failure to meet assumptions underlying the fixed effects analysis of variance and covariance.'". Review of Educational Research. 51 (4): 499–507. doi:10.3102/00346543051004499.
- ↑ Randolf, E. A.; Barcikowski, R. S. (1989). "Type I error rate when real study values are used as population parameters in a Monte Carlo study". Paper Presented at the 11th Annual Meeting of the Mid-Western Educational Research Association, Chicago.
- ↑ Donaldson, Theodore S. (1966). "Power of the F-Test for Nonnormal Distributions and Unequal Error Variances". Paper Prepared for United States Air Force Project RAND.
- ↑ Tiku, M. L. (1971). "Power Function of the F-Test Under Non-Normal Situations". Journal of the American Statistical Association. 66 (336): 913–916. doi:10.1080/01621459.1971.10482371.
- ↑ "Getting Started with Statistics Concepts". Archived from the original on 2018-12-04. Retrieved 2016-09-22.
- ↑ Sawilowsky, S. (1990). "Nonparametric tests of interaction in experimental design". Review of Educational Research. 60 (1): 91–126. doi:10.3102/00346543060001091.
- ↑ Montgomery, Douglas C. (2001). Design and Analysis of Experiments (5th ed.). New York: Wiley. p. Section 3–2. ISBN 9780471316497.
- ↑ Moore, David S.; McCabe, George P. (2003). Introduction to the Practice of Statistics (4th ed.). W H Freeman & Co. p. 764. ISBN 0716796570.
- ↑ Winkler, Robert L.; Hays, William L. (1975). Statistics: Probability, Inference, and Decision (2nd ed.). New York: Holt, Rinehart and Winston. p. 761.
查找其他类别的节点,请参考以下列表