One Way ANOVA:修订间差异

来自决策链云智库
无编辑摘要
标签手工回退
无编辑摘要
 
(未显示1个用户的17个中间版本)
第5行: 第5行:
|simpleicon=One Way ANOVA_Pure.svg
|simpleicon=One Way ANOVA_Pure.svg
|developer=Dev.Team-DPS
|developer=Dev.Team-DPS
|productionstate=PC可用
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[DecisionLinnc | V1.0]]部署
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=[[Has english name::One Way ANOVA]]
|nodeenglishname=One Way ANOVA
|abbreviation=[[Has abbreviation::ANOVAO]]
|abbreviation=ANOVAO
|funcmaincategory=数据分析
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
第18行: 第18行:
|nodeloopsupport=是
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=Rain_Cloud;SpittingPointLinePlot
|nodeavailableplotlist=Rain_Cloud;SpittingPointLinePlot;SplittingNephelogram
|nodeavailabletablelist=Table_For_Downstream
|nodeavailabletablelist=df;MSE;F-Value;PES;P-Value
|nodeconfiguration=VariableList;DropManu
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
第27行: 第27行:
|nextnode=[[Two_Way_ANOVA]]
|nextnode=[[Two_Way_ANOVA]]
}}
}}
== '''方差分析的概念'''(英语:Analysis of variance,简称'''ANOVA''') ==
== '''One Way ANOVA'''的概念(英语:Analysis of variance,简称'''ANOVA''') ==
为数据分析中常见的统计模型,主要为探讨连续型(Continuous)资料型态之因变量(Dependent variable)与类别型资料型态之自变量(Independent variable)的关系,当自变项的因子中包含等于或超过三个类别情况下,检验其各类别间平均数是否相等的统计模式,广义上可将T检验中方差相等(Equality of variance)的合并T检验(Pooled T-test)视为是方差分析的一种,基于T检验为分析两组平均数是否相等,并且采用相同的计算概念,而实际上当方差分析套用在合并T检验的分析上时,产生的F值则会等于T检验的平方项。
在[[统计学]]中,'''单因素方差分析'''(或'''单向ANOVA''')是一种技术,用于比较两个样本的平均值是否存在显著差异(使用[[F分布]])。这种[[方差分析]]技术要求一个数值型[[因变量和自变量|响应]]变量"Y"和一个单一的解释变量"X",因此称为"单向"。<ref name="Howell 2002 324–325">{{cite book |title=Statistical Methods for Psychology |last=Howell |first=David |year=2002 |publisher=Duxbury |isbn=0-534-37770-X |pages=[https://archive.org/details/statisticalmetho0000howe/page/324 324–325] |url=https://archive.org/details/statisticalmetho0000howe/page/324 }}</ref>


方差分析依靠F-分布为概率分布的依据,利用平方和(Sum of square)与自由度(Degree of freedom)所计算的组间与组内均方(Mean of square)估计出F值,若有显著差异则考量进行事后比较或称多重比较(Multiple comparison),较常见的为薛费法(事后比较法)、杜其范围检验与邦费罗尼校正,用于探讨其各组之间的差异为何。<ref>{{CiteStatsape|url=https://pubmed.ncbi.nih.gov/paper2023|text=文章题目|accessdate=2023.12.12}}</ref>
ANOVA测试[[零假设]],该假设声明所有组中的样本均来自具有相同平均值的总体。为此,需要对总体方差进行两次估计。这些估计依赖于各种假设([[#假设|见下文]])。ANOVA产生一个F统计量,即组间平均值计算的方差与样本内方差的比值。如果组平均值来自具有相同平均值的总体,那么组间平均值的方差应该低于样本的方差,根据[[中心极限定理]]。因此,较高的比值意味着样本来自具有不同平均值的总体。<ref name="Howell 2002 324–325"/>


在方差分析的基本运算概念下,依照所感兴趣的因子数量而可分为单因子方差分析、双因子方差分析、多因子方差分析三大类,依照因子的特性不同而有三种型态,固定效应方差分析(fixed-effect analysis of variance)、随机效应方差分析(random-effect analysis of variance)与混合效应方差分析(Mixed-effect analaysis of variance),然而第三种型态在后期发展上被认为是Mixed model的分支,关于更进一步的探讨可参考Mixed model的部分。
然而,通常情况下,单向ANOVA用于测试至少三个组之间的差异,因为两组的情况可以通过[[t检验]](Gosset, 1908)覆盖。当只有两个平均值需要比较时,[[t检验]]和[[F检验]]是等价的;ANOVA与''t''之间的关系由''F''&nbsp;=&nbsp;''t''<sup>2</sup>给出。单向ANOVA的一个扩展是[[双因素方差分析]],它考察了两个不同分类自变量对一个因变量的影响。


方差分析优于两组比较的T检验之处,在于后者会导致多重比较(multiple comparisons)的问题而致使第一型错误(Type one error)的机会增高,'''因此比较多组平均数是否有差异则是方差分析的主要命题'''
===假设===
只要满足以下假设,单向ANOVA的结果可以被认为是可靠的:
* 响应变量[[统计学中的误差和残差|残差]]呈[[正态分布]](或近似正态分布)。
* 总体的方差相等。
* 给定组的响应是[[独立同分布]]的正态随机变量(而不是[[简单随机样本]](SRS))。
* 如果数据是[[顺序量表|顺序的]],应使用这个测试的非参数替代方法,如[[克鲁斯卡尔-沃利斯单向方差分析]]
* 如果方差未知是否相等,可以使用2样本[[韦尔奇t检验]]的泛化版本。<ref name="Welch1951">{{cite journal|last1=Welch|first1=B. L.|title=On the Comparison of Several Mean Values: An Alternative Approach|journal=Biometrika|date=1951|volume=38|issue=3/4|pages=330–336|doi=10.2307/2332579|jstor=2332579}}</ref>


在统计学中,'''方差分析'''('''ANOVA''')是一系列统计模型及其相关的过程总称,其中某一变量的方差可以分解为归属于不同变量来源的部分。其中最简单的方式中,方差分析的统计测试能够说明几组数据的平均值是否相等,因此得到两组的T检验。在做多组双变量T检验的时候,错误的概率会越来越大,特别是第一类错误,因此方差分析只在二到四组平均值的时候比较有效。
====偏离总体正态性====
ANOVA是一个相对健壮的程序,对于违反正态性假设具有一定的容忍度。<ref name=Kirk>{{cite book |first=RE |last=Kirk |year=1995 |title=Experimental Design: Procedures For The Behavioral Sciences |url=https://archive.org/details/experimentaldesi00roge |url-access=registration |edition=3 |location=Pacific Grove, CA, USA |publisher=Brooks/Cole}}</ref>


=== '''ANOVA的模式假设''' ===
单向ANOVA可以推广到因子和多变量布局,以及协方差分析。
方差分析之统计分析假设通常会依照各种模式型态不同而有差异,但广义而言,方差分析一共有三大前提假设:


# 各组样本背后所隐含的族群分布必须为正态分布或者是逼近正态分布。
通常在流行文献中提到,当每个总体遵循[[正态分布]]的假设被严重违反时,这些''F''检验都不是[[健壮统计|健壮的]],特别是对于小的阿尔法水平和不平衡的布局。<ref>{{cite journal |last=Blair |first=R. C. |year=1981 |title=A reaction to 'Consequences of failure to meet assumptions underlying the fixed effects analysis of variance and covariance.' |journal=Review of Educational Research |volume=51 |issue= 4|pages=499–507 |doi=10.3102/00346543051004499}}</ref> 此外,还有人声称,如果违反了[[同方差性]]的基本假设,[[I型错误]]的特性会严重恶化。<ref>{{cite journal |last1=Randolf |first1=E. A. |last2=Barcikowski |first2=R. S. |year=1989 |title=Type I error rate when real study values are used as population parameters in a Monte Carlo study |journal=Paper Presented at the 11th Annual Meeting of the Mid-Western Educational Research Association, Chicago }}</ref>
# 各组样本必须独立。
# 族群的方差必须相等。


总变量(TSS):[math]\sum_{i}\sum_{j}(Y_{ij}-\overline{Y}_{total})^2;[/math]
然而,这是一个误解,基于20世纪50年代及更早期的工作。第一次全面调查这个问题的蒙特卡罗模拟是Donaldson(1966年)所作。<ref>{{cite journal |title=Power of the F-Test for Nonnormal Distributions and Unequal Error Variances |first=Theodore S. |last=Donaldson |year=1966 |journal=Paper Prepared for United States Air Force Project RAND |url=https://www.rand.org/pubs/research_memoranda/RM5072.html }}</ref> 他表明,在通常的偏差(正偏态,不等方差)下,“''F''-检验是保守的”,因此它找到一个变量显著性的可能性比它应该的要小。然而,随着样本量或单元数的增加,“功效曲线似乎趋于基于正态分布的那种”。Tiku(1971)发现,“''F''的非正态理论功效与正态理论功效的差异,可以通过一个随着样本量增加而急剧减少的修正项来表示。”<ref>{{cite journal |first=M. L. |last=Tiku |title=Power Function of the ''F''-Test Under Non-Normal Situations |journal=[[Journal of the American Statistical Association]] |volume=66 |issue=336 |year=1971 |pages=913–916 |doi=10.1080/01621459.1971.10482371 }}</ref> 非正态性问题,尤其是在大样本中,远没有流行文章所暗示的那么严重。


i为组别(i=1,2...,I),j为观测值个数(j=1,2,3,...,J),[math]Y_{ij}[/math]为第i组第j个观测值,[math]\overline{Y}_{total}[/math]为所有观测值的平均数。
目前的观点是,“蒙特卡罗研究广泛用于基于正态分布的检验,以确定它们对违反被分析变量在人群中的正态分布假设的敏感性。这些研究的总体结论是,这种违反的后果不如以前认为的那样严重。虽然这些结论不应该完全阻止任何人关注正态性假设,但它们增加了所有研究领域中对分布依赖的统计检验的总体受欢迎程度。”<ref>{{Cite web |url=https://www.statsoft.com/textbook/elementary-statistics-concepts/ |title=Getting Started with Statistics Concepts |access-date=2016-09-22 |archive-url=https://web.archive.org/web/20181204140236/http://www.statsoft.com/textbook/elementary-statistics-concepts |archive-date=2018-12-04 |url-status=dead }}</ref>
<center> 组间变异量(BSS):[math]\sum_{i}n_i(\overline{Y}_i-\overline{Y}_{total})^2[/math] </center>


[math]n_i[/math]为i组内观测值总数,[math]\overline{Y}_i[/math]为第i组的平均数
关于因子布局中的非参数替代方法,请参见Sawilowsky。<ref>{{cite journal |last=Sawilowsky |first=S. |year=1990 |title=Nonparametric tests of interaction in experimental design |journal=Review of Educational Research |volume=60 |issue=1 |pages=91–126 |doi=10.3102/00346543060001091 }}</ref>


组内变异量(WSS):[math]\sum_{i}\sum_{j}(Y_{ij}-\overline{Y}_i)^2[/math]
===固定效应、完全随机实验、非平衡数据的情况===


由上述的计算公式可知,BSS代表所有观测值的期望值与分组后各组内的期望值差异,换言之,当各组的期望值没有差异的时候,BSS=0,这个时候我们会认为各组间平均值就没有差异存在,但并不代表所有观测值的一致性也会很高,因此计算WSS来帮助我们判断所有期望值的差异量多寡,当WSS=0的情况,代表各组内的所有观测值与各组的期望值没有差异存在,因此只有WSS与BSS都为0情况下,我们才能断定所有观测值达到完美的一致,然而当WSS>0, BSS=0的情况,则是各组期望值达到一致,但组内却存在变异,WSS=0, BSS>0,则是组内没有变异存在,但各组间却存在差异,然后真实状况不可能如此极端,因此必须比较WSS与BSS的差异来判断方差分析的结果,也就是各组期望值是否有差异存在。而这个部分在比较变异量的过程中,必须考量到各组变易量会受到观测数量与组别数量的多寡而有所差异,因此必须进行自由度的调整,也就是计算出均方值来比较组内变异与组间变异量。
====模型====
正态线性模型描述的是具有不同均值的概率分布,这些分布都是形状相同的钟形(正态)曲线。因此,拟合模型只需要每个处理组的均值和方差计算(使用处理组内的平均方差)。作为假设检验的一部分,会进行均值和方差的计算。


组间均方BMSS(between means sum of squares):[math]BMSS[/math]=[math]\frac{BSS}{k-1}[/math] = [math]\frac{\sum_{i}n_i(\overline{Y}_i-\overline{Y}_{total})^2}{k-1}[/math]
对于一个完全随机实验,常用的正态线性模型包括:<ref>{{cite book | last = Montgomery | first = Douglas C.
| title = Design and Analysis of Experiments
| publisher =  Wiley | location = New York
| year = 2001 | edition = 5th | page = Section 3–2 | isbn = 9780471316497}}</ref>
: [math]y_{i,j}=\mu_j+\varepsilon_{i,j}[/math] (均值模型)
或者
: [math]y_{i,j}=\mu+\tau_j+\varepsilon_{i,j}[/math] (效应模型)
其中
: [math]i=1,\dotsc,I[/math] 是实验单元的索引
: [math]j=1,\dotsc,J[/math] 是处理组的索引
: [math]I_j[/math] 是第j个处理组中的实验单元数量
: [math]I = \sum_j I_j[/math] 是实验单元的总数
: [math]y_{i,j}[/math] 是观察值
: [math]\mu_j[/math] 是第j个处理组观察值的均值
: [math]\mu[/math] 是所有观察值的总均值
: [math]\tau_j[/math] 是第j个处理效应,即偏离总均值的差异
: [math]\sum\tau_j=0[/math]
: [math]\mu_j=\mu+\tau_j[/math]
: [math]\varepsilon \thicksim N(0, \sigma^2)[/math], [math]\varepsilon_{i,j}[/math] 是正态分布的零均值随机误差。


组内均方WMSS(within means sum of squares):[math]WMSS[/math]=[math]\frac{WSS}{N-k}[/math] = [math]\frac{\sum_{i}\sum_{j}(Y_{ij}-\overline{Y}_i)^2}{N-k}[/math]
关于实验单元的索引 [math]i[/math] 可以有几种解释。在一些实验中,相同的实验单元会受到一系列处理;[math]i[/math] 可能指的是一个特定的单元。在其他实验中,每个处理组都有一组不同的实验单元;[math]i[/math] 可能仅仅是指向第 [math]j[/math] 个列表的索引。


其中k为组别数量,N为观测值总数。两个均方值的比较为 [math]\frac{BMSS}{WMSS}[/math]
====数据和数据的统计汇总====
一种组织实验观察值 [math]y_{ij}[/math] 的形式是将组放在列中:
{| cellpadding="2" style="border: 1px solid darkgray; width: 90%; text-align: center;"
|+ ANOVA data organization, Unbalanced, Single factor
|-
||
! colspan="6" style="text-align: center; border: 1px solid darkgray;" | Lists of Group Observations
|-
| style="width:15%" |
| style="width:15%" | [math]I_{1}[/math]
| style="width:15%" | [math]I_{2}[/math]
| style="width:15%" | [math]I_{3}[/math]
| style="width: 5%" | [math]\dotso[/math]
| style="width:15%" | [math]I_{j}[/math]
|-
|| 1 || [math]y_{11}[/math] || [math]y_{12}[/math] || [math]y_{13}[/math] || || [math]y_{1j}[/math]
|-
|| 2 || [math]y_{21}[/math] || [math]y_{22}[/math] || [math]y_{23}[/math] || || [math]y_{2j}[/math]
|-
|| 3 || [math]y_{31}[/math] || [math]y_{32}[/math] || [math]y_{33}[/math] || || [math]y_{3j}[/math]
|-
|| [math]\vdots[/math] || || || || || [math]\vdots[/math]
|-
|| [math]i[/math] || [math]y_{i1}[/math] || [math]y_{i2}[/math] || [math]y_{i3}[/math] || [math]\dotso[/math] || [math]y_{ij}[/math]
|-
| style="height:50px;" |  ||
|-
||
! colspan="6" style="border: 1px solid darkgray;" | Group Summary Statistics
! colspan="2" style="border: 1px solid darkgray;" | Grand Summary Statistics
|-
| style="text-align: left" | # Observed  || [math]I_1[/math] || [math]I_2[/math] || [math]\dotso[/math]
|| [math]I_j[/math]  || [math]\dotso[/math] || [math]I_J[/math]
| style="text-align: left" | # Observed  || [math]I = \sum I_j[/math]
|-
| style="text-align: left" | Sum      || || ||
|| [math]\sum_i y_{ij}[/math]                || ||
| style="text-align: left" |  Sum    || [math]\sum_j \sum_i y_{ij}[/math]
|-
| style="text-align: left" | Sum Sq    || || ||
|| [math]\sum_i (y_{ij})^2[/math]            || ||
| style="text-align: left" | Sum Sq  || [math]\sum_j \sum_i (y_{ij})^2[/math]
|-
| style="text-align: left" | Mean      || [math]m_1[/math] || [math]\dotso[/math] ||
|| [math]m_j[/math] || [math]\dotso[/math]  || [math]m_J[/math]
| style="text-align: left" |  Mean    || [math]m[/math]
|-
| style="text-align: left" | Variance  || [math]s_1^2[/math]|| [math]\dotso[/math] ||
|| [math]s_j^2[/math] || [math]\dotso[/math] || [math]s_J^2[/math]
| style="text-align: left" | Variance || [math]s^2[/math]
|}


此比较值也就是目前惯称的F检验值,F越大,则组间均方大于组内均方,也就是组间变异量大于组内变异量,各组间的差异远超出总期望值离差,代表各组的平均数存在明显的差异,相反的,F越小甚至于接近于0,则是组间变异量小于组内变异量,代表各组间的差异很小,各组平均数则不存在明显的差异。整个分析概念中,受到方差分析所规范的族群的方差必须相等的条件下,组内变异量成为了基准,因此组间变异量的多寡就成了判定方差分析结论的重要数值,然而F值仅为提供判断虚拟假设存在的可能性,为了方便下结论,由alpha值决定可容许的错误判断概率为5%,因此F值所计算的虚拟假设概率值若小于0.05,则下定论为各组存在差异,其隐含的意义则是否定了各组间无差异的概率,也就是容许了各组无差异可能成真的错误判断概率,因为判断错误的概率太小而能容许,但并不代表不可能判断错误,因此任何F检验的结果均只能下定论为达到统计上的意义,而非绝对意义。
比较模型和总结: [math]\mu = m[/math] 和 [math]\mu_j = m_j[/math]。总均值和总方差是根据总和计算的,而不是根据组均值和方差计算的。


=== '''双因子方差分析(Two-way ANOVA)''' ===
====假设检验====
在许多情境下,某现象并非仅受单一因子的影响,甚至存在另一个因子的效应,例如要比较五个都市的空气污染总指标差异,除了都市别的因素之外,还必须考量汽机车密度的因素,在这样的情境下,都市别与汽机车密度可能就存在着某种效应影响着空气污染的多寡,因此在双因子方差分析中,除了考量双因子彼此的效应之外,也可能存在因子之间的联合效应,也就是因子间的交互作用(interaction),这也使得双因子方差分析变的比较复杂。


给定总结统计数据,假设检验的计算以表格形式展示。虽然展示了两列SS以说明它们的解释价值,但只需要一列来展示结果。


延续单因子方差分析的基本概念,双因子方差分析也能将总变异量分解成双因子的主效应与双因子的联合效应,还有表示误差项的组内差异量,为了简化问题,其下列的计算均表示为各组间样本数一致的情况下,其线性关系为TSS=ASS+BSS+WSS+ABSS。
{| cellpadding="2" style="border: 1px solid darkgray; text-align=center;"
 
|+ ANOVA table for fixed model, single factor, fully randomized experiment
总变异量(TSS):[math]\sum_{i}\sum_{j}\sum_{z}(Y_{ijz}-\overline{Y}_{total})^2[/math]
|-
 
!Source of variation
A因子的主效应(ASS):[math]nb\sum_{i}(\overline{Y}_{i}-\overline{Y}_{total})^2[/math]
!Sums of squares
 
!Sums of squares
其均方AMSS为:[math]\frac{ASS}{a-1}[/math]
!Degrees of freedom
 
!Mean square
B因子的主效应(BSS):[math]na\sum_{j}(\overline{Y}_{j}-\overline{Y}_{total})^2[/math]
!F
 
|-
其均方BMSS为:[math]\frac{BSS}{b-1}[/math]
!
!Explanatory SS<ref>
{{Cite book
| last1 = Moore
| first1 = David S.
| last2 = McCabe
| first2 = George P.
| title = Introduction to the Practice of Statistics
| url = https://archive.org/details/isbn_9780716749127
| url-access = registration
| publisher = W H Freeman & Co.
| year = 2003
| edition = 4th
| page = 764
| isbn = 0716796570
}}
</ref>
!Computational SS<ref>
{{Cite book
| last1 = Winkler
| first1 = Robert L.
| last2 = Hays
| first2 = William L.
| title = Statistics: Probability, Inference, and Decision
| url = https://archive.org/details/statisticsprobab0000wink
| url-access = registration
| place = New York
| publisher = Holt, Rinehart and Winston
| year = 1975
| edition = 2nd
| page = [https://archive.org/details/statisticsprobab0000wink/page/761 761]
}}
</ref>
!DF
!MS
!
|-
!Treatments
! [math]\sum_{Treatments} I_j (m_j-m)^2[/math]
! style="padding-left:1em;padding-right:1em" | [math]\sum_j \frac{(\sum_i y_{ij})^2}{I_j} - \frac{(\sum_j \sum_i y_{ij})^2}{I}[/math]
! style="padding-left:1em;padding-right:1em" | [math]J-1[/math]
! style="padding-left:1em;padding-right:1em" | [math]\frac{SS_{Treatment}}{DF_{Treatment}}[/math]
! style="padding-left:1em;padding-right:1em" | [math]\frac{MS_{Treatment}}{MS_{Error}}[/math]
|-
!Error
! [math]\sum_{Treatments} (I_j-1)s_j^2[/math]
! [math]\sum_j \sum_i y_{ij}^2 - \sum_j \frac{(\sum_i y_{ij})^2}{I_j}[/math]
! [math]I-J[/math]
! [math]\frac{SS_{Error}}{DF_{Error}}[/math]
|
|-
!Total
! [math]\sum_{Observations} (y_{ij}-m)^2[/math]
! [math]\sum_j \sum_i y_{ij}^2 - \frac{(\sum_j \sum_i y_{ij})^2}{I}[/math]
! [math]I-1[/math]
|}


AB因子的交互作用(ABSS):[math]n\sum_{i}\sum_{j}(\overline{Y}_{ij}-\overline{Y}_{i}-\overline{Y}_{j}+\overline{Y}_{total})^2[/math]
[math]MS_{Error}[/math] 是对模型中 [math]\sigma^2[/math] 的方差估计。


其均方ABMSS为:[math]\frac{ABSS}{(a-1)(b-1)}[/math]
====分析总结====
核心ANOVA分析包括一系列计算。数据以表格形式收集。然后
* 每个处理组通过实验单元的数量、两个总和、一个均值和一个方差来进行总结。处理组总结合并以提供单位总数和总和。总均值和总方差是根据总和计算的。模型中使用处理和总均值。
* 从总结中计算出三个DF和SS。然后计算MS,比值决定F。
* 计算机通常根据F确定一个p值,以确定处理是否产生显著不同的结果。如果结果显著,那么模型暂时有效。


组内差异量(WSS):[math]\sum_{i}\sum_{j}\sum_{z}(Y_{ijz}-\overline{Y}_{ij})^2[/math]
如果实验是平衡的,所有的 [math]I_j[/math] 项都相等,所以SS方程简化了。


其均方WMSS为:[math]\frac{WSS}{ab(n-1)}[/math]
在更复杂的实验中,如果实验单元(或环境效应)不是均质的,行统计也用于分析。模型包括依赖于 [math]i[/math] 的项。确定额外项会减少可用的自由度数量。


在F检验中,由于考虑的双因子的个别主效应与交互作用,因此会出现三个检验方向,其一为A因子检验、B因子检验与交互作用的检验。
== '''节点使用的R语言示例代码''' ==
=== One Way ANOVA ===
<syntaxhighlight lang="R">


A因子的F检验为:[math]\frac{AMSS}{WMSS}[/math]
aov_ez(
  id,
  dv,
  data,
  between = NULL,
  within = NULL,
  covariate = NULL,
  observed = NULL,
  type = afex_options("type"),
  factorize = afex_options("factorize"),
  return = afex_options("return_aov")
)


B因子的F检验为:[math]\frac{BMSS}{WMSS}[/math]
</syntaxhighlight>
 
方法参见'''R package: afex'''的官方文档
交互作用的F检验为:[math]\frac{ABMSS}{WMSS}[/math]
 
在交互作用不显著的情况下,才会考虑依照各别因子主效应的检验结果做为双因子方差分析的结论。


== '''节点使用指南''' ==
== '''节点使用指南''' ==
* 用于比较三个或更多独立组的均值是否存在显著差异
* 该方法假设样本来自服从正态分布的总体,并且各总体具有相同的方差
* 零假设(H0):所有组的总体均值相等。


=== '''方法选择''' ===
=== 方法选择 ===
对方法选择要点和关键事项进行表述。重点在于实用性。
* 无方法选择
 
=== '''参数配置''' ===
对参数配置中的一些关键点进行表述(比如变量类型、是否兼容空值、是否要规避复用等,比如立方条样变量不能和自变量重复等)。
 
=== '''注意事项''' ===
对注意事项进行表述。


=== '''视频链接''' ===
=== 参数配置 ===
请前往视频号观看详细的使用指导。 [https://www.bilibili.com 点此链接]
* 因变量:选择正态分布连续型数值变量。如果选择多个,每个变量做一次ANOVA
* 分组自变量:选择一个分类分组变量
* 筛选阈值:选择需要的P值阈值,节点会自动将满足阈值的变量筛选出,数据集也会同步筛选出满足的变量。
* 因变量和分组自变量要规避复用
* 此算法兼容空值


=== 注意事项 ===
* 数据应接近正态分布
* 组间方差应该相等(方差同质性)
* 数据应该是独立的,即一个数据点的值不应该影响另一个
* 最好每个组的样本量相似。较大的样本量差异可能会影响方差分析的结果


== 另行参见 ==
== '''引用''' ==
 
*{{Link Statsape|url=https://wiki.statsape.com/节点页面名称1|text=Text Source 1}}
*{{Link Statsape|url=https://wiki.statsape.com/节点页面名称1|text=Text Source 2}}
*{{Link Statsape|url=https://wiki.statsape.com/节点页面名称1|text=Text Source 3}}
 
== 引用 ==
{{Reflist}}
{{Reflist}}
<references />


{{Navplate AlgorithmNodeList}}
{{Navplate AlgorithmNodeList}}


[[Category:方差分析]]
[[Category:方差分析]]

2024年2月8日 (四) 14:24的最新版本

One Way ANOVA.png
节点状态
Windows / Windows 10 Win10及以上可用
V1.0部署
One_Way_ANOVAOne Way ANOVA.svg
节点开发者决策链算法研发部 (Dev.Team-DPS)
节点英文名One Way ANOVA
功能主类别数据分析
英文缩写ANOVAO
功能亚类别方差分析
节点类型数据挖掘
开发语言R
节点简介

One Way ANOVA也称为单因素方差分析, 是用来检验多个平均数之间的差异, 从而确定因素对试验结果有无显著性影响。单因素则是实验中只选择一个因素。方差分析需要满足以下条件: 观察变量为连续变量且不存在显著的异常值,观测值相互独立且需要为两组以上变量, 各组观测值必须为或接近正态分布,多组整体方差相等。

用途:用于研究一个因素(或独立变量)在不同水平上对一个因变量的影响是否显著,也就是检验三个或更多组的平均值是否相等。如果你只有两个组,通常会使用t检验,但如果有三个或更多的组,那么应该使用ANOVA。

参数:选择正态分布数值因变量,和分组自变量

端口数量与逻辑控制(PC)
Input-入口4个
Output-出口3个
Loop-支持循环
If/Switch-支持逻辑判断
输入输出
可生成图片类型(推荐)
可生成数据表类型(推荐)
相关节点
上一节点F检验
下一节点Two_Way_ANOVA



One Way ANOVA的概念(英语:Analysis of variance,简称ANOVA

统计学中,单因素方差分析(或单向ANOVA)是一种技术,用于比较两个样本的平均值是否存在显著差异(使用F分布)。这种方差分析技术要求一个数值型响应变量"Y"和一个单一的解释变量"X",因此称为"单向"。[1]

ANOVA测试零假设,该假设声明所有组中的样本均来自具有相同平均值的总体。为此,需要对总体方差进行两次估计。这些估计依赖于各种假设(见下文)。ANOVA产生一个F统计量,即组间平均值计算的方差与样本内方差的比值。如果组平均值来自具有相同平均值的总体,那么组间平均值的方差应该低于样本的方差,根据中心极限定理。因此,较高的比值意味着样本来自具有不同平均值的总体。[1]

然而,通常情况下,单向ANOVA用于测试至少三个组之间的差异,因为两组的情况可以通过t检验(Gosset, 1908)覆盖。当只有两个平均值需要比较时,t检验F检验是等价的;ANOVA与t之间的关系由F = t2给出。单向ANOVA的一个扩展是双因素方差分析,它考察了两个不同分类自变量对一个因变量的影响。

假设

只要满足以下假设,单向ANOVA的结果可以被认为是可靠的:

偏离总体正态性

ANOVA是一个相对健壮的程序,对于违反正态性假设具有一定的容忍度。[3]

单向ANOVA可以推广到因子和多变量布局,以及协方差分析。

通常在流行文献中提到,当每个总体遵循正态分布的假设被严重违反时,这些F检验都不是健壮的,特别是对于小的阿尔法水平和不平衡的布局。[4] 此外,还有人声称,如果违反了同方差性的基本假设,I型错误的特性会严重恶化。[5]

然而,这是一个误解,基于20世纪50年代及更早期的工作。第一次全面调查这个问题的蒙特卡罗模拟是Donaldson(1966年)所作。[6] 他表明,在通常的偏差(正偏态,不等方差)下,“F-检验是保守的”,因此它找到一个变量显著性的可能性比它应该的要小。然而,随着样本量或单元数的增加,“功效曲线似乎趋于基于正态分布的那种”。Tiku(1971)发现,“F的非正态理论功效与正态理论功效的差异,可以通过一个随着样本量增加而急剧减少的修正项来表示。”[7] 非正态性问题,尤其是在大样本中,远没有流行文章所暗示的那么严重。

目前的观点是,“蒙特卡罗研究广泛用于基于正态分布的检验,以确定它们对违反被分析变量在人群中的正态分布假设的敏感性。这些研究的总体结论是,这种违反的后果不如以前认为的那样严重。虽然这些结论不应该完全阻止任何人关注正态性假设,但它们增加了所有研究领域中对分布依赖的统计检验的总体受欢迎程度。”[8]

关于因子布局中的非参数替代方法,请参见Sawilowsky。[9]

固定效应、完全随机实验、非平衡数据的情况

模型

正态线性模型描述的是具有不同均值的概率分布,这些分布都是形状相同的钟形(正态)曲线。因此,拟合模型只需要每个处理组的均值和方差计算(使用处理组内的平均方差)。作为假设检验的一部分,会进行均值和方差的计算。

对于一个完全随机实验,常用的正态线性模型包括:[10]

[math]y_{i,j}=\mu_j+\varepsilon_{i,j}[/math] (均值模型)

或者

[math]y_{i,j}=\mu+\tau_j+\varepsilon_{i,j}[/math] (效应模型)

其中

[math]i=1,\dotsc,I[/math] 是实验单元的索引
[math]j=1,\dotsc,J[/math] 是处理组的索引
[math]I_j[/math] 是第j个处理组中的实验单元数量
[math]I = \sum_j I_j[/math] 是实验单元的总数
[math]y_{i,j}[/math] 是观察值
[math]\mu_j[/math] 是第j个处理组观察值的均值
[math]\mu[/math] 是所有观察值的总均值
[math]\tau_j[/math] 是第j个处理效应,即偏离总均值的差异
[math]\sum\tau_j=0[/math]
[math]\mu_j=\mu+\tau_j[/math]
[math]\varepsilon \thicksim N(0, \sigma^2)[/math], [math]\varepsilon_{i,j}[/math] 是正态分布的零均值随机误差。

关于实验单元的索引 [math]i[/math] 可以有几种解释。在一些实验中,相同的实验单元会受到一系列处理;[math]i[/math] 可能指的是一个特定的单元。在其他实验中,每个处理组都有一组不同的实验单元;[math]i[/math] 可能仅仅是指向第 [math]j[/math] 个列表的索引。

数据和数据的统计汇总

一种组织实验观察值 [math]y_{ij}[/math] 的形式是将组放在列中:

ANOVA data organization, Unbalanced, Single factor
Lists of Group Observations
[math]I_{1}[/math] [math]I_{2}[/math] [math]I_{3}[/math] [math]\dotso[/math] [math]I_{j}[/math]
1 [math]y_{11}[/math] [math]y_{12}[/math] [math]y_{13}[/math] [math]y_{1j}[/math]
2 [math]y_{21}[/math] [math]y_{22}[/math] [math]y_{23}[/math] [math]y_{2j}[/math]
3 [math]y_{31}[/math] [math]y_{32}[/math] [math]y_{33}[/math] [math]y_{3j}[/math]
[math]\vdots[/math] [math]\vdots[/math]
[math]i[/math] [math]y_{i1}[/math] [math]y_{i2}[/math] [math]y_{i3}[/math] [math]\dotso[/math] [math]y_{ij}[/math]
Group Summary Statistics Grand Summary Statistics
# Observed [math]I_1[/math] [math]I_2[/math] [math]\dotso[/math] [math]I_j[/math] [math]\dotso[/math] [math]I_J[/math] # Observed [math]I = \sum I_j[/math]
Sum [math]\sum_i y_{ij}[/math] Sum [math]\sum_j \sum_i y_{ij}[/math]
Sum Sq [math]\sum_i (y_{ij})^2[/math] Sum Sq [math]\sum_j \sum_i (y_{ij})^2[/math]
Mean [math]m_1[/math] [math]\dotso[/math] [math]m_j[/math] [math]\dotso[/math] [math]m_J[/math] Mean [math]m[/math]
Variance [math]s_1^2[/math] [math]\dotso[/math] [math]s_j^2[/math] [math]\dotso[/math] [math]s_J^2[/math] Variance [math]s^2[/math]

比较模型和总结: [math]\mu = m[/math] 和 [math]\mu_j = m_j[/math]。总均值和总方差是根据总和计算的,而不是根据组均值和方差计算的。

假设检验

给定总结统计数据,假设检验的计算以表格形式展示。虽然展示了两列SS以说明它们的解释价值,但只需要一列来展示结果。

ANOVA table for fixed model, single factor, fully randomized experiment
Source of variation Sums of squares Sums of squares Degrees of freedom Mean square F
Explanatory SS[11] Computational SS[12] DF MS
Treatments [math]\sum_{Treatments} I_j (m_j-m)^2[/math] [math]\sum_j \frac{(\sum_i y_{ij})^2}{I_j} - \frac{(\sum_j \sum_i y_{ij})^2}{I}[/math] [math]J-1[/math] [math]\frac{SS_{Treatment}}{DF_{Treatment}}[/math] [math]\frac{MS_{Treatment}}{MS_{Error}}[/math]
Error [math]\sum_{Treatments} (I_j-1)s_j^2[/math] [math]\sum_j \sum_i y_{ij}^2 - \sum_j \frac{(\sum_i y_{ij})^2}{I_j}[/math] [math]I-J[/math] [math]\frac{SS_{Error}}{DF_{Error}}[/math]
Total [math]\sum_{Observations} (y_{ij}-m)^2[/math] [math]\sum_j \sum_i y_{ij}^2 - \frac{(\sum_j \sum_i y_{ij})^2}{I}[/math] [math]I-1[/math]

[math]MS_{Error}[/math] 是对模型中 [math]\sigma^2[/math] 的方差估计。

分析总结

核心ANOVA分析包括一系列计算。数据以表格形式收集。然后

  • 每个处理组通过实验单元的数量、两个总和、一个均值和一个方差来进行总结。处理组总结合并以提供单位总数和总和。总均值和总方差是根据总和计算的。模型中使用处理和总均值。
  • 从总结中计算出三个DF和SS。然后计算MS,比值决定F。
  • 计算机通常根据F确定一个p值,以确定处理是否产生显著不同的结果。如果结果显著,那么模型暂时有效。

如果实验是平衡的,所有的 [math]I_j[/math] 项都相等,所以SS方程简化了。

在更复杂的实验中,如果实验单元(或环境效应)不是均质的,行统计也用于分析。模型包括依赖于 [math]i[/math] 的项。确定额外项会减少可用的自由度数量。

节点使用的R语言示例代码

One Way ANOVA

aov_ez(
  id,
  dv,
  data,
  between = NULL,
  within = NULL,
  covariate = NULL,
  observed = NULL,
  type = afex_options("type"),
  factorize = afex_options("factorize"),
  return = afex_options("return_aov")
)

方法参见R package: afex的官方文档

节点使用指南

  • 用于比较三个或更多独立组的均值是否存在显著差异
  • 该方法假设样本来自服从正态分布的总体,并且各总体具有相同的方差
  • 零假设(H0):所有组的总体均值相等。

方法选择

  • 无方法选择

参数配置

  • 因变量:选择正态分布连续型数值变量。如果选择多个,每个变量做一次ANOVA
  • 分组自变量:选择一个分类分组变量
  • 筛选阈值:选择需要的P值阈值,节点会自动将满足阈值的变量筛选出,数据集也会同步筛选出满足的变量。
  • 因变量和分组自变量要规避复用
  • 此算法兼容空值

注意事项

  • 数据应接近正态分布
  • 组间方差应该相等(方差同质性)
  • 数据应该是独立的,即一个数据点的值不应该影响另一个
  • 最好每个组的样本量相似。较大的样本量差异可能会影响方差分析的结果

引用

  1. 1.0 1.1 Howell, David (2002). Statistical Methods for Psychology. Duxbury. pp. 324–325. ISBN 0-534-37770-X.
  2. Welch, B. L. (1951). "On the Comparison of Several Mean Values: An Alternative Approach". Biometrika. 38 (3/4): 330–336. doi:10.2307/2332579. JSTOR 2332579.
  3. Kirk, RE (1995). Experimental Design: Procedures For The Behavioral Sciences (3 ed.). Pacific Grove, CA, USA: Brooks/Cole.
  4. Blair, R. C. (1981). "A reaction to 'Consequences of failure to meet assumptions underlying the fixed effects analysis of variance and covariance.'". Review of Educational Research. 51 (4): 499–507. doi:10.3102/00346543051004499.
  5. Randolf, E. A.; Barcikowski, R. S. (1989). "Type I error rate when real study values are used as population parameters in a Monte Carlo study". Paper Presented at the 11th Annual Meeting of the Mid-Western Educational Research Association, Chicago.
  6. Donaldson, Theodore S. (1966). "Power of the F-Test for Nonnormal Distributions and Unequal Error Variances". Paper Prepared for United States Air Force Project RAND.
  7. Tiku, M. L. (1971). "Power Function of the F-Test Under Non-Normal Situations". Journal of the American Statistical Association. 66 (336): 913–916. doi:10.1080/01621459.1971.10482371.
  8. "Getting Started with Statistics Concepts". Archived from the original on 2018-12-04. Retrieved 2016-09-22.
  9. Sawilowsky, S. (1990). "Nonparametric tests of interaction in experimental design". Review of Educational Research. 60 (1): 91–126. doi:10.3102/00346543060001091.
  10. Montgomery, Douglas C. (2001). Design and Analysis of Experiments (5th ed.). New York: Wiley. p. Section 3–2. ISBN 9780471316497.
  11. Moore, David S.; McCabe, George P. (2003). Introduction to the Practice of Statistics (4th ed.). W H Freeman & Co. p. 764. ISBN 0716796570.
  12. Winkler, Robert L.; Hays, William L. (1975). Statistics: Probability, Inference, and Decision (2nd ed.). New York: Holt, Rinehart and Winston. p. 761.

查找其他类别的节点,请参考以下列表