One Way ANOVA:修订间差异

来自决策链云智库
无编辑摘要
(重定向页面至One Way ANOVA
标签新重定向 已被回退
第1行: 第1行:
{{Infobox nodebasic
#Redirect [[One_Way_ANOVA]]
|nodename=One_Way_ANOVA
|nodeimage=One Way ANOVA.png
|icon=One Way ANOVA.svg
|simpleicon=One Way ANOVA_Pure.svg
|developer=Dev.Team-DPS
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=[[Has english name::One Way ANOVA]]
|abbreviation=[[Has abbreviation::ANOVAO]]
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::方差分析]]
|nodecategory=数据挖掘
|nodeinterpretor=R
|nodeshortdescription=<p>One Way ANOVA也称为单因素方差分析, 是用来检验多个平均数之间的差异, 从而确定因素对试验结果有无显著性影响。单因素则是实验中只选择一个因素。方差分析需要满足以下条件: 观察变量为连续变量且不存在显著的异常值,观测值相互独立且需要为两组以上变量, 各组观测值必须为或接近正态分布,多组整体方差相等。</p><p>用途:用于研究一个因素(或独立变量)在不同水平上对一个因变量的影响是否显著,也就是检验三个或更多组的平均值是否相等。如果你只有两个组,通常会使用t检验,但如果有三个或更多的组,那么应该使用ANOVA。</p><p>参数:选择正态分布数值因变量,和分组自变量</p>
|nodeinputnumber=4
|nodeoutputnumber=3
|nodeloopsupport=是
|nodeifswitchsupport=否
|nodeavailableplotlist=Rain_Cloud;SpittingPointLinePlot;SplittingNephelogram
|nodeavailabletablelist=df;MSE;F-Value;PES;P-Value
|nodeconfiguration=VariableList;DropMenu
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|statsapewikiurl=https://wiki.statsape.com/One_Way_ANOVA
|previousnode=[[F检验]]
|nextnode=[[Two_Way_ANOVA]]
}}
== '''One Way ANOVA'''的概念(英语:Analysis of variance,简称'''ANOVA''') ==
在[[统计学]]中,'''单因素方差分析'''(或'''单向ANOVA''')是一种技术,用于比较两个样本的平均值是否存在显著差异(使用[[F分布]])。这种[[方差分析]]技术要求一个数值型[[因变量和自变量|响应]]变量"Y"和一个单一的解释变量"X",因此称为"单向"。<ref name="Howell 2002 324–325">{{cite book |title=Statistical Methods for Psychology |last=Howell |first=David |year=2002 |publisher=Duxbury |isbn=0-534-37770-X |pages=[https://archive.org/details/statisticalmetho0000howe/page/324 324–325] |url=https://archive.org/details/statisticalmetho0000howe/page/324 }}</ref>
 
ANOVA测试[[零假设]],该假设声明所有组中的样本均来自具有相同平均值的总体。为此,需要对总体方差进行两次估计。这些估计依赖于各种假设([[#假设|见下文]])。ANOVA产生一个F统计量,即组间平均值计算的方差与样本内方差的比值。如果组平均值来自具有相同平均值的总体,那么组间平均值的方差应该低于样本的方差,根据[[中心极限定理]]。因此,较高的比值意味着样本来自具有不同平均值的总体。<ref name="Howell 2002 324–325"/>
 
然而,通常情况下,单向ANOVA用于测试至少三个组之间的差异,因为两组的情况可以通过[[t检验]](Gosset, 1908)覆盖。当只有两个平均值需要比较时,[[t检验]]和[[F检验]]是等价的;ANOVA与''t''之间的关系由''F''&nbsp;=&nbsp;''t''<sup>2</sup>给出。单向ANOVA的一个扩展是[[双因素方差分析]],它考察了两个不同分类自变量对一个因变量的影响。
 
===假设===
只要满足以下假设,单向ANOVA的结果可以被认为是可靠的:
* 响应变量[[统计学中的误差和残差|残差]]呈[[正态分布]](或近似正态分布)。
* 总体的方差相等。
* 给定组的响应是[[独立同分布]]的正态随机变量(而不是[[简单随机样本]](SRS))。
* 如果数据是[[顺序量表|顺序的]],应使用这个测试的非参数替代方法,如[[克鲁斯卡尔-沃利斯单向方差分析]]。
* 如果方差未知是否相等,可以使用2样本[[韦尔奇t检验]]的泛化版本。<ref name="Welch1951">{{cite journal|last1=Welch|first1=B. L.|title=On the Comparison of Several Mean Values: An Alternative Approach|journal=Biometrika|date=1951|volume=38|issue=3/4|pages=330–336|doi=10.2307/2332579|jstor=2332579}}</ref>
 
====偏离总体正态性====
ANOVA是一个相对健壮的程序,对于违反正态性假设具有一定的容忍度。<ref name=Kirk>{{cite book |first=RE |last=Kirk |year=1995 |title=Experimental Design: Procedures For The Behavioral Sciences |url=https://archive.org/details/experimentaldesi00roge |url-access=registration |edition=3 |location=Pacific Grove, CA, USA |publisher=Brooks/Cole}}</ref>
 
单向ANOVA可以推广到因子和多变量布局,以及协方差分析。
 
通常在流行文献中提到,当每个总体遵循[[正态分布]]的假设被严重违反时,这些''F''检验都不是[[健壮统计|健壮的]],特别是对于小的阿尔法水平和不平衡的布局。<ref>{{cite journal |last=Blair |first=R. C. |year=1981 |title=A reaction to 'Consequences of failure to meet assumptions underlying the fixed effects analysis of variance and covariance.' |journal=Review of Educational Research |volume=51 |issue= 4|pages=499–507 |doi=10.3102/00346543051004499}}</ref> 此外,还有人声称,如果违反了[[同方差性]]的基本假设,[[I型错误]]的特性会严重恶化。<ref>{{cite journal |last1=Randolf |first1=E. A. |last2=Barcikowski |first2=R. S. |year=1989 |title=Type I error rate when real study values are used as population parameters in a Monte Carlo study |journal=Paper Presented at the 11th Annual Meeting of the Mid-Western Educational Research Association, Chicago }}</ref>
 
然而,这是一个误解,基于20世纪50年代及更早期的工作。第一次全面调查这个问题的蒙特卡罗模拟是Donaldson(1966年)所作。<ref>{{cite journal |title=Power of the F-Test for Nonnormal Distributions and Unequal Error Variances |first=Theodore S. |last=Donaldson |year=1966 |journal=Paper Prepared for United States Air Force Project RAND |url=https://www.rand.org/pubs/research_memoranda/RM5072.html }}</ref> 他表明,在通常的偏差(正偏态,不等方差)下,“''F''-检验是保守的”,因此它找到一个变量显著性的可能性比它应该的要小。然而,随着样本量或单元数的增加,“功效曲线似乎趋于基于正态分布的那种”。Tiku(1971)发现,“''F''的非正态理论功效与正态理论功效的差异,可以通过一个随着样本量增加而急剧减少的修正项来表示。”<ref>{{cite journal |first=M. L. |last=Tiku |title=Power Function of the ''F''-Test Under Non-Normal Situations |journal=[[Journal of the American Statistical Association]] |volume=66 |issue=336 |year=1971 |pages=913–916 |doi=10.1080/01621459.1971.10482371 }}</ref> 非正态性问题,尤其是在大样本中,远没有流行文章所暗示的那么严重。
 
目前的观点是,“蒙特卡罗研究广泛用于基于正态分布的检验,以确定它们对违反被分析变量在人群中的正态分布假设的敏感性。这些研究的总体结论是,这种违反的后果不如以前认为的那样严重。虽然这些结论不应该完全阻止任何人关注正态性假设,但它们增加了所有研究领域中对分布依赖的统计检验的总体受欢迎程度。”<ref>{{Cite web |url=https://www.statsoft.com/textbook/elementary-statistics-concepts/ |title=Getting Started with Statistics Concepts |access-date=2016-09-22 |archive-url=https://web.archive.org/web/20181204140236/http://www.statsoft.com/textbook/elementary-statistics-concepts |archive-date=2018-12-04 |url-status=dead }}</ref>
 
关于因子布局中的非参数替代方法,请参见Sawilowsky。<ref>{{cite journal |last=Sawilowsky |first=S. |year=1990 |title=Nonparametric tests of interaction in experimental design |journal=Review of Educational Research |volume=60 |issue=1 |pages=91–126 |doi=10.3102/00346543060001091 }}</ref>
 
===固定效应、完全随机实验、非平衡数据的情况===
 
====模型====
正态线性模型描述的是具有不同均值的概率分布,这些分布都是形状相同的钟形(正态)曲线。因此,拟合模型只需要每个处理组的均值和方差计算(使用处理组内的平均方差)。作为假设检验的一部分,会进行均值和方差的计算。
 
对于一个完全随机实验,常用的正态线性模型包括:<ref>{{cite book | last = Montgomery | first = Douglas C.
| title = Design and Analysis of Experiments
| publisher =  Wiley | location = New York
| year = 2001 | edition = 5th | page = Section 3–2 | isbn = 9780471316497}}</ref>
: [math]y_{i,j}=\mu_j+\varepsilon_{i,j}[/math]  (均值模型)
或者
: [math]y_{i,j}=\mu+\tau_j+\varepsilon_{i,j}[/math]  (效应模型)
其中
: [math]i=1,\dotsc,I[/math] 是实验单元的索引
: [math]j=1,\dotsc,J[/math] 是处理组的索引
: [math]I_j[/math] 是第j个处理组中的实验单元数量
: [math]I = \sum_j I_j[/math] 是实验单元的总数
: [math]y_{i,j}[/math] 是观察值
: [math]\mu_j[/math] 是第j个处理组观察值的均值
: [math]\mu[/math] 是所有观察值的总均值
: [math]\tau_j[/math] 是第j个处理效应,即偏离总均值的差异
: [math]\sum\tau_j=0[/math]
: [math]\mu_j=\mu+\tau_j[/math]
: [math]\varepsilon \thicksim N(0, \sigma^2)[/math], [math]\varepsilon_{i,j}[/math] 是正态分布的零均值随机误差。
 
关于实验单元的索引 [math]i[/math] 可以有几种解释。在一些实验中,相同的实验单元会受到一系列处理;[math]i[/math] 可能指的是一个特定的单元。在其他实验中,每个处理组都有一组不同的实验单元;[math]i[/math] 可能仅仅是指向第 [math]j[/math] 个列表的索引。
 
====数据和数据的统计汇总====
一种组织实验观察值 [math]y_{ij}[/math] 的形式是将组放在列中:
{| cellpadding="2" style="border: 1px solid darkgray; width: 90%; text-align: center;"
|+ ANOVA data organization, Unbalanced, Single factor
|-
||
! colspan="6" style="text-align: center; border: 1px solid darkgray;" | Lists of Group Observations
|-
| style="width:15%" |
| style="width:15%" | [math]I_{1}[/math]
| style="width:15%" | [math]I_{2}[/math]
| style="width:15%" | [math]I_{3}[/math]
| style="width: 5%" | [math]\dotso[/math]
| style="width:15%" | [math]I_{j}[/math]
|-
|| 1 || [math]y_{11}[/math] || [math]y_{12}[/math] || [math]y_{13}[/math] || || [math]y_{1j}[/math]
|-
|| 2 || [math]y_{21}[/math] || [math]y_{22}[/math] || [math]y_{23}[/math] || || [math]y_{2j}[/math]
|-
|| 3 || [math]y_{31}[/math] || [math]y_{32}[/math] || [math]y_{33}[/math] || || [math]y_{3j}[/math]
|-
|| [math]\vdots[/math] || || || || || [math]\vdots[/math]
|-
|| [math]i[/math] || [math]y_{i1}[/math] || [math]y_{i2}[/math] || [math]y_{i3}[/math] || [math]\dotso[/math] || [math]y_{ij}[/math]
|-
| style="height:50px;" |  ||
|-
||
! colspan="6" style="border: 1px solid darkgray;" | Group Summary Statistics
! colspan="2" style="border: 1px solid darkgray;" | Grand Summary Statistics
|-
| style="text-align: left" | # Observed  || [math]I_1[/math] || [math]I_2[/math] || [math]\dotso[/math]
|| [math]I_j[/math]  || [math]\dotso[/math] || [math]I_J[/math]
| style="text-align: left" | # Observed  || [math]I = \sum I_j[/math]
|-
| style="text-align: left" | Sum      || || ||
|| [math]\sum_i y_{ij}[/math]                || ||
| style="text-align: left" |  Sum    || [math]\sum_j \sum_i y_{ij}[/math]
|-
| style="text-align: left" | Sum Sq    || || ||
|| [math]\sum_i (y_{ij})^2[/math]            || ||
| style="text-align: left" | Sum Sq  || [math]\sum_j \sum_i (y_{ij})^2[/math]
|-
| style="text-align: left" | Mean      || [math]m_1[/math] || [math]\dotso[/math] ||
|| [math]m_j[/math] || [math]\dotso[/math]  || [math]m_J[/math]
| style="text-align: left" |  Mean    || [math]m[/math]
|-
| style="text-align: left" | Variance  || [math]s_1^2[/math]|| [math]\dotso[/math] ||
|| [math]s_j^2[/math] || [math]\dotso[/math] || [math]s_J^2[/math]
| style="text-align: left" | Variance || [math]s^2[/math]
|}
 
比较模型和总结: [math]\mu = m[/math] 和 [math]\mu_j = m_j[/math]。总均值和总方差是根据总和计算的,而不是根据组均值和方差计算的。
 
====假设检验====
 
给定总结统计数据,假设检验的计算以表格形式展示。虽然展示了两列SS以说明它们的解释价值,但只需要一列来展示结果。
 
{| cellpadding="2" style="border: 1px solid darkgray; text-align=center;"
|+ ANOVA table for fixed model, single factor, fully randomized experiment
|-
!Source of variation
!Sums of squares
!Sums of squares
!Degrees of freedom
!Mean square
!F
|-
!
!Explanatory SS<ref>
{{Cite book
| last1 = Moore
| first1 = David S.
| last2 = McCabe
| first2 = George P.
| title = Introduction to the Practice of Statistics
| url = https://archive.org/details/isbn_9780716749127
| url-access = registration
| publisher = W H Freeman & Co.
| year = 2003
| edition = 4th
| page = 764
| isbn = 0716796570
}}
</ref>
!Computational SS<ref>
{{Cite book
| last1 = Winkler
| first1 = Robert L.
| last2 = Hays
| first2 = William L.
| title = Statistics: Probability, Inference, and Decision
| url = https://archive.org/details/statisticsprobab0000wink
| url-access = registration
| place = New York
| publisher = Holt, Rinehart and Winston
| year = 1975
| edition = 2nd
| page = [https://archive.org/details/statisticsprobab0000wink/page/761 761]
}}
</ref>
!DF
!MS
!
|-
!Treatments
! [math]\sum_{Treatments} I_j (m_j-m)^2[/math]
! style="padding-left:1em;padding-right:1em" | [math]\sum_j \frac{(\sum_i y_{ij})^2}{I_j} - \frac{(\sum_j \sum_i y_{ij})^2}{I}[/math]
! style="padding-left:1em;padding-right:1em" | [math]J-1[/math]
! style="padding-left:1em;padding-right:1em" | [math]\frac{SS_{Treatment}}{DF_{Treatment}}[/math]
! style="padding-left:1em;padding-right:1em" | [math]\frac{MS_{Treatment}}{MS_{Error}}[/math]
|-
!Error
! [math]\sum_{Treatments} (I_j-1)s_j^2[/math]
! [math]\sum_j \sum_i y_{ij}^2 - \sum_j \frac{(\sum_i y_{ij})^2}{I_j}[/math]
! [math]I-J[/math]
! [math]\frac{SS_{Error}}{DF_{Error}}[/math]
|
|-
!Total
! [math]\sum_{Observations} (y_{ij}-m)^2[/math]
! [math]\sum_j \sum_i y_{ij}^2 - \frac{(\sum_j \sum_i y_{ij})^2}{I}[/math]
! [math]I-1[/math]
|}
 
[math]MS_{Error}[/math] 是对模型中 [math]\sigma^2[/math] 的方差估计。
 
====分析总结====
核心ANOVA分析包括一系列计算。数据以表格形式收集。然后
* 每个处理组通过实验单元的数量、两个总和、一个均值和一个方差来进行总结。处理组总结合并以提供单位总数和总和。总均值和总方差是根据总和计算的。模型中使用处理和总均值。
* 从总结中计算出三个DF和SS。然后计算MS,比值决定F。
* 计算机通常根据F确定一个p值,以确定处理是否产生显著不同的结果。如果结果显著,那么模型暂时有效。
 
如果实验是平衡的,所有的 [math]I_j[/math] 项都相等,所以SS方程简化了。
 
在更复杂的实验中,如果实验单元(或环境效应)不是均质的,行统计也用于分析。模型包括依赖于 [math]i[/math] 的项。确定额外项会减少可用的自由度数量。
 
== '''节点使用的R语言示例代码''' ==
=== '''配对样本''' ===
<syntaxhighlight lang="R">
library(onewaytests)
 
out <- aov.test(Sepal.Length ~ Species, data = iris)
paircomp(out)
paircomp(out, adjust.method = "hochberg")
 
out2 <- kw.test(Sepal.Length ~ Species, data = iris)
paircomp(out2)
paircomp(out2, adjust.method = "hommel")
 
out3 <- kw.test(Sepal.Length ~ Species, data = iris)
paircomp(out3)
paircomp(out3, adjust.method = "holm")
</syntaxhighlight>
方法参见'''R package: onewaytests'''的官方文档<ref>{{CiteStatsape|url=https://CRAN.R-project.org/package=onewaytests|text=https://CRAN.R-project.org/package=onewaytests|accessdate=2023.12.20}}</ref>
 
=== '''Anova''' ===
<syntaxhighlight lang="R">
library(onewaytests)
 
aov.test(Sepal.Length ~ Species, data = iris)
 
out <- aov.test(Sepal.Length ~ Species, data = iris)
paircomp(out)
</syntaxhighlight>
方法参见'''R package: onewaytests'''的官方文档<ref>{{CiteStatsape|url=https://CRAN.R-project.org/package=onewaytests|text=https://CRAN.R-project.org/package=onewaytests|accessdate=2023.12.20}}</ref>
 
== '''节点使用指南''' ==
 
=== '''方法选择''' ===
对方法选择要点和关键事项进行表述。重点在于实用性。
 
=== '''参数配置''' ===
对参数配置中的一些关键点进行表述(比如变量类型、是否兼容空值、是否要规避复用等,比如立方条样变量不能和自变量重复等)。
 
=== '''注意事项''' ===
对注意事项进行表述。
 
=== '''视频链接''' ===
请前往视频号观看详细的使用指导。 [https://www.bilibili.com 点此链接]
 
 
== 另行参见 ==
 
*{{Link Statsape|url=https://wiki.statsape.com/节点页面名称1|text=Text Source 1}}
*{{Link Statsape|url=https://wiki.statsape.com/节点页面名称1|text=Text Source 2}}
*{{Link Statsape|url=https://wiki.statsape.com/节点页面名称1|text=Text Source 3}}
 
== 引用 ==
{{Reflist}}
 
 
{{Navplate AlgorithmNodeList}}
 
[[Category:方差分析]]

2024年1月19日 (五) 18:38的版本

重定向到: