One Way ANOVA:修订间差异

来自决策链云智库
无编辑摘要
标签手工回退 已被回退
无编辑摘要
标签手工回退
第1行: 第1行:
{{Infobox nodebasic  
{{Infobox nodebasic
|nodename=One_Way_ANOVA
|nodename=One_Way_ANOVA
|nodeimage=One Way ANOVA.png
|nodeimage=One Way ANOVA.png
第28行: 第28行:
}}
}}


== '''方差分析的概念'''(英语:Analysis of variance,简称'''ANOVA''') ==
为数据分析中常见的统计模型,主要为探讨连续型(Continuous)资料型态之因变量(Dependent variable)与类别型资料型态之自变量(Independent variable)的关系,当自变项的因子中包含等于或超过三个类别情况下,检验其各类别间平均数是否相等的统计模式,广义上可将T检验中方差相等(Equality of variance)的合并T检验(Pooled T-test)视为是方差分析的一种,基于T检验为分析两组平均数是否相等,并且采用相同的计算概念,而实际上当方差分析套用在合并T检验的分析上时,产生的F值则会等于T检验的平方项。
方差分析依靠F-分布为概率分布的依据,利用平方和(Sum of square)与自由度(Degree of freedom)所计算的组间与组内均方(Mean of square)估计出F值,若有显著差异则考量进行事后比较或称多重比较(Multiple comparison),较常见的为薛费法(事后比较法)、杜其范围检验与邦费罗尼校正,用于探讨其各组之间的差异为何。<ref>{{CiteStatsape|url=https://pubmed.ncbi.nih.gov/paper2023|text=文章题目|accessdate=2023.12.12}}</ref>
在方差分析的基本运算概念下,依照所感兴趣的因子数量而可分为单因子方差分析、双因子方差分析、多因子方差分析三大类,依照因子的特性不同而有三种型态,固定效应方差分析(fixed-effect analysis of variance)、随机效应方差分析(random-effect analysis of variance)与混合效应方差分析(Mixed-effect analaysis of variance),然而第三种型态在后期发展上被认为是Mixed model的分支,关于更进一步的探讨可参考Mixed model的部分。
方差分析优于两组比较的T检验之处,在于后者会导致多重比较(multiple comparisons)的问题而致使第一型错误(Type one error)的机会增高,'''因此比较多组平均数是否有差异则是方差分析的主要命题'''。
在统计学中,'''方差分析'''('''ANOVA''')是一系列统计模型及其相关的过程总称,其中某一变量的方差可以分解为归属于不同变量来源的部分。其中最简单的方式中,方差分析的统计测试能够说明几组数据的平均值是否相等,因此得到两组的T检验。在做多组双变量T检验的时候,错误的概率会越来越大,特别是第一类错误,因此方差分析只在二到四组平均值的时候比较有效。
=== '''ANOVA的模式假设''' ===
方差分析之统计分析假设通常会依照各种模式型态不同而有差异,但广义而言,方差分析一共有三大前提假设:
# 各组样本背后所隐含的族群分布必须为正态分布或者是逼近正态分布。
# 各组样本必须独立。
# 族群的方差必须相等。
总变量(TSS):[math]\sum_{i}\sum_{j}(Y_{ij}-\overline{Y}_{total})^2;[/math]
i为组别(i=1,2...,I),j为观测值个数(j=1,2,3,...,J),[math]Y_{ij}[/math]为第i组第j个观测值,[math]\overline{Y}_{total}[/math]为所有观测值的平均数。
<center> 组间变异量(BSS):[math]\sum_{i}n_i(\overline{Y}_i-\overline{Y}_{total})^2[/math] </center>
[math]n_i[/math]为i组内观测值总数,[math]\overline{Y}_i[/math]为第i组的平均数
组内变异量(WSS):[math]\sum_{i}\sum_{j}(Y_{ij}-\overline{Y}_i)^2[/math]
由上述的计算公式可知,BSS代表所有观测值的期望值与分组后各组内的期望值差异,换言之,当各组的期望值没有差异的时候,BSS=0,这个时候我们会认为各组间平均值就没有差异存在,但并不代表所有观测值的一致性也会很高,因此计算WSS来帮助我们判断所有期望值的差异量多寡,当WSS=0的情况,代表各组内的所有观测值与各组的期望值没有差异存在,因此只有WSS与BSS都为0情况下,我们才能断定所有观测值达到完美的一致,然而当WSS>0, BSS=0的情况,则是各组期望值达到一致,但组内却存在变异,WSS=0, BSS>0,则是组内没有变异存在,但各组间却存在差异,然后真实状况不可能如此极端,因此必须比较WSS与BSS的差异来判断方差分析的结果,也就是各组期望值是否有差异存在。而这个部分在比较变异量的过程中,必须考量到各组变易量会受到观测数量与组别数量的多寡而有所差异,因此必须进行自由度的调整,也就是计算出均方值来比较组内变异与组间变异量。
组间均方BMSS(between means sum of squares):[math]BMSS[/math]=[math]\frac{BSS}{k-1}[/math] = [math]\frac{\sum_{i}n_i(\overline{Y}_i-\overline{Y}_{total})^2}{k-1}[/math]
组内均方WMSS(within means sum of squares):[math]WMSS[/math]=[math]\frac{WSS}{N-k}[/math] = [math]\frac{\sum_{i}\sum_{j}(Y_{ij}-\overline{Y}_i)^2}{N-k}[/math]
其中k为组别数量,N为观测值总数。两个均方值的比较为 [math]\frac{BMSS}{WMSS}[/math]
此比较值也就是目前惯称的F检验值,F越大,则组间均方大于组内均方,也就是组间变异量大于组内变异量,各组间的差异远超出总期望值离差,代表各组的平均数存在明显的差异,相反的,F越小甚至于接近于0,则是组间变异量小于组内变异量,代表各组间的差异很小,各组平均数则不存在明显的差异。整个分析概念中,受到方差分析所规范的族群的方差必须相等的条件下,组内变异量成为了基准,因此组间变异量的多寡就成了判定方差分析结论的重要数值,然而F值仅为提供判断虚拟假设存在的可能性,为了方便下结论,由alpha值决定可容许的错误判断概率为5%,因此F值所计算的虚拟假设概率值若小于0.05,则下定论为各组存在差异,其隐含的意义则是否定了各组间无差异的概率,也就是容许了各组无差异可能成真的错误判断概率,因为判断错误的概率太小而能容许,但并不代表不可能判断错误,因此任何F检验的结果均只能下定论为达到统计上的意义,而非绝对意义。
=== '''双因子方差分析(Two-way ANOVA)''' ===
在许多情境下,某现象并非仅受单一因子的影响,甚至存在另一个因子的效应,例如要比较五个都市的空气污染总指标差异,除了都市别的因素之外,还必须考量汽机车密度的因素,在这样的情境下,都市别与汽机车密度可能就存在着某种效应影响着空气污染的多寡,因此在双因子方差分析中,除了考量双因子彼此的效应之外,也可能存在因子之间的联合效应,也就是因子间的交互作用(interaction),这也使得双因子方差分析变的比较复杂。
延续单因子方差分析的基本概念,双因子方差分析也能将总变异量分解成双因子的主效应与双因子的联合效应,还有表示误差项的组内差异量,为了简化问题,其下列的计算均表示为各组间样本数一致的情况下,其线性关系为TSS=ASS+BSS+WSS+ABSS。
总变异量(TSS):[math]\sum_{i}\sum_{j}\sum_{z}(Y_{ijz}-\overline{Y}_{total})^2[/math]
A因子的主效应(ASS):[math]nb\sum_{i}(\overline{Y}_{i}-\overline{Y}_{total})^2[/math]
其均方AMSS为:[math]\frac{ASS}{a-1}[/math]
B因子的主效应(BSS):[math]na\sum_{j}(\overline{Y}_{j}-\overline{Y}_{total})^2[/math]
其均方BMSS为:[math]\frac{BSS}{b-1}[/math]
AB因子的交互作用(ABSS):[math]n\sum_{i}\sum_{j}(\overline{Y}_{ij}-\overline{Y}_{i}-\overline{Y}_{j}+\overline{Y}_{total})^2[/math]
其均方ABMSS为:[math]\frac{ABSS}{(a-1)(b-1)}[/math]
组内差异量(WSS):[math]\sum_{i}\sum_{j}\sum_{z}(Y_{ijz}-\overline{Y}_{ij})^2[/math],
其均方WMSS为:[math]\frac{WSS}{ab(n-1)}[/math]
在F检验中,由于考虑的双因子的个别主效应与交互作用,因此会出现三个检验方向,其一为A因子检验、B因子检验与交互作用的检验。
A因子的F检验为:[math]\frac{AMSS}{WMSS}[/math]
B因子的F检验为:[math]\frac{BMSS}{WMSS}[/math]
交互作用的F检验为:[math]\frac{ABMSS}{WMSS}[/math]
在交互作用不显著的情况下,才会考虑依照各别因子主效应的检验结果做为双因子方差分析的结论。
== '''节点使用指南''' ==
=== '''方法选择''' ===
对方法选择要点和关键事项进行表述。重点在于实用性。
=== '''参数配置''' ===
对参数配置中的一些关键点进行表述(比如变量类型、是否兼容空值、是否要规避复用等,比如立方条样变量不能和自变量重复等)。
=== '''注意事项''' ===
对注意事项进行表述。
=== '''视频链接''' ===
请前往视频号观看详细的使用指导。 [https://www.bilibili.com 点此链接]
== 另行参见 ==
*{{Link Statsape|url=https://wiki.statsape.com/节点页面名称1|text=Text Source 1}}
*{{Link Statsape|url=https://wiki.statsape.com/节点页面名称1|text=Text Source 2}}
*{{Link Statsape|url=https://wiki.statsape.com/节点页面名称1|text=Text Source 3}}
== 引用 ==
{{Reflist}}
<references />


{{Navplate AlgorithmNodeList}}
{{Navplate AlgorithmNodeList}}


[[Category:方差分析]]
[[Category:方差分析]]

2023年12月6日 (三) 16:16的版本

One Way ANOVA.png
节点状态
PC可用
V1.0部署
One_Way_ANOVATestIcon2 WithWhiteBoarder.svg
节点开发者决策链算法研发部 (Dev.Team-DPS)
节点英文名One Way ANOVA
功能主类别数据分析
英文缩写One Way ANOVA
功能亚类别方差分析
节点类型数据挖掘
开发语言R
节点简介

One Way ANOVA也称为单因素方差分析, 是用来检验多个平均数之间的差异, 从而确定因素对试验结果有无显著性影响。单因素则是实验中只选择一个因素。方差分析需要满足以下条件: 观察变量为连续变量且不存在显著的异常值,观测值相互独立且需要为两组以上变量, 各组观测值必须为或接近正态分布,多组整体方差相等。

用途:用于研究一个因素(或独立变量)在不同水平上对一个因变量的影响是否显著,也就是检验三个或更多组的平均值是否相等。如果你只有两个组,通常会使用t检验,但如果有三个或更多的组,那么应该使用ANOVA。

参数:选择正态分布数值因变量,和分组自变量

端口数量与逻辑控制(PC)
Input-入口4个
Output-出口3个
Loop-支持循环
If/Switch-支持逻辑判断
输入输出
可生成图片类型(推荐)
可生成数据表类型(推荐)
相关节点
上一节点F检验
下一节点Two_Way_ANOVA



方差分析的概念(英语:Analysis of variance,简称ANOVA

为数据分析中常见的统计模型,主要为探讨连续型(Continuous)资料型态之因变量(Dependent variable)与类别型资料型态之自变量(Independent variable)的关系,当自变项的因子中包含等于或超过三个类别情况下,检验其各类别间平均数是否相等的统计模式,广义上可将T检验中方差相等(Equality of variance)的合并T检验(Pooled T-test)视为是方差分析的一种,基于T检验为分析两组平均数是否相等,并且采用相同的计算概念,而实际上当方差分析套用在合并T检验的分析上时,产生的F值则会等于T检验的平方项。

方差分析依靠F-分布为概率分布的依据,利用平方和(Sum of square)与自由度(Degree of freedom)所计算的组间与组内均方(Mean of square)估计出F值,若有显著差异则考量进行事后比较或称多重比较(Multiple comparison),较常见的为薛费法(事后比较法)、杜其范围检验与邦费罗尼校正,用于探讨其各组之间的差异为何。[1]

在方差分析的基本运算概念下,依照所感兴趣的因子数量而可分为单因子方差分析、双因子方差分析、多因子方差分析三大类,依照因子的特性不同而有三种型态,固定效应方差分析(fixed-effect analysis of variance)、随机效应方差分析(random-effect analysis of variance)与混合效应方差分析(Mixed-effect analaysis of variance),然而第三种型态在后期发展上被认为是Mixed model的分支,关于更进一步的探讨可参考Mixed model的部分。

方差分析优于两组比较的T检验之处,在于后者会导致多重比较(multiple comparisons)的问题而致使第一型错误(Type one error)的机会增高,因此比较多组平均数是否有差异则是方差分析的主要命题

在统计学中,方差分析ANOVA)是一系列统计模型及其相关的过程总称,其中某一变量的方差可以分解为归属于不同变量来源的部分。其中最简单的方式中,方差分析的统计测试能够说明几组数据的平均值是否相等,因此得到两组的T检验。在做多组双变量T检验的时候,错误的概率会越来越大,特别是第一类错误,因此方差分析只在二到四组平均值的时候比较有效。

ANOVA的模式假设

方差分析之统计分析假设通常会依照各种模式型态不同而有差异,但广义而言,方差分析一共有三大前提假设:

  1. 各组样本背后所隐含的族群分布必须为正态分布或者是逼近正态分布。
  2. 各组样本必须独立。
  3. 族群的方差必须相等。

总变量(TSS):[math]\sum_{i}\sum_{j}(Y_{ij}-\overline{Y}_{total})^2;[/math]

i为组别(i=1,2...,I),j为观测值个数(j=1,2,3,...,J),[math]Y_{ij}[/math]为第i组第j个观测值,[math]\overline{Y}_{total}[/math]为所有观测值的平均数。

组间变异量(BSS):[math]\sum_{i}n_i(\overline{Y}_i-\overline{Y}_{total})^2[/math]

[math]n_i[/math]为i组内观测值总数,[math]\overline{Y}_i[/math]为第i组的平均数

组内变异量(WSS):[math]\sum_{i}\sum_{j}(Y_{ij}-\overline{Y}_i)^2[/math]

由上述的计算公式可知,BSS代表所有观测值的期望值与分组后各组内的期望值差异,换言之,当各组的期望值没有差异的时候,BSS=0,这个时候我们会认为各组间平均值就没有差异存在,但并不代表所有观测值的一致性也会很高,因此计算WSS来帮助我们判断所有期望值的差异量多寡,当WSS=0的情况,代表各组内的所有观测值与各组的期望值没有差异存在,因此只有WSS与BSS都为0情况下,我们才能断定所有观测值达到完美的一致,然而当WSS>0, BSS=0的情况,则是各组期望值达到一致,但组内却存在变异,WSS=0, BSS>0,则是组内没有变异存在,但各组间却存在差异,然后真实状况不可能如此极端,因此必须比较WSS与BSS的差异来判断方差分析的结果,也就是各组期望值是否有差异存在。而这个部分在比较变异量的过程中,必须考量到各组变易量会受到观测数量与组别数量的多寡而有所差异,因此必须进行自由度的调整,也就是计算出均方值来比较组内变异与组间变异量。

组间均方BMSS(between means sum of squares):[math]BMSS[/math]=[math]\frac{BSS}{k-1}[/math] = [math]\frac{\sum_{i}n_i(\overline{Y}_i-\overline{Y}_{total})^2}{k-1}[/math]

组内均方WMSS(within means sum of squares):[math]WMSS[/math]=[math]\frac{WSS}{N-k}[/math] = [math]\frac{\sum_{i}\sum_{j}(Y_{ij}-\overline{Y}_i)^2}{N-k}[/math]

其中k为组别数量,N为观测值总数。两个均方值的比较为 [math]\frac{BMSS}{WMSS}[/math]

此比较值也就是目前惯称的F检验值,F越大,则组间均方大于组内均方,也就是组间变异量大于组内变异量,各组间的差异远超出总期望值离差,代表各组的平均数存在明显的差异,相反的,F越小甚至于接近于0,则是组间变异量小于组内变异量,代表各组间的差异很小,各组平均数则不存在明显的差异。整个分析概念中,受到方差分析所规范的族群的方差必须相等的条件下,组内变异量成为了基准,因此组间变异量的多寡就成了判定方差分析结论的重要数值,然而F值仅为提供判断虚拟假设存在的可能性,为了方便下结论,由alpha值决定可容许的错误判断概率为5%,因此F值所计算的虚拟假设概率值若小于0.05,则下定论为各组存在差异,其隐含的意义则是否定了各组间无差异的概率,也就是容许了各组无差异可能成真的错误判断概率,因为判断错误的概率太小而能容许,但并不代表不可能判断错误,因此任何F检验的结果均只能下定论为达到统计上的意义,而非绝对意义。

双因子方差分析(Two-way ANOVA)

在许多情境下,某现象并非仅受单一因子的影响,甚至存在另一个因子的效应,例如要比较五个都市的空气污染总指标差异,除了都市别的因素之外,还必须考量汽机车密度的因素,在这样的情境下,都市别与汽机车密度可能就存在着某种效应影响着空气污染的多寡,因此在双因子方差分析中,除了考量双因子彼此的效应之外,也可能存在因子之间的联合效应,也就是因子间的交互作用(interaction),这也使得双因子方差分析变的比较复杂。


延续单因子方差分析的基本概念,双因子方差分析也能将总变异量分解成双因子的主效应与双因子的联合效应,还有表示误差项的组内差异量,为了简化问题,其下列的计算均表示为各组间样本数一致的情况下,其线性关系为TSS=ASS+BSS+WSS+ABSS。

总变异量(TSS):[math]\sum_{i}\sum_{j}\sum_{z}(Y_{ijz}-\overline{Y}_{total})^2[/math]

A因子的主效应(ASS):[math]nb\sum_{i}(\overline{Y}_{i}-\overline{Y}_{total})^2[/math]

其均方AMSS为:[math]\frac{ASS}{a-1}[/math]

B因子的主效应(BSS):[math]na\sum_{j}(\overline{Y}_{j}-\overline{Y}_{total})^2[/math]

其均方BMSS为:[math]\frac{BSS}{b-1}[/math]

AB因子的交互作用(ABSS):[math]n\sum_{i}\sum_{j}(\overline{Y}_{ij}-\overline{Y}_{i}-\overline{Y}_{j}+\overline{Y}_{total})^2[/math]

其均方ABMSS为:[math]\frac{ABSS}{(a-1)(b-1)}[/math]

组内差异量(WSS):[math]\sum_{i}\sum_{j}\sum_{z}(Y_{ijz}-\overline{Y}_{ij})^2[/math],

其均方WMSS为:[math]\frac{WSS}{ab(n-1)}[/math]

在F检验中,由于考虑的双因子的个别主效应与交互作用,因此会出现三个检验方向,其一为A因子检验、B因子检验与交互作用的检验。

A因子的F检验为:[math]\frac{AMSS}{WMSS}[/math]

B因子的F检验为:[math]\frac{BMSS}{WMSS}[/math]

交互作用的F检验为:[math]\frac{ABMSS}{WMSS}[/math]

在交互作用不显著的情况下,才会考虑依照各别因子主效应的检验结果做为双因子方差分析的结论。

节点使用指南

方法选择

对方法选择要点和关键事项进行表述。重点在于实用性。

参数配置

对参数配置中的一些关键点进行表述(比如变量类型、是否兼容空值、是否要规避复用等,比如立方条样变量不能和自变量重复等)。

注意事项

对注意事项进行表述。

视频链接

请前往视频号观看详细的使用指导。 点此链接


另行参见

  • Text Source 1
  • Text Source 2
  • Text Source 3

引用

  1. 文章题目. 决策链云智库. Retrieved 2023.12.12


查找其他类别的节点,请参考以下列表