一 方差分析的概念(英语:Analysis of variance,简称ANOVA)
为数据分析中常见的统计模型,主要为探讨连续型(Continuous)资料型态之因变量(Dependent variable)与类别型资料型态之自变量(Independent variable)的关系,当自变项的因子中包含等于或超过三个类别情况下,检验其各类别间平均数是否相等的统计模式,广义上可将T检验中方差相等(Equality of variance)的合并T检验(Pooled T-test)视为是方差分析的一种,基于T检验为分析两组平均数是否相等,并且采用相同的计算概念,而实际上当方差分析套用在合并T检验的分析上时,产生的F值则会等于T检验的平方项。
方差分析依靠F-分布为概率分布的依据,利用平方和(Sum of square)与自由度(Degree of freedom)所计算的组间与组内均方(Mean of square)估计出F值,若有显著差异则考量进行事后比较或称多重比较(Multiple comparison),较常见的为薛费法(事后比较法)、杜其范围检验与邦费罗尼校正,用于探讨其各组之间的差异为何。
在方差分析的基本运算概念下,依照所感兴趣的因子数量而可分为单因子方差分析、双因子方差分析、多因子方差分析三大类,依照因子的特性不同而有三种型态,固定效应方差分析(fixed-effect analysis of variance)、随机效应方差分析(random-effect analysis of variance)与混合效应方差分析(Mixed-effect analaysis of variance),然而第三种型态在后期发展上被认为是Mixed model的分支,关于更进一步的探讨可参考Mixed model的部分。
方差分析优于两组比较的T检验之处,在于后者会导致多重比较(multiple comparisons)的问题而致使第一型错误(Type one error)的机会增高,因此比较多组平均数是否有差异则是方差分析的主要命题。
在统计学中,方差分析(ANOVA)是一系列统计模型及其相关的过程总称,其中某一变量的方差可以分解为归属于不同变量来源的部分。其中最简单的方式中,方差分析的统计测试能够说明几组数据的平均值是否相等,因此得到两组的T检验。在做多组双变量T检验的时候,错误的概率会越来越大,特别是第一类错误,因此方差分析只在二到四组平均值的时候比较有效。
1.1 ANOVA的模式假设
方差分析之统计分析假设通常会依照各种模式型态不同而有差异,但广义而言,方差分析一共有三大前提假设:
- 各组样本背后所隐含的族群分布必须为正态分布或者是逼近正态分布。
- 各组样本必须独立。
- 族群的方差必须相等。
总变量(TSS):[math]\sum_{i}\sum_{j}(Y_{ij}-\overline{Y}_{total})^2;[/math]
i为组别(i=1,2...,I),j为观测值个数(j=1,2,3,...,J),[math]Y_{ij}[/math]为第i组第j个观测值,[math]\overline{Y}_{total}[/math]为所有观测值的平均数。
[math]n_i[/math]为i组内观测值总数,[math]\overline{Y}_i[/math]为第i组的平均数
组内变异量(WSS):[math]\sum_{i}\sum_{j}(Y_{ij}-\overline{Y}_i)^2[/math]
由上述的计算公式可知,BSS代表所有观测值的期望值与分组后各组内的期望值差异,换言之,当各组的期望值没有差异的时候,BSS=0,这个时候我们会认为各组间平均值就没有差异存在,但并不代表所有观测值的一致性也会很高,因此计算WSS来帮助我们判断所有期望值的差异量多寡,当WSS=0的情况,代表各组内的所有观测值与各组的期望值没有差异存在,因此只有WSS与BSS都为0情况下,我们才能断定所有观测值达到完美的一致,然而当WSS>0, BSS=0的情况,则是各组期望值达到一致,但组内却存在变异,WSS=0, BSS>0,则是组内没有变异存在,但各组间却存在差异,然后真实状况不可能如此极端,因此必须比较WSS与BSS的差异来判断方差分析的结果,也就是各组期望值是否有差异存在。而这个部分在比较变异量的过程中,必须考量到各组变易量会受到观测数量与组别数量的多寡而有所差异,因此必须进行自由度的调整,也就是计算出均方值来比较组内变异与组间变异量。
组间均方BMSS(between means sum of squares):[math]BMSS[/math]=[math]\frac{BSS}{k-1}[/math] = [math]\frac{\sum_{i}n_i(\overline{Y}_i-\overline{Y}_{total})^2}{k-1}[/math]
组内均方WMSS(within means sum of squares):[math]WMSS[/math]=[math]\frac{WSS}{N-k}[/math] = [math]\frac{\sum_{i}\sum_{j}(Y_{ij}-\overline{Y}_i)^2}{N-k}[/math]
其中k为组别数量,N为观测值总数。两个均方值的比较为 [math]\frac{BMSS}{WMSS}[/math]
此比较值也就是目前惯称的F检验值,F越大,则组间均方大于组内均方,也就是组间变异量大于组内变异量,各组间的差异远超出总期望值离差,代表各组的平均数存在明显的差异,相反的,F越小甚至于接近于0,则是组间变异量小于组内变异量,代表各组间的差异很小,各组平均数则不存在明显的差异。整个分析概念中,受到方差分析所规范的族群的方差必须相等的条件下,组内变异量成为了基准,因此组间变异量的多寡就成了判定方差分析结论的重要数值,然而F值仅为提供判断虚拟假设存在的可能性,为了方便下结论,由alpha值决定可容许的错误判断概率为5%,因此F值所计算的虚拟假设概率值若小于0.05,则下定论为各组存在差异,其隐含的意义则是否定了各组间无差异的概率,也就是容许了各组无差异可能成真的错误判断概率,因为判断错误的概率太小而能容许,但并不代表不可能判断错误,因此任何F检验的结果均只能下定论为达到统计上的意义,而非绝对意义。
1.2 双因子方差分析(Two-way ANOVA)
在许多情境下,某现象并非仅受单一因子的影响,甚至存在另一个因子的效应,例如要比较五个都市的空气污染总指标差异,除了都市别的因素之外,还必须考量汽机车密度的因素,在这样的情境下,都市别与汽机车密度可能就存在着某种效应影响着空气污染的多寡,因此在双因子方差分析中,除了考量双因子彼此的效应之外,也可能存在因子之间的联合效应,也就是因子间的交互作用(interaction),这也使得双因子方差分析变的比较复杂。
延续单因子方差分析的基本概念,双因子方差分析也能将总变异量分解成双因子的主效应与双因子的联合效应,还有表示误差项的组内差异量,为了简化问题,其下列的计算均表示为各组间样本数一致的情况下,其线性关系为TSS=ASS+BSS+WSS+ABSS。
总变异量(TSS):[math]\sum_{i}\sum_{j}\sum_{z}(Y_{ijz}-\overline{Y}_{total})^2[/math]
A因子的主效应(ASS):[math]nb\sum_{i}(\overline{Y}_{i}-\overline{Y}_{total})^2[/math] 其均方AMSS为:[math]\frac{ASS}{a-1}[/math]
B因子的主效应(BSS):[math]na\sum_{j}(\overline{Y}_{j}-\overline{Y}_{total})^2[/math] 其均方BMSS为:[math]\frac{BSS}{b-1}[/math]
AB因子的交互作用(ABSS):[math]n\sum_{i}\sum_{j}(\overline{Y}_{ij}-\overline{Y}_{i}-\overline{Y}_{j}+\overline{Y}_{total})^2[/math] 其均方ABMSS为:[math]\frac{ABSS}{(a-1)(b-1)}[/math]
组内差异量(WSS):[math]\sum_{i}\sum_{j}\sum_{z}(Y_{ijz}-\overline{Y}_{ij})^2[/math] 其均方WMSS为:[math]\frac{WSS}{ab(n-1)}[/math]
在F检验中,由于考虑的双因子的个别主效应与交互作用,因此会出现三个检验方向,其一为A因子检验、B因子检验与交互作用的检验。
A因子的F检验为:[math]\frac{AMSS}{WMSS}[/math]
B因子的F检验为:[math]\frac{BMSS}{WMSS}[/math]
交互作用的F检验为:[math]\frac{ABMSS}{WMSS}[/math]
在交互作用不显著的情况下,才会考虑依照各别因子主效应的检验结果做为双因子方差分析的结论。
二 在决策链Web版中的操作指南
2.1 网页端版本
1)点击数据分析板块
2) 分析方法中:
- 所属模块选择: 正态性检验
- 直接选择或搜索选择:方差分析
3)变量选择界面:
- 变量选择:Y (连续型,选择多个变量可做多个方差分析);
- 分组变量选择:A (连续型/离散型,选择一个做one-way);
- 分层变量选择:B(连续型/离散型,选择一个做two-way; 留空则做one-way)
4)提交分析,生成结果压缩包或PDF。
2.2 PC版本
开发中
三 使用建议
建议前往决策链BBS论坛的专题页面获取更多的使用经验。 点此链接