单因素正态性检验

来自决策链云智库
Normality Test Single Factor.png
节点状态
Windows / Windows 10 Win10及以上可用
V1.0部署
单因素正态性检验Normality Test Single Factor.svg
节点开发者决策链算法研发部 (Dev.Team-DPS)
节点英文名Normality Test_Single Factor
功能主类别数据分析
英文缩写NomTSF
功能亚类别正态性检验
节点类型数据挖掘
开发语言R
节点简介

单因素正态性检验用于检查某观测值是否符合正态分布。此检验使用的方法有:Kolmogorov-Smirnov检验, Anderson-Darling检验,Lilliefors检验, 和Shapiro-Wilk检验。对于样本量大于200可以采用 Anderson-Darling检验。对于样本量小于5000的样本可以采用Shapiro-Wilk检验。

用途:用于检验一个变量是否服从正态分布。

参数:选择连续型数值变量

端口数量与逻辑控制(PC)
Input-入口3个
Output-出口3个
Loop-支持循环
If/Switch-支持逻辑判断
输入输出
可生成图片类型(推荐)
可生成数据表类型(推荐)
相关节点
上一节点数据分析描述统计
下一节点多因素正态性检验



统计学中,正态性检验被用来确定一个数据集是否被正态分布很好地建模,并计算一个随机变量作为数据集的基础被正态分布的可能性。

更精确地说,这些检验是一种模型选择的形式,可以根据一个人的概率解释以几种方式解释:

  • 描述性统计术语中,人们测量一个正态模型对数据的拟合优度 - 如果拟合效果不佳,则数据在这方面不被正态分布很好地建模,而不对任何潜在变量做出判断。
  • 频率统计学统计假设检验中,数据被测试是否符合它正态分布的零假设
  • 贝叶斯统计学中,人们不会直接"测试正态性",而是计算数据来源于具有给定参数[math]μ[/math],[math]σ[/math](对所有[math]μ[/math],[math]σ[/math])的正态分布的可能性,并将其与数据来自其他正在考虑的分布的可能性进行比较,最简单的方法是使用贝叶斯因子(给出了在不同模型下看到数据的相对可能性),或者更细致地对可能的模型和参数采取先验分布,并计算给定计算出的可能性的后验分布

正态性检验用于确定样本数据是否来自于一个正态分布的人群(在某种容忍度内)。许多统计检验,如学生的t检验和一元和双向方差分析,要求样本人群是正态分布的。

图形方法

测试正态性的非正式方法是将样本数据的直方图与正态概率曲线进行比较。数据的经验分布(即直方图)应呈钟形并类似于正态分布。如果样本较小,这可能难以看出。在这种情况下,可以通过将数据回归到具有与样本相同均值和方差的正态分布的分位数来进行处理。拟合回归线的不足暗示了偏离正态性(参见安德森达林系数和Minitab)。

评估正态性的图形工具是正态概率图,即将标准化数据与标准正态分布进行的分位数-分位数图(QQ图)。这里样本数据与正态分位数(拟合优度的一种衡量)之间的相关性衡量了数据被正态分布建模的程度。对于正态数据,QQ图中绘制的点应该大致落在一条直线上,表明有很高的正相关性。这些图形易于解释,并且具有轻松识别异常值的优点。

简易测试

模板:锚点 简单的信封背面测试取样本的最大值和最小值并计算它们的z得分,或更准确地说t统计量 (样本高于或低于样本均值的样本标准差数),并将其与68-95-99.7规则进行比较: 如果有一个3[math]σ[/math]事件(准确地说,是一个3[math]s[/math]事件)且样本明显少于300个,或者一个4[math]s[/math]事件且样本明显少于15,000个,则正态分布会低估样本数据中偏差的最大幅度。

这个测试在面临峰度风险的情况下非常有用 - 即大的偏差很重要 - 并且具有非常易于计算和交流的优点:非统计学家可以轻易理解“在正态分布中6[math]σ[/math]事件非常罕见”。

常用检验

单变量正态性检验包括以下内容:

一项2011年的研究得出结论,Shapiro–Wilk检验在给定的显著性水平下具有最佳的[math]检验效能[/math],紧随其后的是Anderson–Darling检验,当比较Shapiro–Wilk、Kolmogorov–Smirnov、Lilliefors和Anderson–Darling检验时。[1]

一些已发表的作品推荐Jarque–Bera检验,[2][3],但这个检验有缺点。特别是,对于尾部较短的分布,尤其是对于双峰分布,该检验的效能较低。[4] 一些作者由于其整体表现不佳,选择不在他们的研究中包含其结果。[5]

从历史角度来看,第三和第四个标准化矩偏度峰度)是最早用于检验正态性的测试之一。Lin–Mudholkar检验专门针对不对称的替代方案。[6] Jarque–Bera检验本身就是基于偏度峰度估计而得出的。Mardia的多变量偏度和峰度检验将时刻检验推广到多变量情况。[7] 其他早期的测试统计量包括平均绝对偏差与标准偏差之比以及极差与标准偏差之比。[8]

更近期的正态性检验包括能量检验[9](Székely和Rizzo)以及基于经验特征函数(ECF)的检验(例如 Epps和Pulley,[10] Henze–Zirkler,[11] BHEP检验[12])。能量检验和ECF检验是强大的检验,适用于单变量或多变量正态性的检验,并且在统计上对一般替代方案具有一致性。

正态分布在给定标准偏差的情况下具有最高的熵。有许多基于这一特性的正态性检验,最早的可以追溯到Vasicek。[13]

贝叶斯检验

当考虑整个后验分布的Kullback–Leibler散度,用于斜率和方差时,并不能指示出非正态性。然而,这些后验的期望值比率和比率的期望值给出的结果与Shapiro–Wilk统计量相似,除了在使用非信息先验时对非常小的样本。[14]

Spiegelhalter建议使用贝叶斯因子来比较正态性与其他类型的分布替代方案。[15] 这种方法后来被Farrell和Rogers-Stewart进一步扩展。[16]

应用

正态性检验的一个应用是对线性回归模型中的统计误差和残差[17] 如果残差不是正态分布的,那么不应该在Z检验或任何其他基于正态分布的检验中使用残差,例如t检验F检验卡方检验。如果残差不是正态分布的,那么因变量或至少一个解释变量可能具有错误的函数形式,或者可能缺少重要变量等。纠正一个或多个这样的系统误差可能会产生正态分布的残差;换句话说,残差的非正态性通常是模型缺陷而非数据问题。[18]

节点使用的R语言示例代码

单因素正态性检验

ks.test(x, y, ...,
        alternative = c("two.sided", "less", "greater"),
        exact = NULL, simulate.p.value = FALSE, B = 2000)

lillie.test(x)

方法参见R package: nortest的官方文档


节点使用指南

  • 检测每个变量是否可能来自正态分布

方法选择

  • Kolmogorov–Smirnov:比较样本的经验分布函数(EDF)与理论分布函数(CDF)之间的最大差异。可以用于任何连续分布。
  • Anderson–Darling:类似于K-S检验,但是加权了与分布两端的距离,给尾部更多权重。对样本量较小的数据集可能过于敏感。适用于对尾部偏离敏感的场景。
  • Lilliefor:是K-S检验的变体,适用于当正态分布的参数(均值和方差)从数据中估算时使用。主要用于检验正态分布,不适用于其他分布。
  • Shapiro-Wilk:在小样本数据上(n < 50)通常比其他检验更有统计功效。当样本量较大时,其对于偏离正态的敏感性可能会降低。

参数配置

  • 检验变量:选择一个或多个连续型数值变量,每一个变量做一次正态检验
  • 正态检验方法: Kolmogorov–Smirnov,Anderson–Darling,Lilliefor,Shapiro-Wilk
  • 筛选阈值:选择需要的P值阈值,节点会自动将满足阈值的变量筛选出,数据集也会同步筛选出满足的变量。
  • 此算法兼容空值

注意事项

  • 正态性检验是许多参数统计方法的前提假设,比如单样本t检验、ANOVA、回归分析等


引用

  1. Razali, Nornadiah; Wah, Yap Bee (2011). "Shapiro–Wilk、Kolmogorov–Smirnov、Lilliefors和Anderson–Darling检验的效能比较". 统计建模和分析杂志. 2 (1): 21–33. {{cite journal}}: |archive-date= requires |archive-url= (help)
  2. Judge, George G.; Griffiths, W. E.; Hill, R. Carter; Lütkepohl, Helmut; Lee, T. (1988). 计量经济学理论与实践导论 (第二版 ed.). Wiley. pp. 890–892. ISBN 978-0-471-08277-4.
  3. Gujarati, Damodar N. (2002). 基础计量经济学 (第四版 ed.). McGraw Hill. pp. 147–148. ISBN 978-0-07-123017-9.
  4. Thadewald, Thorsten; Büning, Herbert (2007年1月1日). "Jarque–Bera检验及其竞争者用于检验正态性的效能比较". 应用统计杂志. 34 (1): 87–105. CiteSeerX 10.1.1.507.1186. doi:10.1080/02664760600994539. S2CID 13866566. {{cite journal}}: Check date values in: |date= (help)
  5. Sürücü, Barış (2008年9月1日). "拟合优度测试的效能比较和模拟研究". 计算机与数学应用. 56 (6): 1617–1625. doi:10.1016/j.camwa.2008.03.010. {{cite journal}}: Check date values in: |date= (help)
  6. Lin, C. C.; Mudholkar, G. S. (1980). "一种针对不对称替代方案的简单正态性检验". Biometrika. 67 (2): 455–461. doi:10.1093/biomet/67.2.455.
  7. Mardia, K. V. (1970)。多变量偏度和峰度的测量及其应用。[math]Biometrika[/math] 57, 519–530。
  8. Filliben, J. J. (1975年2月). "用于正态性的概率图相关系数测试". Technometrics. 17 (1): 111–117. doi:10.2307/1268008. JSTOR 1268008. {{cite journal}}: Check date values in: |date= (help)
  9. Székely, G. J. 和 Rizzo, M. L. (2005) 一种新的多变量正态性检验,多变量分析杂志 93, 58–80。
  10. Epps, T. W. 和 Pulley, L. B. (1983)。基于经验特征函数的正态性检验。[math]Biometrika[/math] 70, 723–726。
  11. Henze, N. 和 Zirkler, B. (1990)。用于多变量正态性的一类不变和一致的检验。统计学 - 理论与方法通讯 19, 3595–3617。
  12. Henze, N. 和 Wagner, T. (1997)。BHEP多变量正态性检验的新方法。多变量分析杂志 62, 1–23。
  13. Vasicek, Oldrich (1976). "基于样本熵的正态性检验". 英国皇家统计学会杂志. 系列B(方法论). 38 (1): 54–59. JSTOR 2984828.
  14. Young K. D. S. (1993), "贝叶斯诊断用于检验正态性假设。" [math]统计计算与模拟杂志[/math], 47 (3–4), 167–180
  15. Spiegelhalter, D.J. (1980). 小样本的正态性全面测试。Biometrika, 67, 493–496. doi:10.1093/biomet/67.2.493
  16. Farrell, P.J., Rogers-Stewart, K. (2006) "全面研究正态性和对称性测试:扩展Spiegelhalter测试。" [math]统计计算与模拟杂志[/math], 76(9), 803–816. doi:10.1080/10629360500109023
  17. Portney, L.G. & Watkins, M.P. (2000). 临床研究基础:实践应用. New Jersey: Prentice Hall Health. pp. 516–517. ISBN 0838526950.{{cite book}}: CS1 maint: multiple names: authors list (link)
  18. Pek, Jolynn; Wong, Octavia; Wong, Augustine C. M. (2018-11-06). "如何解决非正态性:方法分类、回顾和示例". 心理学前沿. 9: 2104. doi:10.3389/fpsyg.2018.02104. ISSN 1664-1078. PMC 6232275. PMID 30459683.


查找其他类别的节点,请参考以下列表