多因素正态性检验

来自决策链云智库
RainW讨论 | 贡献2024年1月22日 (一) 15:02的版本
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
Normality Test Multivariate.png
节点状态
Windows / Windows 10 Win10及以上可用
V1.0部署
多因素正态性检验Normality Test Multivariate.svg
节点开发者决策链算法研发部 (Dev.Team-DPS)
节点英文名Normality Test_Multivariate
功能主类别数据分析
英文缩写NomTM
功能亚类别正态性检验
节点类型数据挖掘
开发语言R
节点简介

多因素正态性检验用于检查多个观测值是否符合正态分布。此检验使用的方法有:Mardia检验,Henze-Zirkler检验, 和Royston检验。

用途:用于检验多个变量是否服从多元正态分布。

参数:选择多个连续型数值变量

端口数量与逻辑控制(PC)
Input-入口3个
Output-出口3个
Loop-支持循环
If/Switch-支持逻辑判断
输入输出
可生成图片类型(推荐)
相关节点
上一节点单因素正态性检验
下一节点单样本T检验





节点使用的R语言示例代码

多因素正态性检验

mvn(
  data,
  subset = NULL,
  mvnTest = "hz",
  covariance = TRUE,
  tol = 1e-25,
  alpha = 0.5,
  scale = FALSE,
  desc = TRUE,
  transform = "none",
  R = 1000,
  univariateTest = "AD",
  univariatePlot = "none",
  multivariatePlot = "none",
  multivariateOutlierMethod = "none",
  bc = FALSE,
  bcType = "rounded",
  showOutliers = FALSE,
  showNewData = FALSE
)

方法参见R package: MVN的官方文档


节点使用指南

  • 检验数据是否服从多变量正态分布

方法选择

  • Mardia:侧重于评估多元数据的偏度和峰度,对大样本可能过于敏感
  • Henze-Zirkler:基于核估计方法,对样本大小和维度具有良好的适应性
  • Royston:基于多个单变量正态性检验的拓展,Shapiro-Wilk检验的多变量版本,适用于中等样本大小和小至中等数量的变量

参数配置

  • 检验变量:选择多个连续型数值变量
  • 正态检验方法: Mardia,Henze-Zirkler,Royston
  • 筛选阈值:选择需要的P值阈值,节点会自动将满足阈值的变量筛选出,数据集也会同步筛选出满足的变量。
  • 此算法兼容空值

注意事项

  • 多变量正态性的假设是许多统计方法(如多元方差分析、因子分析和多元回归分析)的前提条件


引用


查找其他类别的节点,请参考以下列表