多元统计是统计的一个子领域,涉及同时观测和分析多个outcome variable,即multivariate random variables。多元统计关注于理解多种多元分析形式的不同目的和背景,以及它们之间的关系。多元统计在实际应用中可能涉及多种单变量和多变量分析,以理解变量之间的关系及其对正在研究的问题的相关性。
此外,多元统计还涉及多元probability distributions,包括:
- 如何用它们来代表观察到的数据的分布;
- 如何作为statistical inference的一部分使用它们,特别是当同一分析中有多个不同数量的兴趣点时。
涉及多元数据的某些类型的问题,例如simple linear regression和multiple regression,通常不被视为多元统计的特殊情况,因为分析是通过考虑给定其他变量的单个结果变量的(单变量)条件分布来处理的。
多元分析
多元分析 (MVA) 基于多元统计的原则。通常,MVA用于处理在每个实验单元上进行多次测量的情况,这些测量之间的关系及其结构非常重要。[1] MVA的现代重叠分类包括:[1]
- 正常和一般的多元模型和分布理论
- 关系的研究和测量
- 多维区域的概率计算
- 数据结构和模式的探索
多元分析的复杂性在于希望包括基于物理的分析来计算层级“系统-子系统”中变量的效应。通常,希望使用多元分析的研究会因问题的维度而受阻。通过使用surrogate models——物理基础代码的高精度近似,这些顾虑通常会得到缓解。由于替代模型采用方程式形式,它们可以非常快速地进行评估。这成为大规模MVA研究的推动者:使用物理基础代码在设计空间进行Monte Carlo simulation可能很困难,但在评估通常采用response-surface方程形式的替代模型时就变得简单。
分析类型
多元分析中使用了许多不同的模型,每种模型都有其特定的分析类型:
- Multivariate analysis of variance(MANOVA)扩展了analysis of variance,以覆盖同时分析多个因变量的情况;另见Multivariate analysis of covariance(MANCOVA)。
- 多元回归试图确定一个公式,描述变量向量中的元素如何同时对其他变量的变化作出反应。对于线性关系,这里的回归分析基于general linear model的不同形式。有些人认为多元回归与多变量回归不同,但这一点存在争议,且在科学领域并不一致。[2]
- Principal components analysis(PCA)创建了一组包含与原始集相同信息的正交变量。它旋转变异轴,给出一组新的正交轴,按照它们概括变异比例的递减顺序排列。
- Factor analysis 与PCA类似,但允许用户提取指定数量的合成变量,少于原始集,将剩余未解释的变异作为错误。提取的变量被称为潜在变量或因子;每个因子可能被假设为解释一组观察变量的共变异。
- Canonical correlation analysis 寻找两组变量之间的线性关系;它是双变量[3]关联的广义(即规范)版本。
- 冗余分析(RDA)类似于规范关联分析,但允许用户从一组(自变量)变量中派生指定数量的合成变量,尽可能多地解释另一组(因变量)变量中的方差。它是回归的多元类比。[4]
- Correspondence analysis(CA)或相互平均法,与PCA类似,找到一组合成变量来概括原始集。底层模型假设了记录(案例)之间的卡方差异性。
以下是从英文维基百科翻译的内容,保留了Wiki语义及Wiki语法标记以及Wiki的标记和模板格式,并且遵循了指定的翻译规则:
- 典范(或“受限”)对应分析(CCA)用于总结两组变量的联合变异(类似于冗余分析);对应分析和多元回归分析的结合。其基础模型假设记录(案例)之间存在卡方差异。
- 多维缩放包括各种算法,以确定一组合成变量,最好地代表记录之间的成对距离。原始方法是主坐标分析(PCoA;基于PCA)。
- 判别分析或典型变量分析,试图确定一组变量是否可用于区分两个或多个案例组。
- 线性判别分析(LDA)从两组正态分布的数据中计算线性预测器,以允许对新观察进行分类。
- 聚类系统将对象分配到组(称为簇)中,以便同一簇中的对象(案例)彼此更相似,与不同簇的对象更不相似。
- 递归划分创建一个决策树,试图根据一个二分的因变量正确分类人口成员。
- 人工神经网络将回归和聚类方法扩展到非线性多元模型。
- 统计图形,如旅行、平行坐标图、散点图矩阵,可用于探索多元数据。
- 同时方程模型包括多个回归方程,这些方程具有不同的因变量,共同估计。
- 向量自回归涉及对各种时间序列变量及其彼此的滞后值进行同时回归。
- 主响应曲线分析(PRC)是一种基于RDA的方法,它允许用户通过纠正随时间变化的对照治疗的变化,专注于治疗效果的时间变化。[5]
- 相关图标包括用图表代替相关矩阵,其中“显著”相关性由实线(正相关)或虚线(负相关)表示。
处理不完整数据
在实验获得的数据集中,某些数据点的一些组成部分缺失是非常常见的。与其丢弃整个数据点,更常见的做法是为缺失组件“填充”值,这个过程称为“插补”。[6]
重要概率分布
在多元分析中使用了一组概率分布,它们在单变量分析中使用的对应分布集合中扮演类似的角色,当正态分布适用于数据集时。这些多元分布包括:
逆Wishart分布在贝叶斯推断中很重要,例如在贝叶斯多元线性回归中。此外,霍特林T平方分布是一种多元分布,概括了学生t分布,用于多元假设检验。
历史
安德森1958年的教科书,多元统计分析导论,[7] 教育了一代理论家和应用统计学家;安德森的书强调通过似然比测试和功效函数的性质进行假设检验:可接受性、无偏性和单调性。[8][9]
多元方差分析(MVA)过去仅在统计理论的背景下进行讨论,这是由于底层数据集的规模和复杂性以及其高计算消耗。随着计算能力的显著增长,MVA现在在数据分析中扮演着越来越重要的角色,并在Omics领域有广泛应用。
应用
软件和工具
对于多元分析,有大量的软件包和其他工具,包括:
- 决策链软件(DecisionLinnc) 提供了丰富的多元分析节点,是一个整合型、基于工作流(Workflow)的数据科学平台。
- JMP(统计软件)
- MiniTab
- Calc
- PSPP
- R[10]
- SAS(软件)
- SciPy 用于 Python
- SPSS
- Stata
- STATISTICA
- The Unscrambler
- WarpPLS
- SmartPLS
- MATLAB
- Eviews
- NCSS(统计软件) 包括多元分析。
- The Unscrambler® X 是一种多元分析工具。
- SIMCA
- DataPandit(由 Let's Excel Analytics Solutions 提供的免费 SaaS 应用)
另行参见
- Estimation of covariance matrices
- Important publications in multivariate analysis
- Multivariate testing in marketing
- Structured data analysis (statistics)
- Structural equation modeling
- RV coefficient
- Bivariate analysis
- Design of experiments (DoE)
- Dimensional analysis
- Exploratory data analysis
- OLS
- Partial least squares regression
- Pattern recognition
- Principal component analysis (PCA)
- Regression analysis
- Soft independent modelling of class analogies (SIMCA)
- Statistical interference
- Univariate analysis
引用
- ↑ 1.0 1.1 Olkin, I.; Sampson, A. R. (2001-01-01), "Multivariate Analysis: Overview", in Smelser, Neil J.; Baltes, Paul B. (eds.), International Encyclopedia of the Social & Behavioral Sciences, Pergamon, pp. 10240–10247, ISBN 9780080430768, retrieved 2019-09-02
- ↑ Hidalgo, B; Goodman, M (2013). "Multivariate or multivariable regression?". Am J Public Health. 103 (1): 39–40. doi:10.2105/AJPH.2012.300897. PMC 3518362. PMID 23153131.
- ↑ Unsophisticated analysts of bivariate Gaussian problems may find useful a crude but accurate method of accurately gauging probability by simply taking the sum S of the N residuals' squares, subtracting the sum Sm at minimum, dividing this difference by Sm, multiplying the result by (N - 2) and taking the inverse anti-ln of half that product.
- ↑ Van Den Wollenberg, Arnold L. (1977). "Redundancy analysis an alternative for canonical correlation analysis". Psychometrika. 42 (2): 207–219. doi:10.1007/BF02294050.
- ↑ ter Braak, Cajo J.F. & Šmilauer, Petr (2012). Canoco reference manual and user's guide: software for ordination (version 5.0), p292. Microcomputer Power, Ithaca, NY.
- ↑ J.L. Schafer (1997). Analysis of Incomplete Multivariate Data. Chapman & Hall/CRC. ISBN 978-1-4398-2186-2.
- ↑ T.W. Anderson (1958) 多元分析导论, New York: Wiley ISBN 0471026409; 2e (1984) ISBN 0471889873; 3e (2003) ISBN 0471360910
- ↑ Sen, Pranab Kumar; Anderson, T. W.; Arnold, S. F.; Eaton, M. L.; Giri, N. C.; Gnanadesikan, R.; Kendall, M. G.; Kshirsagar, A. M.; et al. (June 1986). "Review: Contemporary Textbooks on Multivariate Statistical Analysis: A Panoramic Appraisal and Critique". Journal of the American Statistical Association. 81 (394): 560–564. doi:10.2307/2289251. ISSN 0162-1459. JSTOR 2289251.(第560–561页)
- ↑ Schervish, Mark J. (November 1987). "A Review of Multivariate Analysis". Statistical Science. 2 (4): 396–413. doi:10.1214/ss/1177013111. ISSN 0883-4237. JSTOR 2245530.
- ↑ CRAN 提供了多元数据分析可用的软件包细节
延伸阅读
- Johnson, Richard A.; Wichern, Dean W. (2007). Applied Multivariate Statistical Analysis (Sixth ed.). Prentice Hall. ISBN 978-0-13-187715-3.
- KV Mardia; JT Kent; JM Bibby (1979). Multivariate Analysis. Academic Press. ISBN 0-12-471252-5.
- A. Sen, M. Srivastava, Regression Analysis — Theory, Methods, and Applications, Springer-Verlag, Berlin, 2011 (4th printing).
- Cook, Swayne (2007). Interactive Graphics for Data Analysis.
- Malakooti, B. (2013). Operations and Production Systems with Multiple Objectives. John Wiley & Sons.
- T. W. Anderson, An Introduction to Multivariate Statistical Analysis, Wiley, New York, 1958.
- KV Mardia; JT Kent & JM Bibby (1979). Multivariate Analysis. Academic Press. ISBN 978-0124712522. (M.A. level "likelihood" approach)
- Feinstein, A. R. (1996) Multivariable Analysis. New Haven, CT: Yale University Press.
- Hair, J. F. Jr. (1995) Multivariate Data Analysis with Readings, 4th ed. Prentice-Hall.
- Schafer, J. L. (1997) Analysis of Incomplete Multivariate Data. CRC Press. (Advanced)
- Sharma, S. (1996) Applied Multivariate Techniques. Wiley. (Informal, applied)
- Izenman, Alan J. (2008). Modern Multivariate Statistical Techniques: Regression, Classification, and Manifold Learning. Springer Texts in Statistics. New York: Springer-Verlag. ISBN 9780387781884.
- Tinsley, Howard E. A.; Brown, Steven D., eds. (2000). Handbook of Applied Multivariate Statistics and Mathematical Modeling. Academic Press. doi:10.1016/B978-0-12-691360-6.X5000-9. ISBN 978-0-12-691360-6.