一般线性相关分析：修订间差异

一般线性相关分析
节点状态	/ Win10及以上可用在V1.0部署
一般线性相关分析
节点开发者	决策链算法研发部 (Dev.Team-DPS)
节点英文名	Linear Correlation Analysis
功能主类别	数据分析
英文缩写	LinCA
功能亚类别	相关分析
节点类型	数据挖掘
开发语言	R
节点简介
	一般线性相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。变量之间的关系可以分为确定关系和非确定性关系。确定性关系，可以说是函数关系，也就是说对于某一变量的每个数值都有另一变量的完全确定的值与之对应。非确定性关系，即这里所说的相关关系，变量之间存在一定的依存关系，但不是一一对应的关系，即相随变动关系。此相关分析使用的方法有: pearson, spearman, 和kendall。用途：用于衡量两个或多个变量间的线性关系强度和方向。检测两个连续变量之间是否存在线性关系的常用方法。参数：选择数值变量
端口数量与逻辑控制(PC)
Input-入口	4个
Output-出口	3个
Loop-支持循环	是
If/Switch-支持逻辑判断	否
输入输出
	可生成图片类型（推荐）单面分布散点图; 可生成数据表类型（推荐） t值; 自由度; P值 (P-Value); 置信区间; 相关系数; 可配置参数例型变量列表; 下拉菜单; 文本输入; 入口类型控制流程 ➤; 传输变量 ◆; 传输源数据表 ■; 出口类型控制流程 ➤; 传输变量 ◆; 传输源数据表 ■;
相关节点
上一节点	Two_Way_ANCOVA
下一节点	典型相关分析
相关网站 ;

2024年2月9日 (五) 17:03的最新版本

在统计学中，相关性或依赖性是指两个随机变量或双变量数据之间，无论是否具有因果关系，存在的任何统计关系。尽管在最广泛的意义上，“相关性”可能表示任何类型的关联，在统计学中它通常指的是一对变量“线性地”相关的程度。

熟悉的依赖现象示例包括父母身高与其后代之间的相关性，以及商品价格与消费者愿意购买的数量之间的相关性，正如所谓的需求曲线所描绘的。

相关性之所以有用，是因为它们可以指示一种可以在实践中利用的预测关系。例如，一个电力公司可能会根据电力需求与天气之间的相关性，在温和的日子里生产较少的电力。在这个例子中，存在一个因果关系，因为极端天气导致人们使用更多的电力进行加热或冷却。然而，一般来说，相关性的存在不足以推断出因果关系的存在（即相关性不等于因果性）。

从正式的角度来说，如果随机变量不满足概率独立性的数学属性，则它们是“依赖”的。在非正式用语中，“相关性”与“依赖性”同义。然而，当在技术意义上使用时，相关性指的是被测试变量及其各自的预期值之间的几种特定类型的数学操作之一。本质上，相关性是衡量两个或多个变量之间关系的度量。有几种相关系数，通常用[math]\rho[/math]或[math]r[/math]表示，用于测量相关程度。其中最常见的是“皮尔逊相关系数”，它只对两个变量之间的线性关系敏感（即使当其中一个变量是另一个变量的非线性函数时也可能存在）。其他的相关系数——如“斯皮尔曼等级相关”——已被开发出来，比皮尔逊的更稳健，即对非线性关系更敏感。^[1]^[2]^[3] 互信息也可以用来衡量两个变量之间的依赖性。

皮尔逊积矩系数

各种数据集与各种相关系数的示例散点图。

两个数量之间依赖性的最熟悉度量是皮尔逊积矩相关系数（PPMCC），或称“皮尔逊相关系数”，通常简称为“相关系数”。它是通过取我们数值数据集中两个变量的协方差与它们方差的平方根的比值得到的。数学上，简单地将两个变量的协方差除以它们的标准差的乘积。卡尔·皮尔逊根据弗朗西斯·高尔顿的一个类似但略有不同的想法开发了这个系数。^[4]

皮尔逊积矩相关系数试图通过基本上布置预期值并通过数据集的两个变量建立一条最佳拟合线，而得出的皮尔逊相关系数指示实际数据集与预期值的偏离程度。根据我们的皮尔逊相关系数的符号，如果数据集的变量之间存在任何类型的关系，我们可以得到负相关或正相关。, 2023年11月 {{citation}}: Check date values in: |date= (help); Cite has empty unknown parameters: |cat2=, |cat-date2=, |cat3=, and |cat-date3= (help); Missing or empty |title= (help); Unknown parameter |cat-date= ignored (help); Unknown parameter |cat= ignored (help)^{[citation needed]}

两个随机变量[math]X[/math]和[math]Y[/math]之间的总体相关系数[math]\rho_{X,Y}[/math]，它们的期望值分别为[math]\mu_X[/math]和[math]\mu_Y[/math]，标准差分别为[math]\sigma_X[/math]和[math]\sigma_Y[/math]，定义为：

[math]\rho_{X,Y} = \operatorname{corr}(X,Y) = {\operatorname{cov}(X,Y) \over \sigma_X \sigma_Y} = {\operatorname{E}[(X-\mu_X)(Y-\mu_Y)] \over \sigma_X\sigma_Y}, \quad \text{if}\ \sigma_{X}\sigma_{Y}>0.[/math]

其中[math]\operatorname{E}[/math]是期望值运算符，[math]\operatorname{cov}[/math]表示协方差，而[math]\operatorname{corr}[/math]是相关系数的广泛使用的替代符号。只有当两个标准差都是有限且正的，皮尔逊相关才有定义。纯粹用矩的术语表示的另一公式是：

[math]\rho_{X,Y} = {\operatorname{E}(XY)-\operatorname{E}(X)\operatorname{E}(Y)\over \sqrt{\operatorname{E}(X^2)-\operatorname{E}(X)^2}\cdot \sqrt{\operatorname{E}(Y^2)-\operatorname{E}(Y)^2} }[/math]

样本相关系数

给定一系列[math]n[/math]次对[math](X_i,Y_i)[/math]的测量，由[math]i=1,\ldots,n[/math]索引，样本相关系数可用于估计[math]X[/math]和[math]Y[/math]之间的群体皮尔逊相关[math]\rho_{X,Y}[/math]。样本相关系数定义为

[math]r_{x y} \stackrel{\text { def }}{=} \frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{(n-1) s_{x} s_{y}}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}} ,[/math]

其中[math]\overline{x}[/math]和[math]\overline{y}[/math]是[math]X[/math]和[math]Y[/math]的样本平均值，[math]s_x[/math]和[math]s_y[/math]是[math]X[/math]和[math]Y[/math]的校正样本标准差。

[math]r_{xy}[/math]的等价表达式是

[math]\begin{aligned} r_{x y} & =\frac{\sum x_{i} y_{i}-n \bar{x} \bar{y}}{n s_{x}^{\prime} s_{y}^{\prime}} \\ & =\frac{n \sum x_{i} y_{i}-\sum x_{i} \sum y_{i}}{\sqrt{n \sum x_{i}^{2}-\left(\sum x_{i}\right)^{2}} \sqrt{n \sum y_{i}^{2}-\left(\sum y_{i}\right)^{2}}} .\end{aligned}[/math]

其中[math]s'_x[/math]和[math]s'_y[/math]是[math]X[/math]和[math]Y[/math]的未校正样本标准差。

如果[math]x[/math]和[math]y[/math]是包含测量误差的测量结果，则相关系数的实际限制不是-1到+1，而是一个更小的范围。^[6] 对于具有单一独立变量的线性模型情况，决定系数（R平方）是[math]r_{xy}[/math]，皮尔逊乘积矩系数的平方。

例子

考虑下表中给出的 $X$ 和 $Y$ 的联合概率分布。

[math]\mathrm{P}(X=x,Y=y)[/math]
$y$ $x$	−1	0	1
0	0	1/3	0
1	1/3	0	1/3

对于这个联合分布，边缘分布是：

[math]\mathrm{P}(X=x)=\left\{\begin{array}{ll}\frac{1}{3} & \text { for } x=0 \\ \frac{2}{3} & \text { for } x=1\end{array}\right.[/math]

[math]\mathrm{P}(Y=y)=\left\{\begin{array}{ll}\frac{1}{3} & \text { for } y=-1 \\ \frac{1}{3} & \text { for } y=0 \\ \frac{1}{3} & \text { for } y=1\end{array}\right.[/math]

这产生了以下期望和方差：

[math]\mu_X = \frac 2 3[/math]

[math]\mu_Y = 0[/math]

[math]\sigma_X^2 = \frac 2 9[/math]

[math]\sigma_Y^2 = \frac 2 3[/math]

因此：

[math]\begin{aligned} \rho_{X, Y} & =\frac{1}{\sigma_{X} \sigma_{Y}} \mathrm{E}\left[\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right] \\ & =\frac{1}{\sigma_{X} \sigma_{Y}} \sum_{x, y}\left(x-\mu_{X}\right)\left(y-\mu_{Y}\right) \mathrm{P}(X=x, Y=y) \\ & =\left(1-\frac{2}{3}\right)(-1-0) \frac{1}{3}+\left(0-\frac{2}{3}\right)(0-0) \frac{1}{3}+\left(1-\frac{2}{3}\right)(1-0) \frac{1}{3}=0\end{aligned}[/math]

等级相关系数

Rank correlation系数，如Spearman's rank correlation coefficient和Kendall等级相关系数(τ)，衡量的是随着一个变量的增加，另一个变量倾向于增加的程度，而不要求这种增加必须通过线性关系来表示。如果随着一个变量的增加，另一个变量减少，那么等级相关系数将是负数。通常认为这些等级相关系数是Pearson系数的替代品，用来减少计算量或使系数对分布的非正态性不那么敏感。然而，这种观点在数学上几乎没有依据，因为等级相关系数衡量的是与Pearson product-moment correlation coefficient不同类型的关系，并且最好被视为不同类型的关联度量，而不是人口相关系数的另一种度量。^[7]^[8]

为了说明等级相关的性质及其与线性相关的区别，请考虑以下四对数字[math](x,y)[/math]：

(0, 1), (10, 100), (101, 500), (102, 2000).

当我们从每一对数字过渡到下一对时，[math]x[/math]增加，[math]y[/math]也增加。这种关系是完美的，因为[math]x[/math]的增加总是伴随着[math]y[/math]的增加。这意味着我们有一个完美的等级相关，Spearman和Kendall的相关系数都是1，而在这个例子中Pearson乘积矩相关系数是0.7544，表明这些点远未落在一条直线上。同样地，如果[math]y[/math]在[math]x[/math]增加时总是减少，等级相关系数将是-1，而Pearson乘积矩相关系数可能接近于-1也可能不接近，这取决于这些点与直线的接近程度。尽管在完美等级相关的极端情况下，两个系数都是相等的（都是+1或都是-1），但通常情况并非如此，因此两个系数的值不能有意义地进行比较。^[7]例如，对于三对数字(1, 1) (2, 3) (3, 2)，Spearman系数是1/2，而Kendall系数是 1/3。

随机变量间的其他依赖性度量

相关系数给出的信息不足以定义随机变量之间的依赖结构。^[9]在非常特殊的情况下，相关系数完全定义了依赖结构，例如当分布是multivariate normal distribution。（见上图。）在elliptical distribution的情况下，它描述了等密度的（超）椭圆；然而，它并未完全描述依赖结构（例如，multivariate t-distribution的自由度决定了尾部依赖的级别）。

Distance correlation^[10]^[11]被引入是为了解决Pearson相关性的不足，即它对于依赖的随机变量可能为零；零距离相关意味着独立性。

随机依赖系数^[12]是一种基于copula的多变量随机变量之间的依赖度量，计算效率高。RDC对随机变量的非线性缩放是不变的，能够发现广泛的功能关联模式，并在独立时取值为零。

对于两个二进制变量，odds ratio测量它们的依赖性，并取非负数范围，可能为无穷大：[mathmath>[/math] 。相关的统计量如Yule的Y和Yule的Q将这个规范化到类似相关性的范围[mathmath>[/math] 。几率比通过逻辑模型被推广，以模拟依赖变量是离散的情况，并且可能有一个或多个独立变量。

correlation ratio，基于熵的mutual information，total correlation，dual total correlation和polychoric correlation都能够检测更一般的依赖性，考虑它们之间的copula也是如此，而coefficient of determination将相关系数推广到multiple regression。

对数据分布的敏感性

变量 $X$ 与 $Y$ 之间的依赖程度并不取决于变量表达的尺度。也就是说，如果我们正在分析 $X$ 与 $Y$ 之间的关系，大多数相关性测量不受将 $X$ 转换为[math]a + bX[/math]和将 $Y$ 转换为[math]c + dY[/math]的影响，其中a、b、c和d是常数（b和d为正）。这一点对于一些相关性statistic以及它们的population类比都是成立的。某些相关统计量，如秩相关系数，也对 $X$ 和/或 $Y$ 的边缘分布的单调变换保持不变。

Pearson/Spearman 关于

X

与

Y

的相关系数，展示了当两个变量的范围不受限制时，以及

X

的范围限制在（0,1）区间时的情况。

大多数相关度量对于 $X$ 和 $Y$ 的采样方式都是敏感的。如果在更广范围的值上观察，依赖性往往会更强。因此，如果我们考虑所有成年男性中父亲和他们儿子的身高之间的相关系数，并将其与仅选择身高在165厘米到170厘米之间的父亲计算的同一相关系数比较，后一种情况下的相关性会更弱。已经开发了几种技术试图纠正一个或两个变量的范围限制，并且这些技术通常用于元分析；最常见的是Thorndike的第二种情形和第三种情形方程。^[13]

某些相关度量在特定的 $X$ 和 $Y$ 的联合分布下可能是未定义的。例如，Pearson相关系数是基于矩定义的，因此如果矩未定义，则该相关系数将是未定义的。基于quantile的依赖度量总是有定义的。旨在估计人口依赖度量的基于样本的统计量可能具有也可能不具有诸如无偏或渐近一致等理想的统计属性，这取决于数据样本的空间结构。

对数据分布的敏感性可以被用作优势。例如，scaled correlation旨在利用对范围的敏感性来挑选出时间序列快速组成部分之间的相关性。^[14]通过以受控方式减少值的范围，过滤掉长时间尺度上的相关性，仅揭示短时间尺度上的相关性。

随机过程的不相关性和独立性

同样对于两个随机过程[math]\left\{ X_t \right\}_{t\in\mathcal{T}}[/math]和[math]\left\{ Y_t \right\}_{t\in\mathcal{T}}[/math]：如果它们是独立的，那么它们是不相关的。^[19]^{: p. 151}这个陈述的反面可能不成立。即使两个变量是不相关的，它们也可能不是彼此独立的。

常见误解

简单线性相关性

Anscombe四重奏：四组数据具有相同的相关性0.816

皮尔森相关系数指示两个变量之间“线性”关系的强度，但其值通常不完全表征它们的关系。^[21] 特别是，如果给定[math]X[/math]的[math]Y[/math]的条件平均值，表示为[math]\operatorname{E}(Y \mid X)[/math]，不是[math]X[/math]的线性，则相关系数将无法完全确定[math]\operatorname{E}(Y \mid X)[/math]的形式。

相邻图像显示了散点图中的Anscombe四重奏，一组由Francis Anscombe创建的四对不同变量。^[22] 这四个[math]y[/math]变量具有相同的平均值（7.5），方差（4.12），相关性（0.816）和回归线（[math display="inline"]y=3+0.5x[/math]）。然而，如图所示，变量的分布非常不同。第一个（左上）似乎正态分布，符合考虑两个变量相关且假设正态性时的预期。第二个（右上）不是正态分布；尽管可以观察到两个变量之间明显的关系，但它不是线性的。在这种情况下，皮尔森相关系数不表明存在确切的函数关系：只是该关系可以被线性关系近似的程度。在第三种情况（左下），线性关系是完美的，除了一个离群值足以将相关系数从1降低到0.816。最后，第四个例子（右下）显示了另一个例子，当一个离群值足以产生高相关系数时，尽管两个变量之间的关系不是线性的。

这些例子表明，作为汇总统计量的相关系数不能替代数据的视觉检查。有时候这些例子被认为证明了皮尔森相关假设数据遵循正态分布，但这只是部分正确。^[4] 皮尔森相关可以准确地计算任何具有有限协方差矩阵的分布，这包括实践中遇到的大多数分布。然而，如果数据来自多变量正态分布，皮尔森相关系数（连同样本均值和方差）才是一个充分统计量。因此，只有当数据来源于多变量正态分布时，皮尔逊相关系数才能完全表征变量之间的关系。

双变量正态分布

如果一对随机变量[math]\ (X,Y)\ [/math]遵循双变量正态分布，则条件均值[math]\mathcal{E}(X \mid Y)[/math]是[math]Y[/math]的线性函数，而条件均值[math]\mathcal{E}(Y \mid X)[/math]是[math]\ X\ [/math]的线性函数。变量[math]\ X\ [/math]和[math]\ Y\ [/math]之间的相关系数[math]\ \rho_{X,Y}\ [/math]，以及[math]\ X\ [/math]和[math]\ Y\ [/math]的边际均值和方差决定了这种线性关系：

[math]\mathcal{E}(Y \mid X ) = \mathcal{E}(Y) + \rho_{X,Y} \cdot \sigma_Y \cdot \frac{\ X-\mathcal{E}(X)\ }{ \sigma_X }\ ,[/math]

其中，[math]\mathcal{E}(X)[/math]和[math]\mathcal{E}(Y)[/math]分别是[math]\ X\ [/math]和[math]\ Y\ [/math]的期望值，[math]\ \sigma_X\ [/math]和[math]\ \sigma_Y\ [/math]分别是[math]\ X\ [/math]和[math]\ Y\ [/math]的标准差。

经验相关系数[math]r[/math]是相关系数[math]\ \rho\ [/math]的估计。对[math]\ \rho\ [/math]的分布估计由下式给出：

[math]\pi(\rho \mid r)=\frac{\Gamma(N)}{\sqrt{2 \pi} \cdot \Gamma\left(N-\frac{1}{2}\right)} \cdot\left(1-r^{2}\right)^{\frac{N-2}{2}} \cdot\left(1-\rho^{2}\right)^{\frac{N-3}{2}} \cdot(1-r \rho)^{-N+\frac{3}{2}} \cdot F_{\text {Hyp }}\left(\frac{3}{2},-\frac{1}{2} ; N-\frac{1}{2} ; \frac{1+r \rho}{2}\right)[/math]

其中[math]\ F_\mathsf{Hyp} \ [/math]是高斯超几何函数。

这个密度既是贝叶斯后验密度，也是一个精确的最优置信分布密度。^[23]^[24]

节点使用的R语言示例代码