相关分析

统计学概念
Pengwei讨论 | 贡献2024年1月21日 (日) 12:45的版本
几组(xy)点,以及每组的皮尔逊相关系数。这些相关性反映了线性关系的噪声性和方向(顶部行),但不包括该关系的斜率(中间),以及非线性关系的许多方面(底部)。注意:中间的图形斜率为0,但在这种情况下,相关系数是未定义的,因为Y的方差为零。

统计学中,相关性依赖性是指两个随机变量双变量数据之间的任何统计关系,无论其是否因果。尽管从广义上讲,“相关性”可能指任何类型的关联,在统计学中,它通常指的是一对变量线性地相关的程度。熟悉的相关现象示例包括父母身高与其后代之间的相关性,以及商品价格与消费者愿意购买数量之间的相关性,正如所谓的需求曲线所描述的。

相关性之所以有用,是因为它们可以指示出可以在实践中利用的预测关系。例如,电力公司可能在温和的天气下根据电力需求和天气之间的相关性减少发电量。在这个例子中,存在一个因果关系,因为极端天气导致人们使用更多的电力进行取暖或制冷。然而,一般而言,存在相关性并不足以推断出存在因果关系(即相关性并不意味着因果性)。

正式地说,如果随机变量不满足概率独立性的数学特性,它们就是依赖的。在非正式用语中,相关性依赖性是同义的。然而,在技术意义上使用时,相关性指的是测试变量及其各自期望值之间的几种特定类型的数学运算之一。本质上,相关性是衡量两个或多个变量之间关系的度量。有几种相关系数,通常用[math]\rho[/math]或[math]r[/math]表示,用以衡量相关程度。其中最常见的是皮尔逊相关系数,它只对两个变量之间的线性关系敏感(即使当其中一个变量是另一个的非线性函数时,这种关系也可能存在)。其他的相关系数——如斯皮尔曼等级相关——已被开发出来,比皮尔逊的更加健壮,即对非线性关系更敏感。[1][2][3] 互信息也可以用来衡量两个变量之间的依赖性。

皮尔逊积矩相关系数

各种数据集的散点图示例,展示了不同的相关系数。

两个量之间依赖关系的最常见度量是Pearson product-moment correlation coefficient(PPMCC),即“皮尔逊相关系数”,通常简称为“相关系数”。它通过取我们数值数据集中所讨论的两个变量的协方差与它们方差的平方根的比值获得。数学上,简单地将两个变量的covariance除以它们standard deviation的乘积。Karl PearsonFrancis Galton的一个类似但略有不同的想法中发展出了这个系数。[4]

皮尔逊积矩相关系数试图通过在两个变量的数据集中建立最佳拟合线,基本上展示了预期值,而所得到的皮尔逊相关系数表明实际数据集与预期值的偏离程度。根据我们的皮尔逊相关系数的符号,如果数据集中的变量之间存在某种关系,我们可能会得到负相关或正相关。, November 2023 {{citation}}: Cite has empty unknown parameters: |cat2=, |cat-date2=, |cat3=, and |cat-date3= (help); Missing or empty |title= (help); Unknown parameter |cat-date= ignored (help); Unknown parameter |cat= ignored (help)[citation needed]

两个random variables 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle X}解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle Y} 之间的总体相关系数 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle \rho_{X,Y}} ,它们具有expected values 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle \mu_X}解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle \mu_Y} 以及standard deviations 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle \sigma_X}解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle \sigma_Y} ,定义如下:

解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle \rho_{X,Y} = \operatorname{corr}(X,Y) = {\operatorname{cov}(X,Y) \over \sigma_X \sigma_Y} = {\operatorname{E}[(X-\mu_X)(Y-\mu_Y)] \over \sigma_X\sigma_Y}, \quad \text{if}\ \sigma_{X}\sigma_{Y}>0.}

其中 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle \operatorname{E}}expected value运算符,解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle \operatorname{cov}} 表示covariance解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle \operatorname{corr}} 是相关系数的广泛使用的替代符号。只有当两个标准差都是有限且正数时,皮尔逊相关才有定义。纯粹用moments表示的替代公式是:

解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle \rho_{X,Y} = {\operatorname{E}(XY)-\operatorname{E}(X)\operatorname{E}(Y)\over \sqrt{\operatorname{E}(X^2)-\operatorname{E}(X)^2}\cdot \sqrt{\operatorname{E}(Y^2)-\operatorname{E}(Y)^2} }}

相关性和独立性

Cauchy–Schwarz inequality的一个推论是皮尔逊相关系数的absolute value不大于1。因此,相关系数的值范围在−1和+1之间。在完美的直接(增长)线性关系(相关)情况下,相关系数为+1,在完美的逆向(减少)线性关系(反相关)情况下,相关系数为−1,[5] 在所有其他情况下,相关系数为 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle (-1,1)} 之间的某个值,表明变量之间的linear dependence程度。当它接近零时,关系较少(更接近无关)。相关系数越接近−1或1,变量之间的相关性越强。

皮尔逊积矩相关系数

各种数据集的散点图示例,展示了不同的相关系数。

当两个变量是独立的时,皮尔逊相关系数为0,但反之不一定成立,因为相关系数只检测两个变量之间的线性依赖。简单来说,如果两个随机变量X和Y是独立的,那么它们是不相关的;但如果两个随机变量不相关,它们可能是独立的,也可能不是。

[math display=block]\begin{align} X,Y \text{ 独立} \quad & \Rightarrow \quad \rho_{X,Y} = 0 \quad (X,Y \text{ 不相关})\\ \rho_{X,Y} = 0 \quad (X,Y \text{ 不相关})\quad & \nRightarrow \quad X,Y \text{ 独立} \end{align}[/math]

例如,假设随机变量 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle X} 关于零对称分布,并且 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle Y=X^2} 。那么 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle Y} 完全由 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle X} 决定,因此 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle X}解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle Y} 是完全依赖的,但它们的相关性为零;它们是不相关的。然而,在特殊情况下,当 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle X}解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle Y}联合正态分布时,不相关性等同于独立性。

尽管不相关的数据不一定意味着独立性,但如果随机变量的互信息为0,可以检查它们是否独立。

样本相关系数

对于一组 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle n} 次测量的对 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle (X_i,Y_i)} (由 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle i=1,\ldots,n} 索引),可以使用样本相关系数来估计 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle X}解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle Y} 之间的总体皮尔逊相关系数 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle \rho_{X,Y}} 。样本相关系数定义如下:

解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle r_{xy} \quad \overset{\underset{\mathrm{def}}{}}{=} \quad \frac{\sum\limits_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{(n-1)s_x s_y} =\frac{\sum\limits_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})} {\sqrt{\sum\limits_{i=1}^n (x_i-\bar{x})^2 \sum\limits_{i=1}^n (y_i-\bar{y})^2}}, [/math] 其中 <math>\overline{x}}解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle \overline{y}} 分别是 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle X}解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle Y} 的样本算术平均值解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle s_x}解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle s_y}解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle X}解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle Y}校正样本标准差

解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle r_{xy}} 的等效表达式是:

解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle \begin{align} r_{xy} &=\frac{\sum x_iy_i-n \bar{x} \bar{y}}{n s'_x s'_y} \\[5pt] &=\frac{n\sum x_iy_i-\sum x_i\sum y_i}{\sqrt{n\sum x_i^2-(\sum x_i)^2}~\sqrt{n\sum y_i^2-(\sum y_i)^2}}. \end{align} [/math] 其中 <math>s'_x}解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle s'_y} 分别是 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle X}解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle Y}未校正样本标准差

如果 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle x}解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle y} 是包含测量误差的测量结果,相关系数的实际限制不是−1到+1,而是更小的范围。[6] 对于单独自变量的线性模型,决定系数(R平方)解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle r_{xy}} ,即皮尔逊积矩系数的平方。

示例

考虑下表中给出的 XY联合概率分布

解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle \mathrm{P}(X=x,Y=y)}
y
x
−1 0 1
0 0 1/3 0
1 1/3 0 1/3

联合分布的边缘分布

针对这个联合分布,其边缘分布如下所示:

[math]\mathrm{P}(X=x)=

\begin{cases} \frac 1 3 & \quad \text{对于 } x=0 \\ \frac 2 3 & \quad \text{对于 } x=1 \end{cases} [/math]

[math]\mathrm{P}(Y=y)=

\begin{cases} \frac 1 3 & \quad \text{对于 } y=-1 \\ \frac 1 3 & \quad \text{对于 } y=0 \\ \frac 1 3 & \quad \text{对于 } y=1 \end{cases} [/math]

这导致了以下期望值和方差:

[math]\mu_X = \frac 2 3[/math]
[math]\mu_Y = 0[/math]
[math]\sigma_X^2 = \frac 2 9[/math]
[math]\sigma_Y^2 = \frac 2 3[/math]

因此:

[math]

\begin{align} \rho_{X,Y} & = \frac{1}{\sigma_X \sigma_Y} \mathrm{E}[(X-\mu_X)(Y-\mu_Y)] \\[5pt] & = \frac{1}{\sigma_X \sigma_Y} \sum_{x,y}{(x-\mu_X)(y-\mu_Y) \mathrm{P}(X=x,Y=y)} \\[5pt] & = \left(1-\frac 2 3\right)(-1-0)\frac{1}{3} + \left(0-\frac 2 3\right)(0-0)\frac{1}{3} + \left(1-\frac 2 3\right)(1-0)\frac{1}{3} = 0. \end{align} [/math]

秩相关系数

Spearman's rank correlation coefficient(斯皮尔曼等级相关系数)和Kendall的秩相关系数 (τ)这样的秩相关系数,用来衡量随着一个变量增加,另一个变量也倾向于增加的程度,而不要求这种增加必须通过线性关系来表示。如果当一个变量增加时,另一个变量减少,秩相关系数将是负的。通常认为这些秩相关系数是皮尔逊系数的替代品,用于减少计算量或使系数对分布中的非正态性不那么敏感。然而,这种观点在数学上并无太多依据,因为秩相关系数衡量的是与Pearson product-moment correlation coefficient(皮尔逊积矩相关系数)不同类型的关系,并且最好被视为不同类型的关联度量,而不是人口相关系数的另一种度量。[7][8]

为了说明秩相关的性质及其与线性相关的区别,考虑以下四对数字 解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle (x,y)}

(0, 1), (10, 100), (101, 500), (102, 2000)。

当我们从一对数到另一对数时,解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle x} 增加,解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle y} 也增加。这种关系是完美的,意味着解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle x} 的增加总是伴随着解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle y} 的增加。这意味着我们有一个完美的秩相关,斯皮尔曼和肯德尔的相关系数都是1,而在这个例子中皮尔逊积矩相关系数为0.7544,表明这些点远离直线。同样地,如果解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle y}解析失败 (SVG(MathML可通过浏览器插件启用):从服务器“https://wikimedia.org/api/rest_v1/”返回无效的响应(“Math extension cannot connect to Restbase.”):): {\displaystyle x} 增加时总是减少,秩相关系数将是-1,而皮尔逊积矩相关系数可能接近-1,也可能不接近,这取决于这些点与直线的接近程度。尽管在完美秩相关的极端情况下,两个系数都是相等的(都是+1或-1),但通常情况下并非如此,因此两个系数的值不能有意义地进行比较。[7]例如,对于三对数(1, 1) (2, 3) (3, 2),斯皮尔曼系数是1/2,而肯德尔系数是 1/3。

其他衡量随机变量相依性的方法

仅靠相关系数所提供的信息并不足以定义随机变量之间的依赖结构。[9] 在某些特殊情况下,例如当分布是multivariate normal distribution时,相关系数完全定义了依赖结构。在elliptical distribution的情况下,它描述了等密度的(超)椭圆;然而,它并不完全描述依赖结构(例如,multivariate t-distribution的自由度决定了尾部依赖的程度)。

Distance correlation[10][11] 被引入是为了弥补Pearson相关系数的不足,即它可能对依赖的随机变量为零;零距离相关性意味着独立。

随机依赖系数[12] 是一个基于copula的多变量随机变量之间依赖性的计算效率高的衡量方法。RDC对随机变量的非线性缩放不变,能够发现广泛的功能关联模式,并在独立时取值为零。

对于两个二元变量odds ratio衡量它们的依赖性,并取非负数值范围,可能为无穷大:[mathmath>[/math] 。相关的统计量如Yule's YYule's Q将其规范化到类似相关系数的范围[mathmath>[/math]逻辑模型将赔率比推广,用于模拟依赖变量是离散的情况,且可能有一个或多个独立变量。

correlation ratio、基于mutual informationtotal correlationdual total correlationpolychoric correlation都能够检测更一般的依赖性,考虑它们之间的copula也是如此,而coefficient of determination将相关系数推广到multiple regression

对数据分布的敏感性

变量XY之间的依赖程度不取决于这些变量表达的尺度。也就是说,如果我们分析XY之间的关系,大多数相关度量不会受到将X转换为[math]a + bX[/math]和Y转换为[math]c + dY[/math]的影响,其中a、b、c和d是常数(b和d为正数)。这适用于某些相关统计量以及它们的人口类似物。一些相关统计量,如秩相关系数,也对X和/或Y的边缘分布的单调变换保持不变。

XY两个变量的范围不受限制时,以及X的范围限制在区间(0,1)时,展示了XY之间的Pearson/Spearman相关系数。

大多数相关度量对于XY的抽样方式是敏感的。如果在更广范围的值上观察,依赖关系往往更强。因此,如果我们考虑所有成年男性父亲与其儿子身高之间的相关系数,并将其与仅选择身高在165厘米到170厘米之间的父亲时计算的同一相关系数进行比较,后者情况下的相关性会更弱。已经开发出几种技术试图纠正一个或两个变量中的范围限制,并且通常在元分析中使用;最常见的是Thorndike的第二和第三案例方程。[13]

对于XY的某些联合分布,使用中的各种相关度量可能是未定义的。例如,Pearson相关系数是基于定义的,因此如果矩是未定义的,它也将是未定义的。基于quantile的依赖度量始终是定义的。旨在估计人口依赖度量的基于样本的统计量可能具有或可能不具有如无偏性或渐近一致性等理想的统计属性,这取决于采样数据的人口空间结构。

对数据分布的敏感性可以被用作优势。例如,scaled correlation旨在利用对范围的敏感性来挑选出时间序列中快速组成部分之间的相关性。[14]通过以受控方式减少值的范围,过滤掉长时间尺度上的相关性,仅揭示短时间尺度上的相关性。

相关矩阵

[math]n[/math]个随机变量[math]X_1,\ldots,X_n[/math]的相关矩阵是一个[math]n \times n[/math]矩阵[math]C[/math],其[math](i,j)[/math]项定义为

[math]c_{ij}:=\operatorname{corr}(X_i,X_j)=\frac{\operatorname{cov}(X_i,X_j)}{\sigma_{X_i}\sigma_{X_j}},\quad \text{若}\ \sigma_{X_i}\sigma_{X_j}>0.[/math]

因此,对角线上的条目都是。如果使用的相关性度量是乘积矩相关系数,相关矩阵与标准化随机变量 [math]X_i / \sigma(X_i)[/math] 的协方差矩阵相同,适用于[math]i = 1, \dots, n[/math]。这适用于人口相关矩阵(在这种情况下[math]\sigma[/math]是人口标准差)和样本相关矩阵(在这种情况下[math]\sigma[/math]表示样本标准差)。因此,每个矩阵都必然是半正定矩阵。此外,如果没有变量的所有值都可以精确地作为其他变量值的线性函数生成,则相关矩阵严格正定

相关矩阵是对称的,因为[math]X_i[/math]与[math]X_j[/math]之间的相关性与[math]X_j[/math]与[math]X_i[/math]之间的相关性相同。

例如,在多重决定系数的公式中,相关矩阵是多重回归中拟合优度的一种度量。

统计建模中,代表变量之间关系的相关矩阵被划分为不同的相关结构,这些结构根据估计所需的参数数量等因素进行区分。例如,在可交换相关矩阵中,所有变量对被建模为具有相同的相关性,因此矩阵的所有非对角元素都彼此相等。另一方面,当变量代表时间序列时,经常使用自回归矩阵,因为当测量值时间上更接近时,相关性可能会更大。其他例子包括独立、非结构化、M依赖和托普利茨。

探索性数据分析中,相关性图标包括用一个图表替换相关矩阵,其中“显著”相关性由实线(正相关)或虚线(负相关)表示。

最近有效相关矩阵

在某些应用中(例如,仅从部分观察到的数据中构建数据模型),人们希望找到与“近似”相关矩阵(例如,由于计算方式,通常缺乏半正定正性的矩阵)“最接近”的相关矩阵。

  1. Croxton, Frederick Emory; Cowden, Dudley Johnstone; Klein, Sidney (1968) Applied General Statistics, Pitman. ISBN 9780273403159 (page 625)
  2. Dietrich, Cornelius Frank (1991) Uncertainty, Calibration and Probability: The Statistics of Scientific and Industrial Measurement 2nd Edition, A. Higler. ISBN 9780750300605 (Page 331)
  3. Aitken, Alexander Craig (1957) Statistical Mathematics 8th Edition. Oliver & Boyd. ISBN 9780050013007 (Page 95)
  4. Rodgers, J. L.; Nicewander, W. A. (1988). "Thirteen ways to look at the correlation coefficient". The American Statistician. 42 (1): 59–66. doi:10.1080/00031305.1988.10475524. JSTOR 2685263.
  5. Dowdy, S. and Wearden, S. (1983). "Statistics for Research", Wiley. ISBN 0-471-08602-9 pp 230
  6. Francis, DP; Coats AJ; Gibson D (1999). "How high can a correlation coefficient be?". Int J Cardiol. 69 (2): 185–199. doi:10.1016/S0167-5273(99)00028-5. PMID 10549842.
  7. 7.0 7.1 Yule, G.U and Kendall, M.G. (1950), "An Introduction to the Theory of Statistics", 14th Edition (5th Impression 1968). Charles Griffin & Co. pp 258–270
  8. Kendall, M. G. (1955) "Rank Correlation Methods", Charles Griffin & Co.
  9. Mahdavi Damghani B. (2013). "The Non-Misleading Value of Inferred Correlation: An Introduction to the Cointelation Model". Wilmott Magazine. 2013 (67): 50–61. doi:10.1002/wilm.10252.
  10. Székely, G. J. Rizzo; Bakirov, N. K. (2007). "Measuring and testing independence by correlation of distances". Annals of Statistics. 35 (6): 2769–2794. arXiv:0803.4101. doi:10.1214/009053607000000505. S2CID 5661488.
  11. Székely, G. J.; Rizzo, M. L. (2009). "Brownian distance covariance". Annals of Applied Statistics. 3 (4): 1233–1303. arXiv:1010.0297. doi:10.1214/09-AOAS312. PMC 2889501. PMID 20574547.
  12. Lopez-Paz D. and Hennig P. and Schölkopf B. (2013). "The Randomized Dependence Coefficient", "Conference on Neural Information Processing Systems" [ Reprint]
  13. Thorndike, Robert Ladd (1947). Research problems and techniques (Report No. 3). Washington DC: US Govt. print. off.
  14. Nikolić, D; Muresan, RC; Feng, W; Singer, W (2012). "Scaled correlation analysis: a better way to compute a cross-correlogram". European Journal of Neuroscience. 35 (5): 1–21. doi:10.1111/j.1460-9568.2011.07987.x. PMID 22324876. S2CID 4694570.