Zeroclanzhang(讨论 | 贡献) 无编辑摘要 |
无编辑摘要 |
||
(未显示2个用户的4个中间版本) | |||
第5行: | 第5行: | ||
|simpleicon=Linear Correlation Analysis_Pure.svg | |simpleicon=Linear Correlation Analysis_Pure.svg | ||
|developer=Dev.Team-DPS | |developer=Dev.Team-DPS | ||
|productionstate= | |productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用 | ||
|productionstatedesc=在[[DecisionLinnc | V1.0]]部署 | |productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署 | ||
|nodeenglishname= | |nodeenglishname=Linear Correlation Analysis | ||
|abbreviation= | |abbreviation=LinCA | ||
|funcmaincategory=数据分析 | |funcmaincategory=数据分析 | ||
|funcsubcategory=[[DataAGM Lv1 Cat::相关分析]] | |funcsubcategory=[[DataAGM Lv1 Cat::相关分析]] | ||
第19行: | 第19行: | ||
|nodeifswitchsupport=否 | |nodeifswitchsupport=否 | ||
|nodeavailableplotlist=NotSplittingPointPlot | |nodeavailableplotlist=NotSplittingPointPlot | ||
|nodeavailabletablelist= | |nodeavailabletablelist=t-Value;df;P-Value;CI;Cor-Value | ||
|nodeconfiguration=VariableList; | |nodeconfiguration=VariableList;DropMenu;Text | ||
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■ | |nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■ | ||
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■ | |nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■ | ||
|statsapewikiurl=https://wiki.statsape.com/一般线性相关分析 | |statsapewikiurl=https://wiki.statsape.com/一般线性相关分析 | ||
|previousnode=[[ | |previousnode=[[Two_Way_ANCOVA]] | ||
|nextnode=[[典型相关分析]] | |nextnode=[[典型相关分析]] | ||
}} | }} | ||
在[[统计学]]中,'''相关性'''或'''依赖性'''是指两个[[随机变量]]或[[双变量数据]]之间,无论是否具有[[因果性|因果关系]],存在的任何统计关系。尽管在最广泛的意义上,“相关性”可能表示任何类型的关联,在统计学中它通常指的是一对变量“[[线性几何|线性地]]”相关的程度。 | |||
熟悉的依赖现象示例包括[[人类身高|父母身高]]与其后代之间的相关性,以及商品价格与消费者愿意购买的数量之间的相关性,正如所谓的[[需求曲线]]所描绘的。 | |||
相关性之所以有用,是因为它们可以指示一种可以在实践中利用的预测关系。例如,一个电力公司可能会根据电力需求与天气之间的相关性,在温和的日子里生产较少的电力。在这个例子中,存在一个[[因果性|因果关系]],因为[[极端天气]]导致人们使用更多的电力进行加热或冷却。然而,一般来说,相关性的存在不足以推断出因果关系的存在(即[[相关性不等于因果性]])。 | |||
从正式的角度来说,如果随机变量不满足[[独立性(概率论)|概率独立性]]的数学属性,则它们是“依赖”的。在非正式用语中,“相关性”与“依赖性”同义。然而,当在技术意义上使用时,相关性指的是[[条件期望|被测试变量及其各自的预期值]]之间的几种特定类型的数学操作之一。本质上,相关性是衡量两个或多个变量之间关系的度量。有几种[[相关系数]],通常用[math]\rho[/math]或[math]r[/math]表示,用于测量相关程度。其中最常见的是“[[皮尔逊积矩相关系数|皮尔逊相关系数]]”,它只对两个变量之间的线性关系敏感(即使当其中一个变量是另一个变量的非线性函数时也可能存在)。其他的相关系数——如“[[斯皮尔曼等级相关系数|斯皮尔曼等级相关]]”——已被开发出来,比皮尔逊的更[[稳健统计|稳健]],即对非线性关系更敏感。<ref>Croxton, Frederick Emory; Cowden, Dudley Johnstone; Klein, Sidney (1968) ''Applied General Statistics'', Pitman. {{ISBN|9780273403159}} (page 625)</ref><ref>Dietrich, Cornelius Frank (1991) ''Uncertainty, Calibration and Probability: The Statistics of Scientific and Industrial Measurement'' 2nd Edition, A. Higler. {{ISBN|9780750300605}} (Page 331)</ref><ref>Aitken, Alexander Craig (1957) ''Statistical Mathematics'' 8th Edition. Oliver & Boyd. {{ISBN|9780050013007}} (Page 95)</ref> [[互信息]]也可以用来衡量两个变量之间的依赖性。 | |||
=='''皮尔逊积矩系数'''== | |||
{{Main|皮尔逊积矩相关系数}} | |||
[[File:Pearson Correlation Coefficient and associated scatterplots.png|thumb|各种数据集与各种相关系数的示例散点图。]] | |||
两个数量之间依赖性的最熟悉度量是[[皮尔逊积矩相关系数]](PPMCC),或称“皮尔逊相关系数”,通常简称为“相关系数”。它是通过取我们数值数据集中两个变量的协方差与它们方差的平方根的比值得到的。数学上,简单地将两个变量的[[协方差]]除以它们的[[标准差]]的乘积。[[卡尔·皮尔逊]]根据[[弗朗西斯·高尔顿]]的一个类似但略有不同的想法开发了这个系数。<ref name="thirteenways">{{cite journal | last1 = Rodgers | first1 = J. L. | last2 = Nicewander | first2 = W. A. | year = 1988 | title = Thirteen ways to look at the correlation coefficient | journal = The American Statistician | volume = 42 | issue = 1| pages = 59–66 | jstor=2685263 | doi=10.1080/00031305.1988.10475524}}</ref> | |||
皮尔逊积矩相关系数试图通过基本上布置预期值并通过数据集的两个变量建立一条最佳拟合线,而得出的皮尔逊相关系数指示实际数据集与预期值的偏离程度。根据我们的皮尔逊相关系数的符号,如果数据集的变量之间存在任何类型的关系,我们可以得到负相关或正相关。{{cn|date=2023年11月}} | |||
两个[[随机变量]][math]X[/math]和[math]Y[/math]之间的总体相关系数[math]\rho_{X,Y}[/math],它们的[[期望值]]分别为[math]\mu_X[/math]和[math]\mu_Y[/math],[[标准差]]分别为[math]\sigma_X[/math]和[math]\sigma_Y[/math],定义为: | |||
[math]\rho_{X,Y} = \operatorname{corr}(X,Y) = {\operatorname{cov}(X,Y) \over \sigma_X \sigma_Y} = {\operatorname{E}[(X-\mu_X)(Y-\mu_Y)] \over \sigma_X\sigma_Y}, \quad \text{if}\ \sigma_{X}\sigma_{Y}>0.[/math] | |||
其中[math]\operatorname{E}[/math]是[[期望值]]运算符,[math]\operatorname{cov}[/math]表示[[协方差]],而[math]\operatorname{corr}[/math]是相关系数的广泛使用的替代符号。只有当两个标准差都是有限且正的,皮尔逊相关才有定义。纯粹用[[矩(数学)|矩]]的术语表示的另一公式是: | |||
[math]\rho_{X,Y} = {\operatorname{E}(XY)-\operatorname{E}(X)\operatorname{E}(Y)\over \sqrt{\operatorname{E}(X^2)-\operatorname{E}(X)^2}\cdot \sqrt{\operatorname{E}(Y^2)-\operatorname{E}(Y)^2} }[/math] | |||
===相关性与独立性=== | |||
[[Cauchy–Schwarz不等式]]的一个推论是,皮尔逊相关系数的[[绝对值]]不大于1。因此,相关系数的值在-1和+1之间变化。在完美直接(增加)线性关系(相关性)的情况下,相关系数为+1,在完美逆(减少)线性关系('''反相关''')的情况下,相关系数为-1<ref>Dowdy, S. 和 Wearden, S. (1983). "Statistics for Research", Wiley. {{ISBN|0-471-08602-9}} 页 230</ref>,在所有其他情况下,其值在[math](-1,1)[/math]的[[开区间]]内,指示变量之间的[[线性依赖]]程度。当它接近零时,关系较小(更接近于不相关)。系数越接近-1或1,变量之间的相关性越强。 | |||
如果变量是[[统计独立|独立的]],皮尔逊相关系数为0,但反之则不成立,因为相关系数只能检测两个变量之间的线性依赖。简单来说,如果两个随机变量X和Y是独立的,则它们是不相关的,但如果两个随机变量是不相关的,那么它们可能是独立的,也可能不是独立的。 | |||
[math]\begin{align} | |||
X,Y \text{ 独立} \quad & \Rightarrow \quad \rho_{X,Y} = 0 \quad (X,Y \text{ 不相关})\\ | |||
\rho_{X,Y} = 0 \quad (X,Y \text{ 不相关})\quad & \nRightarrow \quad X,Y \text{ 独立} | |||
\end{align}[/math] | |||
例如,假设随机变量[math]X[/math]关于零对称分布,且[math]Y=X^2[/math]。那么[math]Y[/math]完全由[math]X[/math]决定,因此[math]X[/math]和[math]Y[/math]是完全依赖的,但它们的相关性为零;它们是[[不相关]]的。然而,在特殊情况下,当[math]X[/math]和[math]Y[/math]是[[联合正态|联合正态分布]]时,不相关性等同于独立性。 | |||
尽管不相关数据不一定意味着独立性,但如果随机变量的[[互信息]]为0,可以检查随机变量是否独立。 | |||
===样本相关系数=== | |||
给定一系列[math]n[/math]次对[math](X_i,Y_i)[/math]的测量,由[math]i=1,\ldots,n[/math]索引,''样本相关系数''可用于估计[math]X[/math]和[math]Y[/math]之间的群体皮尔逊相关[math]\rho_{X,Y}[/math]。样本相关系数定义为 | |||
[math]r_{x y} \stackrel{\text { def }}{=} \frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{(n-1) s_{x} s_{y}}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}} ,[/math] | |||
其中[math]\overline{x}[/math]和[math]\overline{y}[/math]是[math]X[/math]和[math]Y[/math]的样本[[算术平均|平均值]],[math]s_x[/math]和[math]s_y[/math]是[math]X[/math]和[math]Y[/math]的[[标准差#校正样本标准差|校正样本标准差]]。 | |||
[math]r_{xy}[/math]的等价表达式是 | |||
[math]\begin{aligned} r_{x y} & =\frac{\sum x_{i} y_{i}-n \bar{x} \bar{y}}{n s_{x}^{\prime} s_{y}^{\prime}} \\ & =\frac{n \sum x_{i} y_{i}-\sum x_{i} \sum y_{i}}{\sqrt{n \sum x_{i}^{2}-\left(\sum x_{i}\right)^{2}} \sqrt{n \sum y_{i}^{2}-\left(\sum y_{i}\right)^{2}}} .\end{aligned}[/math] | |||
其中[math]s'_x[/math]和[math]s'_y[/math]是[math]X[/math]和[math]Y[/math]的[[标准差#未校正样本标准差|''未校正''样本标准差]]。 | |||
如果[math]x[/math]和[math]y[/math]是包含测量误差的测量结果,则相关系数的实际限制不是-1到+1,而是一个更小的范围。<ref>{{cite journal|last=Francis|first=DP|author2=Coats AJ|author3=Gibson D|title=How high can a correlation coefficient be?|journal=Int J Cardiol|year=1999|volume=69|pages=185–199|doi=10.1016/S0167-5273(99)00028-5|issue=2|pmid=10549842}}</ref> 对于具有单一独立变量的线性模型情况,[[决定系数|决定系数(R平方)]]是[math]r_{xy}[/math],皮尔逊乘积矩系数的平方。 | |||
=='''例子'''== | |||
考虑下表中给出的{{mvar|X}}和{{mvar|Y}}的[[联合概率分布]]。 | |||
:{| class="wikitable" style="text-align:center;" | |||
|+ [math]\mathrm{P}(X=x,Y=y)[/math] | |||
! {{diagonal split header|{{mvar|x}}|{{mvar|y}}}} | |||
!−1 | |||
!0 | |||
!1 | |||
|- | |||
!0 | |||
|0 | |||
|{{sfrac|1|3}} | |||
|0 | |||
|- | |||
!1 | |||
|{{sfrac|1|3}} | |||
|0 | |||
|{{sfrac|1|3}} | |||
|} | |||
对于这个联合分布,[[边缘分布]]是: | |||
[math]\mathrm{P}(X=x)=\left\{\begin{array}{ll}\frac{1}{3} & \text { for } x=0 \\ \frac{2}{3} & \text { for } x=1\end{array}\right.[/math] | |||
[math]\mathrm{P}(Y=y)=\left\{\begin{array}{ll}\frac{1}{3} & \text { for } y=-1 \\ \frac{1}{3} & \text { for } y=0 \\ \frac{1}{3} & \text { for } y=1\end{array}\right.[/math] | |||
这产生了以下期望和方差: | |||
:[math]\mu_X = \frac 2 3[/math] | |||
:[math]\mu_Y = 0[/math] | |||
:[math]\sigma_X^2 = \frac 2 9[/math] | |||
:[math]\sigma_Y^2 = \frac 2 3[/math] | |||
因此: | |||
[math]\begin{aligned} \rho_{X, Y} & =\frac{1}{\sigma_{X} \sigma_{Y}} \mathrm{E}\left[\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right] \\ & =\frac{1}{\sigma_{X} \sigma_{Y}} \sum_{x, y}\left(x-\mu_{X}\right)\left(y-\mu_{Y}\right) \mathrm{P}(X=x, Y=y) \\ & =\left(1-\frac{2}{3}\right)(-1-0) \frac{1}{3}+\left(0-\frac{2}{3}\right)(0-0) \frac{1}{3}+\left(1-\frac{2}{3}\right)(1-0) \frac{1}{3}=0\end{aligned}[/math] | |||
=='''等级相关系数'''== | |||
{{Main|Spearman's rank correlation coefficient|Kendall tau rank correlation coefficient}} | |||
[[Rank correlation]]系数,如[[Spearman's rank correlation coefficient]]和[[Kendall's tau|Kendall等级相关系数(τ)]],衡量的是随着一个变量的增加,另一个变量倾向于增加的程度,而不要求这种增加必须通过线性关系来表示。如果随着一个变量的增加,另一个变量''减少'',那么等级相关系数将是负数。通常认为这些等级相关系数是Pearson系数的替代品,用来减少计算量或使系数对分布的非正态性不那么敏感。然而,这种观点在数学上几乎没有依据,因为等级相关系数衡量的是与[[Pearson product-moment correlation coefficient]]不同类型的关系,并且最好被视为不同类型的关联度量,而不是人口相关系数的另一种度量。<ref name="Yule and Kendall">Yule, G.U和Kendall, M.G. (1950),《统计理论导论》,第14版(第5次印刷1968)。Charles Griffin & Co. 页258–270</ref><ref name="Kendall Rank Correlation Methods">Kendall, M. G. (1955) "Rank Correlation Methods", Charles Griffin & Co.</ref> | |||
为了说明等级相关的性质及其与线性相关的区别,请考虑以下四对数字[math](x,y)[/math]: | |||
:(0, 1), (10, 100), (101, 500), (102, 2000). | |||
当我们从每一对数字过渡到下一对时,[math]x[/math]增加,[math]y[/math]也增加。这种关系是完美的,因为[math]x[/math]的增加''总是''伴随着[math]y[/math]的增加。这意味着我们有一个完美的等级相关,Spearman和Kendall的相关系数都是1,而在这个例子中Pearson乘积矩相关系数是0.7544,表明这些点远未落在一条直线上。同样地,如果[math]y[/math]在[math]x[/math]''增加''时总是''减少'',等级相关系数将是-1,而Pearson乘积矩相关系数可能接近于-1也可能不接近,这取决于这些点与直线的接近程度。尽管在完美等级相关的极端情况下,两个系数都是相等的(都是+1或都是-1),但通常情况并非如此,因此两个系数的值不能有意义地进行比较。<ref name="Yule and Kendall"/>例如,对于三对数字(1, 1) (2, 3) (3, 2),Spearman系数是1/2,而Kendall系数是 1/3。 | |||
=='''随机变量间的其他依赖性度量'''== | |||
{{See also|Pearson product-moment correlation coefficient#Variants}} | |||
相关系数给出的信息不足以定义随机变量之间的依赖结构。<ref name="wilmottM.com">{{cite journal|author=Mahdavi Damghani B.|title=推断相关的非误导价值:对Cointelation模型的介绍|journal=Wilmott Magazine|volume=2013|issue=67|pages=50–61|year=2013|doi=10.1002/wilm.10252 }}</ref>在非常特殊的情况下,相关系数完全定义了依赖结构,例如当分布是[[multivariate normal distribution]]。(见上图。)在[[elliptical distribution]]的情况下,它描述了等密度的(超)椭圆;然而,它并未完全描述依赖结构(例如,[[multivariate t-distribution]]的自由度决定了尾部依赖的级别)。 | |||
[[Distance correlation]]<ref>{{cite journal | last1 = Székely | first1 = G. J. Rizzo | last2 = Bakirov | first2 = N. K. | year = 2007 | title = 通过距离的相关性测量和测试独立性 | journal = [[Annals of Statistics]] | volume = 35 | issue = 6| pages = 2769–2794 | doi = 10.1214/009053607000000505 | arxiv = 0803.4101 | s2cid = 5661488 }}</ref><ref>{{cite journal | last1 = Székely | first1 = G. J. | last2 = Rizzo | first2 = M. L. | year = 2009 | title = 布朗距离协方差 | journal = Annals of Applied Statistics | volume = 3 | issue = 4| pages = 1233–1303 | doi = 10.1214/09-AOAS312 | pmid = 20574547 | pmc = 2889501 | arxiv = 1010.0297 }}</ref>被引入是为了解决Pearson相关性的不足,即它对于依赖的随机变量可能为零;零距离相关意味着独立性。 | |||
随机依赖系数<ref>Lopez-Paz D.和Hennig P.以及Schölkopf B. (2013)。"随机依赖系数","[[Conference on Neural Information Processing Systems]]" [重印]</ref>是一种基于[[Copula (probability theory)|copula]]的多变量随机变量之间的依赖度量,计算效率高。RDC对随机变量的非线性缩放是不变的,能够发现广泛的功能关联模式,并在独立时取值为零。 | |||
对于两个[[binary data|二进制变量]],[[odds ratio]]测量它们的依赖性,并取非负数范围,可能为无穷大:{{tmath|[0, +\infty]}}。相关的统计量如[[Yule's Y|Yule的''Y'']]和[[Yule's Q|Yule的''Q'']]将这个规范化到类似相关性的范围{{tmath|[-1, 1]}}。几率比通过[[logistic regression|逻辑模型]]被推广,以模拟依赖变量是离散的情况,并且可能有一个或多个独立变量。 | |||
[[correlation ratio]],基于[[Entropy (information theory)|熵]]的[[mutual information]],[[total correlation]],[[dual total correlation]]和[[polychoric correlation]]都能够检测更一般的依赖性,考虑它们之间的[[copula (statistics)|copula]]也是如此,而[[coefficient of determination]]将相关系数推广到[[multiple regression]]。 | |||
=='''对数据分布的敏感性'''== | |||
{{Further|Pearson product-moment correlation coefficient#Sensitivity to the data distribution}} | |||
变量{{mvar|X}}与{{mvar|Y}}之间的依赖程度并不取决于变量表达的尺度。也就是说,如果我们正在分析{{mvar|X}}与{{mvar|Y}}之间的关系,大多数相关性测量不受将{{mvar|X}}转换为[math]a + bX[/math]和将{{mvar|Y}}转换为[math]c + dY[/math]的影响,其中a、b、c和d是常数(b和d为正)。这一点对于一些相关性[[statistic]]以及它们的[[Population (statistics)|population]]类比都是成立的。某些相关统计量,如秩相关系数,也对{{mvar|X}}和/或{{mvar|Y}}的边缘分布的[[monotone function|单调变换]]保持不变。 | |||
[[File:correlation range dependence.svg|300px|right|thumb|[[Pearson product moment correlation coefficient|Pearson]]/[[Spearman's rank correlation coefficient|Spearman]] 关于{{mvar|X}}与{{mvar|Y}}的相关系数,展示了当两个变量的范围不受限制时,以及{{mvar|X}}的范围限制在(0,1)区间时的情况。]]大多数相关度量对于{{mvar|X}}和{{mvar|Y}}的采样方式都是敏感的。如果在更广范围的值上观察,依赖性往往会更强。因此,如果我们考虑所有成年男性中父亲和他们儿子的身高之间的相关系数,并将其与仅选择身高在165厘米到170厘米之间的父亲计算的同一相关系数比较,后一种情况下的相关性会更弱。已经开发了几种技术试图纠正一个或两个变量的范围限制,并且这些技术通常用于元分析;最常见的是Thorndike的第二种情形和第三种情形方程。<ref>{{cite book|last=Thorndike|first=Robert Ladd|title=Research problems and techniques (Report No. 3)|year=1947|publisher=US Govt. print. off.|location=Washington DC}}</ref> | |||
某些相关度量在特定的{{mvar|X}}和{{mvar|Y}}的联合分布下可能是未定义的。例如,Pearson相关系数是基于[[moment (mathematics)|矩]]定义的,因此如果矩未定义,则该相关系数将是未定义的。基于[[quantile]]的依赖度量总是有定义的。旨在估计人口依赖度量的基于样本的统计量可能具有也可能不具有诸如无偏或[[consistent estimator|渐近一致]]等理想的统计属性,这取决于数据样本的空间结构。 | |||
对数据分布的敏感性可以被用作优势。例如,[[scaled correlation]]旨在利用对范围的敏感性来挑选出时间序列快速组成部分之间的相关性。<ref name = "Nikolicetal">{{cite journal | last1 = Nikolić | first1 = D | last2 = Muresan | first2 = RC | last3 = Feng | first3 = W | last4 = Singer | first4 = W | year = 2012 | title = Scaled correlation analysis: a better way to compute a cross-correlogram | journal = European Journal of Neuroscience | volume = 35| issue = 5| pages = 1–21 | doi = 10.1111/j.1460-9568.2011.07987.x | pmid = 22324876 | s2cid = 4694570 }}</ref>通过以受控方式减少值的范围,过滤掉长时间尺度上的相关性,仅揭示短时间尺度上的相关性。 | |||
=='''相关性矩阵'''== | |||
[math]n[/math]个随机变量[math]X_1,\ldots,X_n[/math]的相关性矩阵是[math]n \times n[/math]矩阵[math]C[/math],其[math](i,j)[/math]项为 | |||
:[math]c_{ij}:=\operatorname{corr}(X_i,X_j)=\frac{\operatorname{cov}(X_i,X_j)}{\sigma_{X_i}\sigma_{X_j}},\quad \text{if}\ \sigma_{X_i}\sigma_{X_j}>0.[/math] | |||
因此,对角线项全都是[[unity (number)|一]]。如果使用的相关度量是乘积矩相关系数,那么相关性矩阵与[[standardized variable|标准化随机变量]][math]X_i / \sigma(X_i)[/math]的[[covariance matrix|协方差矩阵]]相同,适用于人口相关矩阵(在这种情况下[math]\sigma[/math]是人口标准差)和样本相关矩阵(在这种情况下[math]\sigma[/math]表示样本标准差)。因此,每一个都必然是[[positive-semidefinite matrix|半正定矩阵]]。此外,如果没有任何变量可以完全通过其他变量的值的线性函数生成其所有值,则相关矩阵严格是[[positive definite matrix|正定矩阵]]。 | |||
相关性矩阵是对称的,因为[math]X_i[/math]与[math]X_j[/math]之间的相关性与[math]X_j[/math]与[math]X_i[/math]之间的相关性相同。 | |||
相关性矩阵出现在多个公式中,例如,在[[coefficient of multiple determination#Computation|多重决定系数]]的一个公式中,这是一个衡量[[multiple regression|多元回归]]拟合优度的指标。 | |||
在[[statistical modelling|统计建模]]中,代表变量之间关系的相关性矩阵被分类为不同的相关结构,这些结构通过估计它们所需的参数数量等因素进行区分。例如,在一个[[Exchangeability|可交换性]]相关矩阵中,所有变量对被建模为具有相同的相关性,因此矩阵的所有非对角线元素彼此相等。另一方面,当变量代表时间序列时,通常使用[[Autoregressive model|自回归]]矩阵,因为测量值时间上越接近,它们的相关性可能越大。其他例子包括独立、无结构、M-依赖和Toeplitz结构。 | |||
在[[exploratory data analysis|探索性数据分析]]中,[[iconography of correlations|相关性图标法]]包括用图表替换相关性矩阵,其中“显著”的相关性用实线(正相关)或虚线(负相关)表示。 | |||
===最接近的有效相关矩阵=== | |||
在一些应用中(例如,仅从部分观测数据构建数据模型),人们希望找到一个“最接近”的相关矩阵到一个“近似”的相关矩阵(例如,一个通常因计算方式而缺乏半正定性的矩阵)。 | |||
2002年,Higham<ref>{{cite journal|title=计算最接近的相关矩阵——来自金融的问题|journal=IMA数值分析杂志|date=2002|first=Nicholas J.|last=Higham|volume=22|issue=3|pages=329–343|doi=10.1093/imanum/22.3.329|citeseerx=10.1.1.661.2180}}</ref>使用[[Frobenius范数]]明确了近似的概念,并提供了一种使用[[Dykstra的投影算法]]计算最接近的相关矩阵的方法,该方法的实现可作为在线Web API使用。<ref>{{Cite web|url=https://portfoliooptimizer.io/|title=投资组合优化器|website=portfoliooptimizer.io|access-date=2021-01-30}}</ref> | |||
这激发了对该主题的兴趣,随后几年中获得了新的理论(例如,计算具有因子结构的最接近的相关矩阵<ref>{{cite journal|title=计算具有因子结构的最接近的相关矩阵。|journal= SIAM J.矩阵分析及应用。|date=2010|first1=Rudiger|last1=Borsdorf|first2=Nicholas J.|last2=Higham|first3=Marcos|last3=Raydan|volume=31|issue=5|pages=2603–2622|doi=10.1137/090776718|url= http://eprints.maths.manchester.ac.uk/1523/1/SML002603.pdf}}</ref>)和数值(例如,使用[[牛顿法]]计算最接近的相关矩阵<ref>{{cite journal|title=一种用于计算最接近相关矩阵的二次收敛牛顿方法。|journal= SIAM J.矩阵分析及应用。|date=2006|first1=HOUDUO|last1=Qi|first2=DEFENG|last2=Sun|volume=28|issue=2|pages=360–385|doi=10.1137/050624509}}</ref>)结果。 | |||
=='''随机过程的不相关性和独立性'''== | |||
同样对于两个随机过程[math]\left\{ X_t \right\}_{t\in\mathcal{T}}[/math]和[math]\left\{ Y_t \right\}_{t\in\mathcal{T}}[/math]:如果它们是独立的,那么它们是不相关的。<ref name=KunIlPark>{{cite book | author=Park, Kun Il| title=概率论与随机过程基础及其在通信中的应用| publisher=Springer | year=2018 | isbn=978-3-319-68074-3}}</ref>{{rp|p. 151}}这个陈述的反面可能不成立。即使两个变量是不相关的,它们也可能不是彼此独立的。 | |||
=='''常见误解'''== | |||
===相关性与因果关系=== | |||
{{Main|相关性不意味着因果关系}} {{See also|正态分布且不相关不意味着独立}} | |||
传统的格言“[[相关性不意味着因果关系]]”意味着相关性本身不能用来推断变量之间的因果关系。<ref>{{cite journal | last=Aldrich | first=John | journal=统计科学 | volume=10 | issue=4 | year=1995 | pages=364–376 | title=皮尔森和尤尔的真实与伪造的相关性 | jstor=2246135 | doi=10.1214/ss/1177009870| doi-access=free }}</ref> 这一格言不应被理解为相关性不能指示因果关系的潜在存在。然而,如果有的话,相关性背后的原因可能是间接的和未知的,且高相关性也与[[身份(数学)|身份]]关系([[重言式(逻辑)|重言式]])重叠,在那里不存在因果过程。因此,两个变量之间的相关性不是建立因果关系(无论哪个方向)的充分条件。 | |||
儿童的年龄和身高之间的相关性相当因果透明,但人们的心情和健康之间的相关性就不那么明显了。是改善心情导致健康改善,还是良好的健康导致心情好,或者两者都有?或者是某些其他因素同时影响两者?换句话说,相关性可以作为可能因果关系的证据,但不能指示因果关系(如果有的话)可能是什么。 | |||
=== 简单线性相关性 === | |||
[[File:Anscombe's quartet 3.svg|thumb|325px|right|[[Anscombe四重奏]]:四组数据具有相同的相关性0.816]] | |||
皮尔森相关系数指示两个变量之间“线性”关系的强度,但其值通常不完全表征它们的关系。<ref>{{cite journal |first=Babak |last=Mahdavi Damghani |year=2012|title=测量相关性的误导性价值 |journal=[[Wilmott (magazine)|Wilmott 杂志]] |volume=2012 |issue=1 |pages=64–73 |doi=10.1002/wilm.10167|s2cid=154550363 }}</ref> 特别是,如果给定[math]X[/math]的[math]Y[/math]的[[条件期望|条件平均值]],表示为[math]\operatorname{E}(Y \mid X)[/math],不是[math]X[/math]的线性,则相关系数将无法完全确定[math]\operatorname{E}(Y \mid X)[/math]的形式。 | |||
相邻图像显示了[[散点图]]中的[[Anscombe四重奏]],一组由[[Francis Anscombe]]创建的四对不同变量。<ref>{{cite journal | last=Anscombe | first=Francis J. | year=1973 | title=统计分析中的图表 | journal=美国统计学家 | volume=27 | issue=1 | pages=17–21 | jstor=2682899 | doi=10.2307/2682899}}</ref> 这四个[math]y[/math]变量具有相同的平均值(7.5),方差(4.12),相关性(0.816)和回归线([math display="inline"]y=3+0.5x[/math])。然而,如图所示,变量的分布非常不同。第一个(左上)似乎正态分布,符合考虑两个变量相关且假设正态性时的预期。第二个(右上)不是正态分布;尽管可以观察到两个变量之间明显的关系,但它不是线性的。在这种情况下,皮尔森相关系数不表明存在确切的函数关系:只是该关系可以被线性关系近似的程度。在第三种情况(左下),线性关系是完美的,除了一个[[离群值]]足以将相关系数从1降低到0.816。最后,第四个例子(右下)显示了另一个例子,当一个离群值足以产生高相关系数时,尽管两个变量之间的关系不是线性的。 | |||
这些例子表明,作为[[汇总统计量]]的相关系数不能替代数据的视觉检查。有时候这些例子被认为证明了皮尔森相关假设数据遵循[[正态分布]],但这只是部分正确。<ref name="thirteenways"/> 皮尔森相关可以准确地计算任何具有有限[[协方差矩阵]]的分布,这包括实践中遇到的大多数分布。然而,如果数据来自[[多变量正态分布]],皮尔森相关系数(连同样本均值和方差)才是一个[[充分统计量]]。因此,只有当数据来源于多变量正态分布时,皮尔逊相关系数才能完全表征变量之间的关系。 | |||
==双变量正态分布== | |||
如果一对随机变量[math]\ (X,Y)\ [/math]遵循[[bivariate normal distribution|双变量正态分布]],则条件均值[math]\mathcal{E}(X \mid Y)[/math]是[math]Y[/math]的线性函数,而条件均值[math]\mathcal{E}(Y \mid X)[/math]是[math]\ X\ [/math]的线性函数。变量[math]\ X\ [/math]和[math]\ Y\ [/math]之间的相关系数[math]\ \rho_{X,Y}\ [/math],以及[math]\ X\ [/math]和[math]\ Y\ [/math]的[[Marginal distribution|边际]]均值和方差决定了这种线性关系: | |||
:[math]\mathcal{E}(Y \mid X ) = \mathcal{E}(Y) + \rho_{X,Y} \cdot \sigma_Y \cdot \frac{\ X-\mathcal{E}(X)\ }{ \sigma_X }\ ,[/math] | |||
其中,[math]\mathcal{E}(X)[/math]和[math]\mathcal{E}(Y)[/math]分别是[math]\ X\ [/math]和[math]\ Y\ [/math]的期望值,[math]\ \sigma_X\ [/math]和[math]\ \sigma_Y\ [/math]分别是[math]\ X\ [/math]和[math]\ Y\ [/math]的标准差。 | |||
经验相关系数[math]r[/math]是相关系数[math]\ \rho\ [/math]的[[Estimation|估计]]。对[math]\ \rho\ [/math]的分布估计由下式给出: | |||
[math]\pi(\rho \mid r)=\frac{\Gamma(N)}{\sqrt{2 \pi} \cdot \Gamma\left(N-\frac{1}{2}\right)} \cdot\left(1-r^{2}\right)^{\frac{N-2}{2}} \cdot\left(1-\rho^{2}\right)^{\frac{N-3}{2}} \cdot(1-r \rho)^{-N+\frac{3}{2}} \cdot F_{\text {Hyp }}\left(\frac{3}{2},-\frac{1}{2} ; N-\frac{1}{2} ; \frac{1+r \rho}{2}\right)[/math] | |||
其中[math]\ F_\mathsf{Hyp} \ [/math]是[[Gaussian hypergeometric function|高斯超几何函数]]。 | |||
这个密度既是贝叶斯[[posterior probability|后验]]密度,也是一个精确的最优[[confidence distribution|置信分布]]密度。<ref>{{cite journal |last=Taraldsen |first=Gunnar |date=2021 |title=The confidence density for correlation |journal=Sankhya A |volume=85 |pages=600–616 |lang=en |s2cid=244594067 |issn=0976-8378 |doi=10.1007/s13171-021-00267-y |doi-access=free}}</ref><ref>{{cite report |last=Taraldsen |first=Gunnar |date=2020 |title=Confidence in correlation |lang=en |type=preprint |doi=10.13140/RG.2.2.23673.49769 |website=researchgate.net |url=http://rgdoi.net/10.13140/RG.2.2.23673.49769}}</ref> | |||
== '''节点使用的R语言示例代码''' == | |||
=== 一般线性相关分析 === | |||
<syntaxhighlight lang="R"> | |||
cor.test(x, ...) | |||
</syntaxhighlight> | |||
== '''节点使用指南''' == | |||
* 研究两个或多个变量之间的线性关系的程度 | |||
* 计算相关系数 | |||
* 相关系数的值介于-1(完全负相关)和+1(完全正相关)之间,0表示没有线性关系 | |||
=== 方法选择 === | |||
* Pearson:评估两个定量变量之间的线性关系程度,数据应为连续的,服从正态分布,线性关系,变量之间的关系应具有相同的方差(即同方差性) | |||
* Spearman:评估两个变量之间的单调关系,用于定序数据或不满足皮尔逊相关系数正态分布的连续数据,不要求数据服从正态分布,不要求变量之间的关系是线性 | |||
* Kendall:评估两组等级数据之间关系的强度和方向,适用于小样本大小或定序数据,不要求数据服从正态分布,测量变量之间的相关性,但不一定是线性的 | |||
=== 参数配置 === | |||
* 统计变量1:选择数值变量,必须是continue类型变量。如果不是,需要进行变量类型转换 | |||
* 统计变量2:选择一个或多个数值变量,必须是continue类型变量。如果不是,需要进行变量类型转换。每个变量将与变量1做一次线性相关分析 | |||
* 选择方法:Pearson,Spearman,Kendall | |||
* 置信区间百分比:输入百分比,95%置信区间就是0.95 | |||
* 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验 | |||
* 筛选阈值:选择需要的P值阈值,节点会自动将满足阈值的变量筛选出,数据集也会同步筛选出满足的变量。 | |||
* 统计变量1和统计变量2要规避复用 | |||
* 此算法兼容空值 | |||
=== 注意事项 === | |||
* 相关不等于因果。即使两个变量之间存在强相关,也不能推断出一个变量导致另一个变量变化 | |||
* 相关系数仅测量变量之间的线性关系。如果关系是非线性的,相关系数可能低估或高估其关系的强度 | |||
== '''引用''' == | |||
{{Reflist}} | |||
{{Navplate AlgorithmNodeList}} | {{Navplate AlgorithmNodeList}} | ||
[[Category:相关分析]] | [[Category:相关分析]] |
2024年2月9日 (五) 17:03的最新版本
节点状态 | / Win10及以上可用
在V1.0部署
|
---|---|
一般线性相关分析 | |
节点开发者 | 决策链算法研发部 (Dev.Team-DPS) |
节点英文名 | Linear Correlation Analysis |
功能主类别 | 数据分析 |
英文缩写 | LinCA |
功能亚类别 | 相关分析 |
节点类型 | 数据挖掘 |
开发语言 | R |
节点简介 | |
一般线性相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。 变量之间的关系可以分为确定关系和非确定性关系。确定性关系,可以说是函数关系,也就是说对于某一变量的每个数值都有另一变量的完全确定的值与之对应。非确定性关系,即这里所说的相关关系,变量之间存在一定的依存关系,但不是一一对应的关系,即相随变动关系。此相关分析使用的方法有: pearson, spearman, 和kendall。 用途:用于衡量两个或多个变量间的线性关系强度和方向。检测两个连续变量之间是否存在线性关系的常用方法。 参数:选择数值变量 | |
端口数量与逻辑控制(PC) | |
Input-入口 | 4个 |
Output-出口 | 3个 |
Loop-支持循环 | 是 |
If/Switch-支持逻辑判断 | 否 |
输入输出 | |
相关节点 | |
上一节点 | Two_Way_ANCOVA |
下一节点 | 典型相关分析 |
在统计学中,相关性或依赖性是指两个随机变量或双变量数据之间,无论是否具有因果关系,存在的任何统计关系。尽管在最广泛的意义上,“相关性”可能表示任何类型的关联,在统计学中它通常指的是一对变量“线性地”相关的程度。
熟悉的依赖现象示例包括父母身高与其后代之间的相关性,以及商品价格与消费者愿意购买的数量之间的相关性,正如所谓的需求曲线所描绘的。
相关性之所以有用,是因为它们可以指示一种可以在实践中利用的预测关系。例如,一个电力公司可能会根据电力需求与天气之间的相关性,在温和的日子里生产较少的电力。在这个例子中,存在一个因果关系,因为极端天气导致人们使用更多的电力进行加热或冷却。然而,一般来说,相关性的存在不足以推断出因果关系的存在(即相关性不等于因果性)。
从正式的角度来说,如果随机变量不满足概率独立性的数学属性,则它们是“依赖”的。在非正式用语中,“相关性”与“依赖性”同义。然而,当在技术意义上使用时,相关性指的是被测试变量及其各自的预期值之间的几种特定类型的数学操作之一。本质上,相关性是衡量两个或多个变量之间关系的度量。有几种相关系数,通常用[math]\rho[/math]或[math]r[/math]表示,用于测量相关程度。其中最常见的是“皮尔逊相关系数”,它只对两个变量之间的线性关系敏感(即使当其中一个变量是另一个变量的非线性函数时也可能存在)。其他的相关系数——如“斯皮尔曼等级相关”——已被开发出来,比皮尔逊的更稳健,即对非线性关系更敏感。[1][2][3] 互信息也可以用来衡量两个变量之间的依赖性。
皮尔逊积矩系数
两个数量之间依赖性的最熟悉度量是皮尔逊积矩相关系数(PPMCC),或称“皮尔逊相关系数”,通常简称为“相关系数”。它是通过取我们数值数据集中两个变量的协方差与它们方差的平方根的比值得到的。数学上,简单地将两个变量的协方差除以它们的标准差的乘积。卡尔·皮尔逊根据弗朗西斯·高尔顿的一个类似但略有不同的想法开发了这个系数。[4]
皮尔逊积矩相关系数试图通过基本上布置预期值并通过数据集的两个变量建立一条最佳拟合线,而得出的皮尔逊相关系数指示实际数据集与预期值的偏离程度。根据我们的皮尔逊相关系数的符号,如果数据集的变量之间存在任何类型的关系,我们可以得到负相关或正相关。, 2023年11月 {{citation}}
: Check date values in: |date=
(help); Cite has empty unknown parameters: |cat2=
, |cat-date2=
, |cat3=
, and |cat-date3=
(help); Missing or empty |title=
(help); Unknown parameter |cat-date=
ignored (help); Unknown parameter |cat=
ignored (help)[citation needed]
两个随机变量[math]X[/math]和[math]Y[/math]之间的总体相关系数[math]\rho_{X,Y}[/math],它们的期望值分别为[math]\mu_X[/math]和[math]\mu_Y[/math],标准差分别为[math]\sigma_X[/math]和[math]\sigma_Y[/math],定义为:
[math]\rho_{X,Y} = \operatorname{corr}(X,Y) = {\operatorname{cov}(X,Y) \over \sigma_X \sigma_Y} = {\operatorname{E}[(X-\mu_X)(Y-\mu_Y)] \over \sigma_X\sigma_Y}, \quad \text{if}\ \sigma_{X}\sigma_{Y}>0.[/math]
其中[math]\operatorname{E}[/math]是期望值运算符,[math]\operatorname{cov}[/math]表示协方差,而[math]\operatorname{corr}[/math]是相关系数的广泛使用的替代符号。只有当两个标准差都是有限且正的,皮尔逊相关才有定义。纯粹用矩的术语表示的另一公式是:
[math]\rho_{X,Y} = {\operatorname{E}(XY)-\operatorname{E}(X)\operatorname{E}(Y)\over \sqrt{\operatorname{E}(X^2)-\operatorname{E}(X)^2}\cdot \sqrt{\operatorname{E}(Y^2)-\operatorname{E}(Y)^2} }[/math]
相关性与独立性
Cauchy–Schwarz不等式的一个推论是,皮尔逊相关系数的绝对值不大于1。因此,相关系数的值在-1和+1之间变化。在完美直接(增加)线性关系(相关性)的情况下,相关系数为+1,在完美逆(减少)线性关系(反相关)的情况下,相关系数为-1[5],在所有其他情况下,其值在[math](-1,1)[/math]的开区间内,指示变量之间的线性依赖程度。当它接近零时,关系较小(更接近于不相关)。系数越接近-1或1,变量之间的相关性越强。
如果变量是独立的,皮尔逊相关系数为0,但反之则不成立,因为相关系数只能检测两个变量之间的线性依赖。简单来说,如果两个随机变量X和Y是独立的,则它们是不相关的,但如果两个随机变量是不相关的,那么它们可能是独立的,也可能不是独立的。
[math]\begin{align} X,Y \text{ 独立} \quad & \Rightarrow \quad \rho_{X,Y} = 0 \quad (X,Y \text{ 不相关})\\ \rho_{X,Y} = 0 \quad (X,Y \text{ 不相关})\quad & \nRightarrow \quad X,Y \text{ 独立} \end{align}[/math]
例如,假设随机变量[math]X[/math]关于零对称分布,且[math]Y=X^2[/math]。那么[math]Y[/math]完全由[math]X[/math]决定,因此[math]X[/math]和[math]Y[/math]是完全依赖的,但它们的相关性为零;它们是不相关的。然而,在特殊情况下,当[math]X[/math]和[math]Y[/math]是联合正态分布时,不相关性等同于独立性。
尽管不相关数据不一定意味着独立性,但如果随机变量的互信息为0,可以检查随机变量是否独立。
样本相关系数
给定一系列[math]n[/math]次对[math](X_i,Y_i)[/math]的测量,由[math]i=1,\ldots,n[/math]索引,样本相关系数可用于估计[math]X[/math]和[math]Y[/math]之间的群体皮尔逊相关[math]\rho_{X,Y}[/math]。样本相关系数定义为
[math]r_{x y} \stackrel{\text { def }}{=} \frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{(n-1) s_{x} s_{y}}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}} ,[/math]
其中[math]\overline{x}[/math]和[math]\overline{y}[/math]是[math]X[/math]和[math]Y[/math]的样本平均值,[math]s_x[/math]和[math]s_y[/math]是[math]X[/math]和[math]Y[/math]的校正样本标准差。
[math]r_{xy}[/math]的等价表达式是
[math]\begin{aligned} r_{x y} & =\frac{\sum x_{i} y_{i}-n \bar{x} \bar{y}}{n s_{x}^{\prime} s_{y}^{\prime}} \\ & =\frac{n \sum x_{i} y_{i}-\sum x_{i} \sum y_{i}}{\sqrt{n \sum x_{i}^{2}-\left(\sum x_{i}\right)^{2}} \sqrt{n \sum y_{i}^{2}-\left(\sum y_{i}\right)^{2}}} .\end{aligned}[/math]
其中[math]s'_x[/math]和[math]s'_y[/math]是[math]X[/math]和[math]Y[/math]的未校正样本标准差。
如果[math]x[/math]和[math]y[/math]是包含测量误差的测量结果,则相关系数的实际限制不是-1到+1,而是一个更小的范围。[6] 对于具有单一独立变量的线性模型情况,决定系数(R平方)是[math]r_{xy}[/math],皮尔逊乘积矩系数的平方。
例子
考虑下表中给出的X和Y的联合概率分布。
[math]\mathrm{P}(X=x,Y=y)[/math] yx−1 0 1 0 0 1/3 0 1 1/3 0 1/3
对于这个联合分布,边缘分布是:
[math]\mathrm{P}(X=x)=\left\{\begin{array}{ll}\frac{1}{3} & \text { for } x=0 \\ \frac{2}{3} & \text { for } x=1\end{array}\right.[/math]
[math]\mathrm{P}(Y=y)=\left\{\begin{array}{ll}\frac{1}{3} & \text { for } y=-1 \\ \frac{1}{3} & \text { for } y=0 \\ \frac{1}{3} & \text { for } y=1\end{array}\right.[/math]
这产生了以下期望和方差:
- [math]\mu_X = \frac 2 3[/math]
- [math]\mu_Y = 0[/math]
- [math]\sigma_X^2 = \frac 2 9[/math]
- [math]\sigma_Y^2 = \frac 2 3[/math]
因此:
[math]\begin{aligned} \rho_{X, Y} & =\frac{1}{\sigma_{X} \sigma_{Y}} \mathrm{E}\left[\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right] \\ & =\frac{1}{\sigma_{X} \sigma_{Y}} \sum_{x, y}\left(x-\mu_{X}\right)\left(y-\mu_{Y}\right) \mathrm{P}(X=x, Y=y) \\ & =\left(1-\frac{2}{3}\right)(-1-0) \frac{1}{3}+\left(0-\frac{2}{3}\right)(0-0) \frac{1}{3}+\left(1-\frac{2}{3}\right)(1-0) \frac{1}{3}=0\end{aligned}[/math]
等级相关系数
Rank correlation系数,如Spearman's rank correlation coefficient和Kendall等级相关系数(τ),衡量的是随着一个变量的增加,另一个变量倾向于增加的程度,而不要求这种增加必须通过线性关系来表示。如果随着一个变量的增加,另一个变量减少,那么等级相关系数将是负数。通常认为这些等级相关系数是Pearson系数的替代品,用来减少计算量或使系数对分布的非正态性不那么敏感。然而,这种观点在数学上几乎没有依据,因为等级相关系数衡量的是与Pearson product-moment correlation coefficient不同类型的关系,并且最好被视为不同类型的关联度量,而不是人口相关系数的另一种度量。[7][8]
为了说明等级相关的性质及其与线性相关的区别,请考虑以下四对数字[math](x,y)[/math]:
- (0, 1), (10, 100), (101, 500), (102, 2000).
当我们从每一对数字过渡到下一对时,[math]x[/math]增加,[math]y[/math]也增加。这种关系是完美的,因为[math]x[/math]的增加总是伴随着[math]y[/math]的增加。这意味着我们有一个完美的等级相关,Spearman和Kendall的相关系数都是1,而在这个例子中Pearson乘积矩相关系数是0.7544,表明这些点远未落在一条直线上。同样地,如果[math]y[/math]在[math]x[/math]增加时总是减少,等级相关系数将是-1,而Pearson乘积矩相关系数可能接近于-1也可能不接近,这取决于这些点与直线的接近程度。尽管在完美等级相关的极端情况下,两个系数都是相等的(都是+1或都是-1),但通常情况并非如此,因此两个系数的值不能有意义地进行比较。[7]例如,对于三对数字(1, 1) (2, 3) (3, 2),Spearman系数是1/2,而Kendall系数是 1/3。
随机变量间的其他依赖性度量
相关系数给出的信息不足以定义随机变量之间的依赖结构。[9]在非常特殊的情况下,相关系数完全定义了依赖结构,例如当分布是multivariate normal distribution。(见上图。)在elliptical distribution的情况下,它描述了等密度的(超)椭圆;然而,它并未完全描述依赖结构(例如,multivariate t-distribution的自由度决定了尾部依赖的级别)。
Distance correlation[10][11]被引入是为了解决Pearson相关性的不足,即它对于依赖的随机变量可能为零;零距离相关意味着独立性。
随机依赖系数[12]是一种基于copula的多变量随机变量之间的依赖度量,计算效率高。RDC对随机变量的非线性缩放是不变的,能够发现广泛的功能关联模式,并在独立时取值为零。
对于两个二进制变量,odds ratio测量它们的依赖性,并取非负数范围,可能为无穷大:[mathmath>[/math]
。相关的统计量如Yule的Y和Yule的Q将这个规范化到类似相关性的范围[mathmath>[/math]
。几率比通过逻辑模型被推广,以模拟依赖变量是离散的情况,并且可能有一个或多个独立变量。
correlation ratio,基于熵的mutual information,total correlation,dual total correlation和polychoric correlation都能够检测更一般的依赖性,考虑它们之间的copula也是如此,而coefficient of determination将相关系数推广到multiple regression。
对数据分布的敏感性
变量X与Y之间的依赖程度并不取决于变量表达的尺度。也就是说,如果我们正在分析X与Y之间的关系,大多数相关性测量不受将X转换为[math]a + bX[/math]和将Y转换为[math]c + dY[/math]的影响,其中a、b、c和d是常数(b和d为正)。这一点对于一些相关性statistic以及它们的population类比都是成立的。某些相关统计量,如秩相关系数,也对X和/或Y的边缘分布的单调变换保持不变。
大多数相关度量对于X和Y的采样方式都是敏感的。如果在更广范围的值上观察,依赖性往往会更强。因此,如果我们考虑所有成年男性中父亲和他们儿子的身高之间的相关系数,并将其与仅选择身高在165厘米到170厘米之间的父亲计算的同一相关系数比较,后一种情况下的相关性会更弱。已经开发了几种技术试图纠正一个或两个变量的范围限制,并且这些技术通常用于元分析;最常见的是Thorndike的第二种情形和第三种情形方程。[13]
某些相关度量在特定的X和Y的联合分布下可能是未定义的。例如,Pearson相关系数是基于矩定义的,因此如果矩未定义,则该相关系数将是未定义的。基于quantile的依赖度量总是有定义的。旨在估计人口依赖度量的基于样本的统计量可能具有也可能不具有诸如无偏或渐近一致等理想的统计属性,这取决于数据样本的空间结构。
对数据分布的敏感性可以被用作优势。例如,scaled correlation旨在利用对范围的敏感性来挑选出时间序列快速组成部分之间的相关性。[14]通过以受控方式减少值的范围,过滤掉长时间尺度上的相关性,仅揭示短时间尺度上的相关性。
相关性矩阵
[math]n[/math]个随机变量[math]X_1,\ldots,X_n[/math]的相关性矩阵是[math]n \times n[/math]矩阵[math]C[/math],其[math](i,j)[/math]项为
- [math]c_{ij}:=\operatorname{corr}(X_i,X_j)=\frac{\operatorname{cov}(X_i,X_j)}{\sigma_{X_i}\sigma_{X_j}},\quad \text{if}\ \sigma_{X_i}\sigma_{X_j}>0.[/math]
因此,对角线项全都是一。如果使用的相关度量是乘积矩相关系数,那么相关性矩阵与标准化随机变量[math]X_i / \sigma(X_i)[/math]的协方差矩阵相同,适用于人口相关矩阵(在这种情况下[math]\sigma[/math]是人口标准差)和样本相关矩阵(在这种情况下[math]\sigma[/math]表示样本标准差)。因此,每一个都必然是半正定矩阵。此外,如果没有任何变量可以完全通过其他变量的值的线性函数生成其所有值,则相关矩阵严格是正定矩阵。
相关性矩阵是对称的,因为[math]X_i[/math]与[math]X_j[/math]之间的相关性与[math]X_j[/math]与[math]X_i[/math]之间的相关性相同。
相关性矩阵出现在多个公式中,例如,在多重决定系数的一个公式中,这是一个衡量多元回归拟合优度的指标。
在统计建模中,代表变量之间关系的相关性矩阵被分类为不同的相关结构,这些结构通过估计它们所需的参数数量等因素进行区分。例如,在一个可交换性相关矩阵中,所有变量对被建模为具有相同的相关性,因此矩阵的所有非对角线元素彼此相等。另一方面,当变量代表时间序列时,通常使用自回归矩阵,因为测量值时间上越接近,它们的相关性可能越大。其他例子包括独立、无结构、M-依赖和Toeplitz结构。
在探索性数据分析中,相关性图标法包括用图表替换相关性矩阵,其中“显著”的相关性用实线(正相关)或虚线(负相关)表示。
最接近的有效相关矩阵
在一些应用中(例如,仅从部分观测数据构建数据模型),人们希望找到一个“最接近”的相关矩阵到一个“近似”的相关矩阵(例如,一个通常因计算方式而缺乏半正定性的矩阵)。
2002年,Higham[15]使用Frobenius范数明确了近似的概念,并提供了一种使用Dykstra的投影算法计算最接近的相关矩阵的方法,该方法的实现可作为在线Web API使用。[16]
这激发了对该主题的兴趣,随后几年中获得了新的理论(例如,计算具有因子结构的最接近的相关矩阵[17])和数值(例如,使用牛顿法计算最接近的相关矩阵[18])结果。
随机过程的不相关性和独立性
同样对于两个随机过程[math]\left\{ X_t \right\}_{t\in\mathcal{T}}[/math]和[math]\left\{ Y_t \right\}_{t\in\mathcal{T}}[/math]:如果它们是独立的,那么它们是不相关的。[19]: p. 151 这个陈述的反面可能不成立。即使两个变量是不相关的,它们也可能不是彼此独立的。
常见误解
相关性与因果关系
传统的格言“相关性不意味着因果关系”意味着相关性本身不能用来推断变量之间的因果关系。[20] 这一格言不应被理解为相关性不能指示因果关系的潜在存在。然而,如果有的话,相关性背后的原因可能是间接的和未知的,且高相关性也与身份关系(重言式)重叠,在那里不存在因果过程。因此,两个变量之间的相关性不是建立因果关系(无论哪个方向)的充分条件。
儿童的年龄和身高之间的相关性相当因果透明,但人们的心情和健康之间的相关性就不那么明显了。是改善心情导致健康改善,还是良好的健康导致心情好,或者两者都有?或者是某些其他因素同时影响两者?换句话说,相关性可以作为可能因果关系的证据,但不能指示因果关系(如果有的话)可能是什么。
简单线性相关性
皮尔森相关系数指示两个变量之间“线性”关系的强度,但其值通常不完全表征它们的关系。[21] 特别是,如果给定[math]X[/math]的[math]Y[/math]的条件平均值,表示为[math]\operatorname{E}(Y \mid X)[/math],不是[math]X[/math]的线性,则相关系数将无法完全确定[math]\operatorname{E}(Y \mid X)[/math]的形式。
相邻图像显示了散点图中的Anscombe四重奏,一组由Francis Anscombe创建的四对不同变量。[22] 这四个[math]y[/math]变量具有相同的平均值(7.5),方差(4.12),相关性(0.816)和回归线([math display="inline"]y=3+0.5x[/math])。然而,如图所示,变量的分布非常不同。第一个(左上)似乎正态分布,符合考虑两个变量相关且假设正态性时的预期。第二个(右上)不是正态分布;尽管可以观察到两个变量之间明显的关系,但它不是线性的。在这种情况下,皮尔森相关系数不表明存在确切的函数关系:只是该关系可以被线性关系近似的程度。在第三种情况(左下),线性关系是完美的,除了一个离群值足以将相关系数从1降低到0.816。最后,第四个例子(右下)显示了另一个例子,当一个离群值足以产生高相关系数时,尽管两个变量之间的关系不是线性的。
这些例子表明,作为汇总统计量的相关系数不能替代数据的视觉检查。有时候这些例子被认为证明了皮尔森相关假设数据遵循正态分布,但这只是部分正确。[4] 皮尔森相关可以准确地计算任何具有有限协方差矩阵的分布,这包括实践中遇到的大多数分布。然而,如果数据来自多变量正态分布,皮尔森相关系数(连同样本均值和方差)才是一个充分统计量。因此,只有当数据来源于多变量正态分布时,皮尔逊相关系数才能完全表征变量之间的关系。
双变量正态分布
如果一对随机变量[math]\ (X,Y)\ [/math]遵循双变量正态分布,则条件均值[math]\mathcal{E}(X \mid Y)[/math]是[math]Y[/math]的线性函数,而条件均值[math]\mathcal{E}(Y \mid X)[/math]是[math]\ X\ [/math]的线性函数。变量[math]\ X\ [/math]和[math]\ Y\ [/math]之间的相关系数[math]\ \rho_{X,Y}\ [/math],以及[math]\ X\ [/math]和[math]\ Y\ [/math]的边际均值和方差决定了这种线性关系:
- [math]\mathcal{E}(Y \mid X ) = \mathcal{E}(Y) + \rho_{X,Y} \cdot \sigma_Y \cdot \frac{\ X-\mathcal{E}(X)\ }{ \sigma_X }\ ,[/math]
其中,[math]\mathcal{E}(X)[/math]和[math]\mathcal{E}(Y)[/math]分别是[math]\ X\ [/math]和[math]\ Y\ [/math]的期望值,[math]\ \sigma_X\ [/math]和[math]\ \sigma_Y\ [/math]分别是[math]\ X\ [/math]和[math]\ Y\ [/math]的标准差。
经验相关系数[math]r[/math]是相关系数[math]\ \rho\ [/math]的估计。对[math]\ \rho\ [/math]的分布估计由下式给出:
[math]\pi(\rho \mid r)=\frac{\Gamma(N)}{\sqrt{2 \pi} \cdot \Gamma\left(N-\frac{1}{2}\right)} \cdot\left(1-r^{2}\right)^{\frac{N-2}{2}} \cdot\left(1-\rho^{2}\right)^{\frac{N-3}{2}} \cdot(1-r \rho)^{-N+\frac{3}{2}} \cdot F_{\text {Hyp }}\left(\frac{3}{2},-\frac{1}{2} ; N-\frac{1}{2} ; \frac{1+r \rho}{2}\right)[/math]
其中[math]\ F_\mathsf{Hyp} \ [/math]是高斯超几何函数。
节点使用的R语言示例代码
一般线性相关分析
cor.test(x, ...)
节点使用指南
- 研究两个或多个变量之间的线性关系的程度
- 计算相关系数
- 相关系数的值介于-1(完全负相关)和+1(完全正相关)之间,0表示没有线性关系
方法选择
- Pearson:评估两个定量变量之间的线性关系程度,数据应为连续的,服从正态分布,线性关系,变量之间的关系应具有相同的方差(即同方差性)
- Spearman:评估两个变量之间的单调关系,用于定序数据或不满足皮尔逊相关系数正态分布的连续数据,不要求数据服从正态分布,不要求变量之间的关系是线性
- Kendall:评估两组等级数据之间关系的强度和方向,适用于小样本大小或定序数据,不要求数据服从正态分布,测量变量之间的相关性,但不一定是线性的
参数配置
- 统计变量1:选择数值变量,必须是continue类型变量。如果不是,需要进行变量类型转换
- 统计变量2:选择一个或多个数值变量,必须是continue类型变量。如果不是,需要进行变量类型转换。每个变量将与变量1做一次线性相关分析
- 选择方法:Pearson,Spearman,Kendall
- 置信区间百分比:输入百分比,95%置信区间就是0.95
- 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
- 筛选阈值:选择需要的P值阈值,节点会自动将满足阈值的变量筛选出,数据集也会同步筛选出满足的变量。
- 统计变量1和统计变量2要规避复用
- 此算法兼容空值
注意事项
- 相关不等于因果。即使两个变量之间存在强相关,也不能推断出一个变量导致另一个变量变化
- 相关系数仅测量变量之间的线性关系。如果关系是非线性的,相关系数可能低估或高估其关系的强度
引用
- ↑ Croxton, Frederick Emory; Cowden, Dudley Johnstone; Klein, Sidney (1968) Applied General Statistics, Pitman. ISBN 9780273403159 (page 625)
- ↑ Dietrich, Cornelius Frank (1991) Uncertainty, Calibration and Probability: The Statistics of Scientific and Industrial Measurement 2nd Edition, A. Higler. ISBN 9780750300605 (Page 331)
- ↑ Aitken, Alexander Craig (1957) Statistical Mathematics 8th Edition. Oliver & Boyd. ISBN 9780050013007 (Page 95)
- ↑ 4.0 4.1 Rodgers, J. L.; Nicewander, W. A. (1988). "Thirteen ways to look at the correlation coefficient". The American Statistician. 42 (1): 59–66. doi:10.1080/00031305.1988.10475524. JSTOR 2685263.
- ↑ Dowdy, S. 和 Wearden, S. (1983). "Statistics for Research", Wiley. ISBN 0-471-08602-9 页 230
- ↑ Francis, DP; Coats AJ; Gibson D (1999). "How high can a correlation coefficient be?". Int J Cardiol. 69 (2): 185–199. doi:10.1016/S0167-5273(99)00028-5. PMID 10549842.
- ↑ 7.0 7.1 Yule, G.U和Kendall, M.G. (1950),《统计理论导论》,第14版(第5次印刷1968)。Charles Griffin & Co. 页258–270
- ↑ Kendall, M. G. (1955) "Rank Correlation Methods", Charles Griffin & Co.
- ↑ Mahdavi Damghani B. (2013). "推断相关的非误导价值:对Cointelation模型的介绍". Wilmott Magazine. 2013 (67): 50–61. doi:10.1002/wilm.10252.
- ↑ Székely, G. J. Rizzo; Bakirov, N. K. (2007). "通过距离的相关性测量和测试独立性". Annals of Statistics. 35 (6): 2769–2794. arXiv:0803.4101. doi:10.1214/009053607000000505. S2CID 5661488.
- ↑ Székely, G. J.; Rizzo, M. L. (2009). "布朗距离协方差". Annals of Applied Statistics. 3 (4): 1233–1303. arXiv:1010.0297. doi:10.1214/09-AOAS312. PMC 2889501. PMID 20574547.
- ↑ Lopez-Paz D.和Hennig P.以及Schölkopf B. (2013)。"随机依赖系数","Conference on Neural Information Processing Systems" [重印]
- ↑ Thorndike, Robert Ladd (1947). Research problems and techniques (Report No. 3). Washington DC: US Govt. print. off.
- ↑ Nikolić, D; Muresan, RC; Feng, W; Singer, W (2012). "Scaled correlation analysis: a better way to compute a cross-correlogram". European Journal of Neuroscience. 35 (5): 1–21. doi:10.1111/j.1460-9568.2011.07987.x. PMID 22324876. S2CID 4694570.
- ↑ Higham, Nicholas J. (2002). "计算最接近的相关矩阵——来自金融的问题". IMA数值分析杂志. 22 (3): 329–343. CiteSeerX 10.1.1.661.2180. doi:10.1093/imanum/22.3.329.
- ↑ "投资组合优化器". portfoliooptimizer.io. Retrieved 2021-01-30.
- ↑ Borsdorf, Rudiger; Higham, Nicholas J.; Raydan, Marcos (2010). "计算具有因子结构的最接近的相关矩阵。" (PDF). SIAM J.矩阵分析及应用。. 31 (5): 2603–2622. doi:10.1137/090776718.
- ↑ Qi, HOUDUO; Sun, DEFENG (2006). "一种用于计算最接近相关矩阵的二次收敛牛顿方法。". SIAM J.矩阵分析及应用。. 28 (2): 360–385. doi:10.1137/050624509.
- ↑ Park, Kun Il (2018). 概率论与随机过程基础及其在通信中的应用. Springer. ISBN 978-3-319-68074-3.
- ↑ Aldrich, John (1995). "皮尔森和尤尔的真实与伪造的相关性". 统计科学. 10 (4): 364–376. doi:10.1214/ss/1177009870. JSTOR 2246135.
- ↑ Mahdavi Damghani, Babak (2012). "测量相关性的误导性价值". Wilmott 杂志. 2012 (1): 64–73. doi:10.1002/wilm.10167. S2CID 154550363.
- ↑ Anscombe, Francis J. (1973). "统计分析中的图表". 美国统计学家. 27 (1): 17–21. doi:10.2307/2682899. JSTOR 2682899.
- ↑ Taraldsen, Gunnar (2021). "The confidence density for correlation". Sankhya A (in English). 85: 600–616. doi:10.1007/s13171-021-00267-y. ISSN 0976-8378. S2CID 244594067.
- ↑ Taraldsen, Gunnar (2020). Confidence in correlation. researchgate.net (preprint) (in English). doi:10.13140/RG.2.2.23673.49769.
查找其他类别的节点,请参考以下列表