Zeroclanzhang(讨论 | 贡献) 无编辑摘要 |
无编辑摘要 |
||
第28行: | 第28行: | ||
}} | }} | ||
在[[statistics|统计学]]中,'''intraclass correlation|组内相关性''',或'''intraclass correlation coefficient|组内相关系数'''('''ICC''')<ref>{{Cite encyclopedia | vauthors = Koch GG |title=Intraclass correlation coefficient |encyclopedia=[[Encyclopedia of Statistical Sciences]] |volume=4 |pages=213–217 |year=1982 |editor=Samuel Kotz and Norman L. Johnson |publisher=[[John Wiley & Sons]] |location=New York}}</ref>是一种[[descriptive statistic|描述统计]],可用于对组织成组的单位进行定量测量时使用。它描述了同一组内的单位彼此相似的程度。虽然它被视为一种[[correlation|相关]]类型,但与大多数其他相关度量不同,它是对作为组而不是成对观测数据结构化的数据进行操作。 | |||
''intraclass correlation|组内相关性''通常用于量化具有固定关联度(例如,同胞兄弟姐妹)的个体在定量特征上彼此相似的程度(参见[[heritability|遗传性]])。另一个重要的应用是评估不同观察者测量相同数量时的一致性或可重复性。 | |||
== '''早期ICC定义:无偏但复杂的公式''' == | |||
最早关于组内相关性的工作集中在成对测量的情况上,而首个被提出的组内相关性(ICC)统计量是[[Pearson product moment correlation coefficient|类间相关性]](皮尔逊相关性)的修改版。 | |||
考虑一个由''N''对数据值组成的数据集(''x''<sub>''n'',1</sub>, ''x''<sub>''n'',2</sub>),对于''n'' = 1, ..., ''N''。最初由[[Ronald Fisher|罗纳德·费舍尔]]提出的组内相关性''r''<ref>{{cite journal | vauthors = Bartko JJ | title = The intraclass correlation coefficient as a measure of reliability | journal = Psychological Reports | volume = 19 | issue = 1 | pages = 3–11 | date = August 1966 | pmid = 5942109 | doi = 10.2466/pr0.1966.19.1.3 | s2cid = 145480729 }}</ref>是 | |||
: [math]r = \frac{1}{Ns^2} \sum_{n=1}^N (x_{n,1} - \bar{x}) ( x_{n,2} - \bar{x}), [/math] | |||
其中 | |||
: [math]\bar{x} = \frac{1}{2N} \sum_{n=1}^N (x_{n,1} + x_{n,2}), [/math] | |||
: [math]s^2 = \frac{1}{2N} \left\{ \sum_{n=1}^N ( x_{n,1} - \bar{x})^2 + \sum_{n=1}^N ( x_{n,2} - \bar{x})^2 \right\}. [/math] | |||
此统计量的后续版本<ref name="FisherR1954Statistical">{{Cite book | vauthors = Fisher RA |title=Statistical Methods for Research Workers |publisher=[[Oliver and Boyd]] |location=[[Edinburgh]] |year=1954 |edition=Twelfth |url=https://archive.org/details/statisticalmethoe7fish |isbn=978-0-05-002170-5 |author-link=Ronald A. Fisher |url-access=registration }}</ref>在计算''s''<sup>2</sup>的分母中使用自由度2''N'' −1,而在计算''r''的分母中使用''N'' −1,使得''s''<sup>2</sup>变得无偏,如果''s''是已知的,那么''r''也变得无偏。 | |||
这个ICC与[[Pearson product-moment correlation coefficient|类间(皮尔逊)相关性]]的主要区别在于,数据被汇总以估计均值和方差。这样做的原因是,在需要组内相关性的设置中,对是被视为无序的。例如,如果我们正在研究双胞胎的相似性,通常没有有意义的方法来为双胞胎对中的两个个体排序。与类间相关性一样,成对数据的组内相关性将被限制在[[interval (mathematics)|区间]] [−1, +1]内。 | |||
也为具有多于2个值的组定义了组内相关性。对于由三个值组成的组,其定义为<ref name="FisherR1954Statistical"/> | |||
: [math]r = \frac{1}{3Ns^2} \sum_{n=1}^N \left\{ ( x_{n,1} - \bar{x})( x_{n,2} - \bar{x}) + (x_{n,1} - \bar{x})( x_{n,3} - \bar{x})+( x_{n,2} - \bar{x})( x_{n,3} - \bar{x}) \right\}, [/math] | |||
其中 | |||
: [math]\bar{x} = \frac{1}{3 N} \sum_{n=1}^N (x_{n,1} + x_{n,2} + x_{n,3}), [/math] | |||
: [math]s^2 = \frac{1}{3N} \left\{ \sum_{n=1}^N ( x_{n,1} - \bar{x})^2 + \sum_{n=1}^N ( x_{n,2} - \bar{x})^2 + \sum_{n=1}^N ( x_{n,3} - \bar{x})^2\right\}. [/math] | |||
随着每组项目数量的增加,此表达式中的交叉乘积项数量也随之增加。以下等价形式更简单: | |||
:[math]r = \frac{K}{K-1}\cdot\frac{N^{-1}\sum_{n=1}^N(\bar{x}_n-\bar{x})^2}{s^2} - \frac{1}{K-1},[/math] | |||
其中''K''是每组的数据值数量,[math]\bar{x}_n[/math]是第''n''组的样本均值。<ref name="FisherR1954Statistical"/> 这种形式通常归功于[[James Arthur Harris|哈里斯]]。<ref>{{Cite journal | vauthors = Harris JA | title = On the Calculation of Intra-Class and Inter-Class Coefficients of Correlation from Class Moments when the Number of Possible Combinations is Large | journal = [[Biometrika]] | volume = 9 | issue = 3/4 | pages = 446–472 | date = October 1913 | jstor = 2331901 | doi = 10.1093/biomet/9.3-4.446 | author-link = J. Arthur Harris }}</ref> 左边的项是非负的;因此,组内相关性必须满足 | |||
: [math]r \geq \frac {-1} {K-1}.[/math] | |||
对于大的''K'',这个ICC几乎等于 | |||
:[math]\frac{N^{-1}\sum_{n=1}^N(\bar{x}_n-\bar{x})^2}{s^2},[/math] | |||
这可以解释为总方差中由于组间变异所占的比例。[[Ronald Fisher|罗纳德·费舍尔]]在其经典书籍''[[Statistical Methods for Research Workers]]''中专门讨论了组内相关性。<ref name="FisherR1954Statistical"/> | |||
对于来自完全噪声的人口数据,费舍尔的公式产生的ICC值分布在0附近,即有时为负。这是因为费舍尔设计了这个公式以使其无偏,因此其估计有时会过高估计,有时会低估。对于人口中的小或0底层值,从样本计算出的ICC可能为负。 | |||
== '''现代ICC定义:简化公式但正偏差''' == | |||
从罗纳德·费舍尔开始,组内相关性已经在[[analysis of variance|方差分析]](ANOVA)的框架内被考虑,最近则在[[random effects model|随机效应模型]]的框架内被考虑。已经提出了多种ICC估计器。大多数估计器可以根据随机效应模型定义 | |||
:[math]Y_{ij} = \mu + \alpha_j + \varepsilon_{ij},[/math] | |||
其中''Y''<sub>''ij''</sub>是第''j''组的第''i''次观察值,''μ''是未观察到的整体[[expected value|均值]],''α<sub>j</sub>''是所有组''j''中的值共享的未观察到的随机效应,而''ε<sub>ij</sub>''是未观察到的噪声项。<ref>{{cite journal | vauthors = Donner A, Koval JJ | title = The estimation of intraclass correlation in the analysis of family data | journal = Biometrics | volume = 36 | issue = 1 | pages = 19–25 | date = March 1980 | pmid = 7370372 | doi = 10.2307/2530491 | jstor = 2530491 }}</ref> 为了识别模型,假设''α<sub>j</sub>''和''ε<sub>ij</sub>''的期望值为零并且彼此不相关。此外,假设''α<sub>j</sub>''是同分布的,而''ε<sub>ij</sub>''也是同分布的。''α<sub>j</sub>''的方差表示为''σ''{{supsub|2|''α''}},而''ε''<sub>''ij''</sub>的方差表示为''σ''{{supsub|2|''ε''}}。 | |||
在这个框架下,群体ICC为<ref>证明ANOVA模型中的ICC是两项的相关性:ocram [https://stats.stackexchange.com/users/3019/ocram], 理解类内相关系数,网址(版本:2012-12-05):[https://stats.stackexchange.com/q/45201]</ref> | |||
:[math] | |||
\frac{\sigma_\alpha^2}{\sigma_\alpha^2+\sigma_\varepsilon^2}. | |||
[/math] | |||
在此框架中,ICC是同一组内两次观察的[[Correlation and dependence#Definition|相关性]]。 | |||
{{hidden begin|style=width:60%|ta1=center|border=1px #aaa solid|title=[Proof]}} | |||
对于单向随机效应模型: | |||
[math]Y_{ij}=\mu+\alpha_i+\epsilon_{ij}[/math] | |||
[math]\alpha_i \sim N(0,\sigma_\alpha^2)[/math],[math]\epsilon_{ij} \sim N(0,\sigma_\varepsilon^2)[/math],[math]\alpha_i[/math]s与[math]\epsilon_{ij}[/math]s相互独立,且[math]\alpha_i[/math]s与[math]\epsilon_{ij}[/math]s互相独立。 | |||
任何观察的方差是:[math]Var(Y_{ij})=\sigma_\varepsilon^2 + \sigma_\alpha^2[/math] | |||
同一组[math]i[/math]内两次观察的协方差(对于[math]j \neq k[/math])是:<ref>dsaxton (https://stats.stackexchange.com/users/78861/dsaxton), 随机效应模型:同一水平的观察具有$\sigma^2$的协方差?, 网址(版本:2016-03-22)[https://stats.stackexchange.com/a/203052/253 链接]</ref> | |||
[math]\begin{aligned} \operatorname{Cov}\left(Y_{i j}, Y_{i k}\right) & =\operatorname{Cov}\left(\mu+\alpha_{i}+\epsilon_{i j}, \mu+\alpha_{i}+\epsilon_{i k}\right) \\ & =\operatorname{Cov}\left(\alpha_{i}+\epsilon_{i j}, \alpha_{i}+\epsilon_{i k}\right) \\ & =\operatorname{Cov}\left(\alpha_{i}, \alpha_{i}\right)+2 \operatorname{Cov}\left(\alpha_{i}, \epsilon_{i k}\right)+\operatorname{Cov}\left(\epsilon_{i j}, \epsilon_{i k}\right) \\ & =\operatorname{Cov}\left(\alpha_{i}, \alpha_{i}\right) \\ & =\operatorname{Var}\left(\alpha_{i}\right) \\ & =\sigma_{\alpha}^{2} .\end{aligned}[/math] | |||
在此,我们使用了[[Covariance#Covariance of linear combinations|协方差的性质]]。 | |||
综合起来我们得到: | |||
[math] | |||
\text{Cor}(Y_{ij}, Y_{ik}) = \frac{\text{Cov}(Y_{ij}, Y_{ik})}{\sqrt{Var(Y_{ij})Var(Y_{ik})}} = \frac{\sigma^2_\alpha }{\sigma_\varepsilon^2 + \sigma_\alpha^2} | |||
[/math] | |||
{{hidden end}} | |||
这个ANOVA框架的一个优点是,不同组可以有不同数量的数据值,这是使用早期ICC统计量难以处理的。这个ICC始终是非负的,允许将其解释为“组间”总方差的比例。这个ICC可以推广以允许协变量效应,在这种情况下,ICC被解释为捕捉协变量调整后数据值的类内相似性。<ref>{{cite journal | vauthors = Stanish W, Taylor N | journal=The American Statistician | title=用于协方差分析模型的类内相关系数估计 | year=1983 | volume=37 |pages=221–224 | doi=10.2307/2683375 | issue=3 | jstor=2683375 }}</ref> | |||
这个表达式永远不会是负数(不同于费舍尔的原始公式),因此,在来自具有0 ICC的群体的样本中,样本中的ICC将高于群体的ICC。 | |||
已经提出了许多不同的ICC统计量,不是所有这些统计量都估计相同的群体参数。关于哪些ICC统计量适用于特定用途,已经有相当大的争论,因为它们可能会为相同的数据产生明显不同的结果。<ref>{{cite journal | vauthors = Müller R, Büttner P | title = 类内相关系数的批判性讨论 | journal = Statistics in Medicine | volume = 13 | issue = 23–24 | pages = 2465–76 | date = December 1994 | pmid = 7701147 | doi = 10.1002/sim.4780132310 }} 另见评论: | |||
* {{Cite journal | vauthors = Vargha P | title = 致编辑的信 | journal = [[Statistics in Medicine (journal)|Statistics in Medicine]] | volume = 16 | issue = 7 | pages = 821–823 | year = 1997 | doi = 10.1002/(SICI)1097-0258(19970415)16:7<821::AID-SIM558>3.0.CO;2-B | pmid = 9131768 }}</ref><ref>{{Cite journal | vauthors = McGraw KO, Wong SP | title = 关于某些类内相关系数的推断 | journal = [[Psychological Methods]] | volume = 1 | pages = 30–46 | year = 1996 | doi = 10.1037/1082-989X.1.1.30 }} 文章中有几处错误: | |||
* {{Cite journal | vauthors = McGraw KO, Wong SP | title = 对McGraw和Wong(1996)的更正 | journal = [[Psychological Methods]] | volume = 1 | issue = 4 | pages = 390 | year = 1996 | doi = 10.1037/1082-989x.1.4.390 }}</ref> | |||
=='''与皮尔逊相关系数的关系'''== | |||
就其代数形式而言,费舍尔的原始ICC是最类似于[[Pearson product-moment correlation coefficient|皮尔逊相关系数]]的ICC。两个统计量之间的一个关键差异是,在ICC中,数据使用汇总的均值和标准差进行中心化和缩放,而在皮尔逊相关系数中,每个变量都通过其自己的均值和标准差进行中心化和缩放。这种对ICC的汇总缩放是有意义的,因为所有测量都是相同的量(尽管是在不同组的单位上)。例如,在一组配对数据中,每个“对”是为两个单位(例如,称量一对同卵双胞胎中的每个孪生子)所做的单一测量,而不是为单一单位做两个不同的测量(例如,为每个个体测量身高和体重),ICC是比皮尔逊相关更自然的关联度量。 | |||
皮尔逊相关的一个重要属性是,它对于对两个被比较变量应用的单独[[linear transformation|线性变换]]是不变的。因此,如果我们正在关联‘[math]X[/math]’和‘[math]Y[/math]’,比如说,‘[math]Y[/math]’ = 2‘[math]X[/math]’ + 1,‘[math]X[/math]’和‘[math]Y[/math]’之间的皮尔逊相关系数是1 —— 一个完美的相关。对于ICC来说,这个属性没有意义,因为没有依据来决定哪种变换应用于组内的每个值。然而,如果所有组中的所有数据都受到相同的线性变换,那么ICC不会改变。 | |||
=='''观察者一致性评估中的应用'''== | |||
ICC(类内相关系数)用于评估多个观察者测量相同数量时的一致性或符合性。<ref>{{cite journal | vauthors = Shrout PE, Fleiss JL | title = 类内相关性:评估评价者可靠性的应用 | journal = 心理学公报 | volume = 86 | issue = 2 | pages = 420–8 | date = 1979年3月 | pmid = 18839484 | doi = 10.1037/0033-2909.86.2.420 }}</ref> 例如,如果请求几位医师对CT扫描结果进行癌症进展的评分,我们可以询问这些评分彼此之间的一致性。如果真相已知(例如,如果CT扫描是对随后接受探索性手术的患者进行的),那么重点通常是医师的评分与真相的匹配程度。如果真相未知,我们只能考虑评分之间的相似性。这个问题的一个重要方面是存在观察者间和观察者内的可变性。观察者间的可变性指的是观察者之间的系统性差异——例如,一位医师可能一贯地将患者评为比其他医师更高的风险等级。观察者内的可变性指的是特定观察者对特定患者的评分偏离,这些偏离不是系统性差异的一部分。 | |||
ICC被构建为适用于可交换的测量值——即,组内没有有意义的方式对测量值进行排序的分组数据。在评估观察者间的一致性时,如果相同的观察者对每个被研究元素进行评价,则观察者之间可能存在系统性差异,这与可交换性的概念相冲突。如果在存在系统性差异的情况下使用ICC,结果是观察者内和观察者间可变性的综合度量。一个可以合理假设可交换性成立的情况是,要评分的样本,比如血液样本,被分成多个分液,并且这些分液在同一仪器上分别测量。在这种情况下,只要不存在由于运行样本的顺序而产生的效应,可交换性就成立。 | |||
由于‘[math]类内相关系数[/math]’提供了观察者内和观察者间可变性的综合,当观察者不可交换时,其结果有时被认为难以解释。作为替代,提出了如科恩的[[kappa统计量]]、[[Fleiss kappa]]和[[一致性相关系数]]<ref>{{Cite journal | vauthors = Nickerson CA | title = 关于'评估可重复性的一致性相关系数'的注释 | journal = [[生物统计学 (杂志)|生物统计学]] | volume = 53 | pages = 1503–1507 | date = 1997年12月 | doi = 10.2307/2533516 | issue = 4 | jstor = 2533516 }}</ref>等其他度量方法,作为非可交换观察者间协议的更适合的度量。 | |||
=='''软件包中的计算'''== | |||
[[File:Intraclass correlation coefficient graph improved.svg|right|thumb|400px|应用于三种观察者一致性场景的不同类内相关系数定义。]] | |||
ICC在开源软件包[[R (编程语言)|R]]中得到支持(使用"icc"函数与[ ‘psy’]或[ ‘irr’]包,或通过[ ‘psych’]包中的"ICC"函数)。[ rptR]包<ref>{{Cite journal| vauthors = Stoffel MA, Nakagawa S, Schielzeth J |title= rptR: 通过广义线性混合效应模型估计重复性和方差分解|journal=生态学和进化方法|volume=8|issue=11|pages=1639–1644|doi=10.1111/2041-210x.12797|issn=2041-210X|year=2017|doi-access=free}}</ref>提供了在混合模型框架下估计ICC和重复性的方法,适用于高斯分布、二项分布和泊松分布的数据。值得注意的是,该包允许估计调整后的ICC(即控制其他变量)并基于参数自举法计算置信区间,以及基于残差置换计算的显著性。商业软件也支持ICC,例如[[Stata]]或[[SPSS]]<ref>{{Cite journal | vauthors = MacLennan RN | title = 使用SPSS for Windows 5.0进行评价者间可靠性 | journal = [[美国统计员]] | volume = 47 | issue = 4 | date = 1993年11月 | pages = 292–296 | doi = 10.2307/2685289 | jstor = 2685289 }}</ref> | |||
{| class="wikitable sortable" | |||
|+不同类型的ICC [http://www.nyu.edu/its/statistics/Docs/intracls.html] {{Webarchive|url= |date=2009-03-03 }} | |||
|- | |||
! Shrout和Fleiss约定 !! McGraw和Wong约定 <ref>{{ite journal | vauthors = McGraw KO, Wong SP | title = 关于某些类内相关系数的推断形成 | journal = [[心理方法]] | volume = 1 | issue = 1 | date = 1996 | pages = 30–40 | doi = 10.1037/1082-989X.1.1.30 }}</ref> !! SPSS和Stata中的名称 <ref>{{Cite book | url = | date = 2017 | title = Stata用户指南第15版 | isbn = 978-1-59718-249-2 | pages = 1101–1123 | publisher = Stata Press | location = College Station, Texas }}</ref><ref>{{Cite web | |||
| url = | |||
| vauthors = Howell DC | |||
| title = 类内相关系数 | |||
}}</ref> | |||
|- | |||
| ICC(1,1) || 单向随机,单次评分 ICC(1) || 单向随机,单次测量 | |||
|- | |||
| ICC(2,1) || 双向随机,单次评分 ICC(A,1) || 双向随机,单次测量,绝对协议 | |||
|- | |||
| ICC(3,1) || 双向混合,单次评分 ICC(C,1) || 双向混合,单次测量,一致性 | |||
|- | |||
| 未定义 || 双向随机,单次评分 ICC(C,1) || 双向随机,单次测量,一致性 | |||
|- | |||
| 未定义 || 双向混合,单次评分 ICC(A,1) || 双向混合,单次测量,绝对协议 | |||
|- | |||
| ICC(1,k) || 单向随机,平均评分 ICC(k) || 单向随机,平均测量 | |||
|- | |||
| ICC(2,k) || 双向随机,平均评分 ICC(A,k) || 双向随机,平均测量,绝对协议 | |||
|- | |||
| ICC(3,k) || 双向混合,平均评分 ICC(C,k) || 双向混合,平均测量,一致性 | |||
|- | |||
| 未定义 || 双向随机,平均评分 ICC(C,k) || 双向随机,平均测量,一致性 | |||
|- | |||
| 未定义 || 双向混合,平均评分 ICC(A,k) || 双向混合,平均测量,绝对协议 | |||
|} | |||
这三种模型是: | |||
* 单向随机效应:每个受试者由一组不同的k个随机选定的评价者测量; | |||
* 双向随机:随机选择k个评价者,然后,每个受试者由同一组k个评价者测量; | |||
* 双向混合:定义k个固定评价者。每个受试者由k个评价者测量。 | |||
测量次数: | |||
* 单一测量:尽管在实验中进行了不止一次的测量,可靠性适用于一个场景,即将执行单一评估者的单一测量; | |||
* 平均测量:可靠性适用于一个场景,其中k个评估者的测量将对每个受试者进行平均。 | |||
一致性或绝对一致性: | |||
* 绝对一致性:两个评估者之间的一致性是重点,包括两个评估者的系统性错误和随机残余错误; | |||
* 一致性:在同一评估者重复测量的上下文中,评估者的系统性错误被取消,只保留随机残余错误。 | |||
在单向随机效应模型中,无法估计一致性ICC,因为无法分离评估者间和残余方差。 | |||
Liljequist等人(2019)<ref>{{cite journal | vauthors = Liljequist D, Elfving B, Skavberg Roaldsen K | title = 等级内相关性 - 基本特征的讨论和演示 | journal = PLOS ONE | volume = 14 | issue = 7 | pages = e0219854 | date = 2019 | pmid = 31329615 | doi = 10.1371/journal.pone.0219854 | pmc = 6645485 | doi-access = free }}</ref>也提供了对单一测量ICC的三个模型的概览和重新分析,以及它们使用的另一种方法。 | |||
== '''解释''' == | |||
Cicchetti(1994)<ref>{{Cite journal| vauthors = Cicchetti DV |title=评估心理学中规范化和标准化评估工具的指南、标准和经验法则。|journal=Psychological Assessment|volume=6|issue=4|date=1994|pages=284–290|doi=10.1037/1040-3590.6.4.284}}</ref>为[[Cohen's kappa|kappa]]或ICC评估者间一致性测量提供了以下经常引用的解释指南: | |||
* 少于0.40—差。 | |||
* 在0.40和0.59之间—一般。 | |||
* 在0.60和0.74之间—好。 | |||
* 在0.75和1.00之间—优秀。 | |||
Koo和Li(2016)<ref>{{cite journal | vauthors = Koo TK, Li MY | title = 选择和报告等级内相关系数的可靠性研究指南 | journal = Journal of Chiropractic Medicine | volume = 15 | issue = 2 | pages = 155–63 | date = June 2016 | pmid = 27330520 | pmc = 4913118 | doi = 10.1016/j.jcm.2016.02.012 }}</ref>给出了不同的指南: | |||
* 低于0.50:差 | |||
* 在0.50和0.75之间:中等 | |||
* 在0.75和0.90之间:好 | |||
* 高于0.90:优秀 | |||
== '''节点使用的R语言示例代码''' == | |||
=== 组内相关系数 随机效应 === | |||
<syntaxhighlight lang="R"> | |||
icc(ratings, model = c("oneway", "twoway"), | |||
type = c("consistency", "agreement"), | |||
unit = c("single", "average"), r0 = 0, conf.level = 0.95) | |||
</syntaxhighlight> | |||
方法参见'''R package: irr'''的官方文档 | |||
== '''节点使用指南''' == | |||
* 用来评估在分类数据中,同一组内个体间相似程度的一种度量 | |||
* 随机效应指的是在模型中随机变动的组件,通常用于考虑非独立数据结构的影响 | |||
* 可以帮助我们了解组内个体的相关性大小 | |||
=== 方法选择 === | |||
* oneway是row effects random,假设只有一个固定的影响因素或只关心一个特定来源的变异 | |||
* twoway是column and row effects random,双向随机效应,评价者和对象都被视为是随机效应 | |||
=== 参数配置 === | |||
* 统计变量:选择多个连续型数值变量 | |||
* 随机方法选择:oneway,twoway | |||
* 种类选择:不同评分者对同一样本的评分是否绝对一致或是否存在相关。Agreement考虑一致性,consistency考虑相关性 | |||
* ICC单位:选择单位,single是单个测量,每个对象的检测值由单个方法测量。average是平均测量,每个对象的检测值由多个方法测量,然后结果求平均 | |||
* 原假设检验值:默认是0,是因为原假设(null hypothesis)是观察值之间没有一致性或相关性 | |||
* 置信区间百分比:输入百分比,95%置信区间就是0.95 | |||
* 此算法兼容空值 | |||
=== 注意事项 === | |||
* 模型的复杂性会影响ICC的解释,选择合适的随机效应结构很重要 | |||
* ICC的值范围通常在0到1之间,一个较高的ICC值表明组内相似性较高,而较低的ICC值则表明组内差异较大 | |||
== '''引用''' == | |||
{{Reflist}} | |||
{{Navplate AlgorithmNodeList}} | {{Navplate AlgorithmNodeList}} | ||
[[Category:相关分析]] | [[Category:相关分析]] |
2024年2月25日 (日) 14:36的最新版本
节点状态 | / Win10及以上可用
在V1.0.2部署
|
---|---|
组内相关系数_随机效应 | |
节点开发者 | 决策链算法研发部 (Dev.Team-DPS) |
节点英文名 | Intraclass Correlation Coefficient_Random |
功能主类别 | 数据分析 |
英文缩写 | ICCR |
功能亚类别 | 相关分析 |
节点类型 | 数据挖掘 |
开发语言 | R |
节点简介 | |
组内相关系数是衡量和评价观察者间信度和复测信度的信度系数指标之一。也就是说常用于衡量某个指标在多次测量中的一致性或者相似性。该算法有两种随机效应:第一种是个体随机,每个样本都是随机选择。第二种是个体和各组之间都是随机。即所有效应互相独立。 用途:用于评估同一组内数据的相似性。 参数:选择多个连续型或离散型数值变量。 | |
端口数量与逻辑控制(PC) | |
Input-入口 | 3个 |
Output-出口 | 2个 |
Loop-支持循环 | 是 |
If/Switch-支持逻辑判断 | 否 |
输入输出 | |
相关节点 | |
上一节点 | 典型相关分析 |
下一节点 | 组内相关系数_混合效应 |
在统计学中,intraclass correlation|组内相关性,或intraclass correlation coefficient|组内相关系数(ICC)[1]是一种描述统计,可用于对组织成组的单位进行定量测量时使用。它描述了同一组内的单位彼此相似的程度。虽然它被视为一种相关类型,但与大多数其他相关度量不同,它是对作为组而不是成对观测数据结构化的数据进行操作。
intraclass correlation|组内相关性通常用于量化具有固定关联度(例如,同胞兄弟姐妹)的个体在定量特征上彼此相似的程度(参见遗传性)。另一个重要的应用是评估不同观察者测量相同数量时的一致性或可重复性。
早期ICC定义:无偏但复杂的公式
最早关于组内相关性的工作集中在成对测量的情况上,而首个被提出的组内相关性(ICC)统计量是类间相关性(皮尔逊相关性)的修改版。
考虑一个由N对数据值组成的数据集(xn,1, xn,2),对于n = 1, ..., N。最初由罗纳德·费舍尔提出的组内相关性r[2]是
- [math]r = \frac{1}{Ns^2} \sum_{n=1}^N (x_{n,1} - \bar{x}) ( x_{n,2} - \bar{x}), [/math]
其中
- [math]\bar{x} = \frac{1}{2N} \sum_{n=1}^N (x_{n,1} + x_{n,2}), [/math]
- [math]s^2 = \frac{1}{2N} \left\{ \sum_{n=1}^N ( x_{n,1} - \bar{x})^2 + \sum_{n=1}^N ( x_{n,2} - \bar{x})^2 \right\}. [/math]
此统计量的后续版本[3]在计算s2的分母中使用自由度2N −1,而在计算r的分母中使用N −1,使得s2变得无偏,如果s是已知的,那么r也变得无偏。
这个ICC与类间(皮尔逊)相关性的主要区别在于,数据被汇总以估计均值和方差。这样做的原因是,在需要组内相关性的设置中,对是被视为无序的。例如,如果我们正在研究双胞胎的相似性,通常没有有意义的方法来为双胞胎对中的两个个体排序。与类间相关性一样,成对数据的组内相关性将被限制在区间 [−1, +1]内。
也为具有多于2个值的组定义了组内相关性。对于由三个值组成的组,其定义为[3]
- [math]r = \frac{1}{3Ns^2} \sum_{n=1}^N \left\{ ( x_{n,1} - \bar{x})( x_{n,2} - \bar{x}) + (x_{n,1} - \bar{x})( x_{n,3} - \bar{x})+( x_{n,2} - \bar{x})( x_{n,3} - \bar{x}) \right\}, [/math]
其中
- [math]\bar{x} = \frac{1}{3 N} \sum_{n=1}^N (x_{n,1} + x_{n,2} + x_{n,3}), [/math]
- [math]s^2 = \frac{1}{3N} \left\{ \sum_{n=1}^N ( x_{n,1} - \bar{x})^2 + \sum_{n=1}^N ( x_{n,2} - \bar{x})^2 + \sum_{n=1}^N ( x_{n,3} - \bar{x})^2\right\}. [/math]
随着每组项目数量的增加,此表达式中的交叉乘积项数量也随之增加。以下等价形式更简单:
- [math]r = \frac{K}{K-1}\cdot\frac{N^{-1}\sum_{n=1}^N(\bar{x}_n-\bar{x})^2}{s^2} - \frac{1}{K-1},[/math]
其中K是每组的数据值数量,[math]\bar{x}_n[/math]是第n组的样本均值。[3] 这种形式通常归功于哈里斯。[4] 左边的项是非负的;因此,组内相关性必须满足
- [math]r \geq \frac {-1} {K-1}.[/math]
对于大的K,这个ICC几乎等于
- [math]\frac{N^{-1}\sum_{n=1}^N(\bar{x}_n-\bar{x})^2}{s^2},[/math]
这可以解释为总方差中由于组间变异所占的比例。罗纳德·费舍尔在其经典书籍Statistical Methods for Research Workers中专门讨论了组内相关性。[3]
对于来自完全噪声的人口数据,费舍尔的公式产生的ICC值分布在0附近,即有时为负。这是因为费舍尔设计了这个公式以使其无偏,因此其估计有时会过高估计,有时会低估。对于人口中的小或0底层值,从样本计算出的ICC可能为负。
现代ICC定义:简化公式但正偏差
从罗纳德·费舍尔开始,组内相关性已经在方差分析(ANOVA)的框架内被考虑,最近则在随机效应模型的框架内被考虑。已经提出了多种ICC估计器。大多数估计器可以根据随机效应模型定义
- [math]Y_{ij} = \mu + \alpha_j + \varepsilon_{ij},[/math]
其中Yij是第j组的第i次观察值,μ是未观察到的整体均值,αj是所有组j中的值共享的未观察到的随机效应,而εij是未观察到的噪声项。[5] 为了识别模型,假设αj和εij的期望值为零并且彼此不相关。此外,假设αj是同分布的,而εij也是同分布的。αj的方差表示为σ模板:Supsub,而εij的方差表示为σ模板:Supsub。
在这个框架下,群体ICC为[6]
:[math] \frac{\sigma_\alpha^2}{\sigma_\alpha^2+\sigma_\varepsilon^2}. [/math]
在此框架中,ICC是同一组内两次观察的相关性。
对于单向随机效应模型:
[math]Y_{ij}=\mu+\alpha_i+\epsilon_{ij}[/math]
[math]\alpha_i \sim N(0,\sigma_\alpha^2)[/math],[math]\epsilon_{ij} \sim N(0,\sigma_\varepsilon^2)[/math],[math]\alpha_i[/math]s与[math]\epsilon_{ij}[/math]s相互独立,且[math]\alpha_i[/math]s与[math]\epsilon_{ij}[/math]s互相独立。
任何观察的方差是:[math]Var(Y_{ij})=\sigma_\varepsilon^2 + \sigma_\alpha^2[/math] 同一组[math]i[/math]内两次观察的协方差(对于[math]j \neq k[/math])是:[7]
[math]\begin{aligned} \operatorname{Cov}\left(Y_{i j}, Y_{i k}\right) & =\operatorname{Cov}\left(\mu+\alpha_{i}+\epsilon_{i j}, \mu+\alpha_{i}+\epsilon_{i k}\right) \\ & =\operatorname{Cov}\left(\alpha_{i}+\epsilon_{i j}, \alpha_{i}+\epsilon_{i k}\right) \\ & =\operatorname{Cov}\left(\alpha_{i}, \alpha_{i}\right)+2 \operatorname{Cov}\left(\alpha_{i}, \epsilon_{i k}\right)+\operatorname{Cov}\left(\epsilon_{i j}, \epsilon_{i k}\right) \\ & =\operatorname{Cov}\left(\alpha_{i}, \alpha_{i}\right) \\ & =\operatorname{Var}\left(\alpha_{i}\right) \\ & =\sigma_{\alpha}^{2} .\end{aligned}[/math]
在此,我们使用了协方差的性质。
综合起来我们得到: [math] \text{Cor}(Y_{ij}, Y_{ik}) = \frac{\text{Cov}(Y_{ij}, Y_{ik})}{\sqrt{Var(Y_{ij})Var(Y_{ik})}} = \frac{\sigma^2_\alpha }{\sigma_\varepsilon^2 + \sigma_\alpha^2} [/math]
这个ANOVA框架的一个优点是,不同组可以有不同数量的数据值,这是使用早期ICC统计量难以处理的。这个ICC始终是非负的,允许将其解释为“组间”总方差的比例。这个ICC可以推广以允许协变量效应,在这种情况下,ICC被解释为捕捉协变量调整后数据值的类内相似性。[8]
这个表达式永远不会是负数(不同于费舍尔的原始公式),因此,在来自具有0 ICC的群体的样本中,样本中的ICC将高于群体的ICC。
已经提出了许多不同的ICC统计量,不是所有这些统计量都估计相同的群体参数。关于哪些ICC统计量适用于特定用途,已经有相当大的争论,因为它们可能会为相同的数据产生明显不同的结果。[9][10]
与皮尔逊相关系数的关系
就其代数形式而言,费舍尔的原始ICC是最类似于皮尔逊相关系数的ICC。两个统计量之间的一个关键差异是,在ICC中,数据使用汇总的均值和标准差进行中心化和缩放,而在皮尔逊相关系数中,每个变量都通过其自己的均值和标准差进行中心化和缩放。这种对ICC的汇总缩放是有意义的,因为所有测量都是相同的量(尽管是在不同组的单位上)。例如,在一组配对数据中,每个“对”是为两个单位(例如,称量一对同卵双胞胎中的每个孪生子)所做的单一测量,而不是为单一单位做两个不同的测量(例如,为每个个体测量身高和体重),ICC是比皮尔逊相关更自然的关联度量。
皮尔逊相关的一个重要属性是,它对于对两个被比较变量应用的单独线性变换是不变的。因此,如果我们正在关联‘[math]X[/math]’和‘[math]Y[/math]’,比如说,‘[math]Y[/math]’ = 2‘[math]X[/math]’ + 1,‘[math]X[/math]’和‘[math]Y[/math]’之间的皮尔逊相关系数是1 —— 一个完美的相关。对于ICC来说,这个属性没有意义,因为没有依据来决定哪种变换应用于组内的每个值。然而,如果所有组中的所有数据都受到相同的线性变换,那么ICC不会改变。
观察者一致性评估中的应用
ICC(类内相关系数)用于评估多个观察者测量相同数量时的一致性或符合性。[11] 例如,如果请求几位医师对CT扫描结果进行癌症进展的评分,我们可以询问这些评分彼此之间的一致性。如果真相已知(例如,如果CT扫描是对随后接受探索性手术的患者进行的),那么重点通常是医师的评分与真相的匹配程度。如果真相未知,我们只能考虑评分之间的相似性。这个问题的一个重要方面是存在观察者间和观察者内的可变性。观察者间的可变性指的是观察者之间的系统性差异——例如,一位医师可能一贯地将患者评为比其他医师更高的风险等级。观察者内的可变性指的是特定观察者对特定患者的评分偏离,这些偏离不是系统性差异的一部分。
ICC被构建为适用于可交换的测量值——即,组内没有有意义的方式对测量值进行排序的分组数据。在评估观察者间的一致性时,如果相同的观察者对每个被研究元素进行评价,则观察者之间可能存在系统性差异,这与可交换性的概念相冲突。如果在存在系统性差异的情况下使用ICC,结果是观察者内和观察者间可变性的综合度量。一个可以合理假设可交换性成立的情况是,要评分的样本,比如血液样本,被分成多个分液,并且这些分液在同一仪器上分别测量。在这种情况下,只要不存在由于运行样本的顺序而产生的效应,可交换性就成立。
由于‘[math]类内相关系数[/math]’提供了观察者内和观察者间可变性的综合,当观察者不可交换时,其结果有时被认为难以解释。作为替代,提出了如科恩的kappa统计量、Fleiss kappa和一致性相关系数[12]等其他度量方法,作为非可交换观察者间协议的更适合的度量。
软件包中的计算
ICC在开源软件包R中得到支持(使用"icc"函数与[ ‘psy’]或[ ‘irr’]包,或通过[ ‘psych’]包中的"ICC"函数)。[ rptR]包[13]提供了在混合模型框架下估计ICC和重复性的方法,适用于高斯分布、二项分布和泊松分布的数据。值得注意的是,该包允许估计调整后的ICC(即控制其他变量)并基于参数自举法计算置信区间,以及基于残差置换计算的显著性。商业软件也支持ICC,例如Stata或SPSS[14]
Shrout和Fleiss约定 | McGraw和Wong约定 [15] | SPSS和Stata中的名称 [16][17] |
---|---|---|
ICC(1,1) | 单向随机,单次评分 ICC(1) | 单向随机,单次测量 |
ICC(2,1) | 双向随机,单次评分 ICC(A,1) | 双向随机,单次测量,绝对协议 |
ICC(3,1) | 双向混合,单次评分 ICC(C,1) | 双向混合,单次测量,一致性 |
未定义 | 双向随机,单次评分 ICC(C,1) | 双向随机,单次测量,一致性 |
未定义 | 双向混合,单次评分 ICC(A,1) | 双向混合,单次测量,绝对协议 |
ICC(1,k) | 单向随机,平均评分 ICC(k) | 单向随机,平均测量 |
ICC(2,k) | 双向随机,平均评分 ICC(A,k) | 双向随机,平均测量,绝对协议 |
ICC(3,k) | 双向混合,平均评分 ICC(C,k) | 双向混合,平均测量,一致性 |
未定义 | 双向随机,平均评分 ICC(C,k) | 双向随机,平均测量,一致性 |
未定义 | 双向混合,平均评分 ICC(A,k) | 双向混合,平均测量,绝对协议 |
这三种模型是:
- 单向随机效应:每个受试者由一组不同的k个随机选定的评价者测量;
- 双向随机:随机选择k个评价者,然后,每个受试者由同一组k个评价者测量;
- 双向混合:定义k个固定评价者。每个受试者由k个评价者测量。
测量次数:
- 单一测量:尽管在实验中进行了不止一次的测量,可靠性适用于一个场景,即将执行单一评估者的单一测量;
- 平均测量:可靠性适用于一个场景,其中k个评估者的测量将对每个受试者进行平均。
一致性或绝对一致性:
- 绝对一致性:两个评估者之间的一致性是重点,包括两个评估者的系统性错误和随机残余错误;
- 一致性:在同一评估者重复测量的上下文中,评估者的系统性错误被取消,只保留随机残余错误。
在单向随机效应模型中,无法估计一致性ICC,因为无法分离评估者间和残余方差。
Liljequist等人(2019)[18]也提供了对单一测量ICC的三个模型的概览和重新分析,以及它们使用的另一种方法。
解释
Cicchetti(1994)[19]为kappa或ICC评估者间一致性测量提供了以下经常引用的解释指南:
- 少于0.40—差。
- 在0.40和0.59之间—一般。
- 在0.60和0.74之间—好。
- 在0.75和1.00之间—优秀。
Koo和Li(2016)[20]给出了不同的指南:
- 低于0.50:差
- 在0.50和0.75之间:中等
- 在0.75和0.90之间:好
- 高于0.90:优秀
节点使用的R语言示例代码
组内相关系数 随机效应
icc(ratings, model = c("oneway", "twoway"),
type = c("consistency", "agreement"),
unit = c("single", "average"), r0 = 0, conf.level = 0.95)
方法参见R package: irr的官方文档
节点使用指南
- 用来评估在分类数据中,同一组内个体间相似程度的一种度量
- 随机效应指的是在模型中随机变动的组件,通常用于考虑非独立数据结构的影响
- 可以帮助我们了解组内个体的相关性大小
方法选择
- oneway是row effects random,假设只有一个固定的影响因素或只关心一个特定来源的变异
- twoway是column and row effects random,双向随机效应,评价者和对象都被视为是随机效应
参数配置
- 统计变量:选择多个连续型数值变量
- 随机方法选择:oneway,twoway
- 种类选择:不同评分者对同一样本的评分是否绝对一致或是否存在相关。Agreement考虑一致性,consistency考虑相关性
- ICC单位:选择单位,single是单个测量,每个对象的检测值由单个方法测量。average是平均测量,每个对象的检测值由多个方法测量,然后结果求平均
- 原假设检验值:默认是0,是因为原假设(null hypothesis)是观察值之间没有一致性或相关性
- 置信区间百分比:输入百分比,95%置信区间就是0.95
- 此算法兼容空值
注意事项
- 模型的复杂性会影响ICC的解释,选择合适的随机效应结构很重要
- ICC的值范围通常在0到1之间,一个较高的ICC值表明组内相似性较高,而较低的ICC值则表明组内差异较大
引用
- ↑ Koch GG (1982). "Intraclass correlation coefficient". In Samuel Kotz and Norman L. Johnson (ed.). Encyclopedia of Statistical Sciences. Vol. 4. New York: John Wiley & Sons. pp. 213–217.
- ↑ Bartko JJ (August 1966). "The intraclass correlation coefficient as a measure of reliability". Psychological Reports. 19 (1): 3–11. doi:10.2466/pr0.1966.19.1.3. PMID 5942109. S2CID 145480729.
- ↑ 3.0 3.1 3.2 3.3 Fisher RA (1954). Statistical Methods for Research Workers (Twelfth ed.). Edinburgh: Oliver and Boyd. ISBN 978-0-05-002170-5.
- ↑ Harris JA (October 1913). "On the Calculation of Intra-Class and Inter-Class Coefficients of Correlation from Class Moments when the Number of Possible Combinations is Large". Biometrika. 9 (3/4): 446–472. doi:10.1093/biomet/9.3-4.446. JSTOR 2331901.
- ↑ Donner A, Koval JJ (March 1980). "The estimation of intraclass correlation in the analysis of family data". Biometrics. 36 (1): 19–25. doi:10.2307/2530491. JSTOR 2530491. PMID 7370372.
- ↑ 证明ANOVA模型中的ICC是两项的相关性:ocram [1], 理解类内相关系数,网址(版本:2012-12-05):[2]
- ↑ dsaxton (https://stats.stackexchange.com/users/78861/dsaxton), 随机效应模型:同一水平的观察具有$\sigma^2$的协方差?, 网址(版本:2016-03-22)链接
- ↑ Stanish W, Taylor N (1983). "用于协方差分析模型的类内相关系数估计". The American Statistician. 37 (3): 221–224. doi:10.2307/2683375. JSTOR 2683375.
- ↑ Müller R, Büttner P (December 1994). "类内相关系数的批判性讨论". Statistics in Medicine. 13 (23–24): 2465–76. doi:10.1002/sim.4780132310. PMID 7701147. 另见评论:
- Vargha P (1997). "致编辑的信". Statistics in Medicine. 16 (7): 821–823. doi:10.1002/(SICI)1097-0258(19970415)16:7<821::AID-SIM558>3.0.CO;2-B. PMID 9131768.
- ↑ McGraw KO, Wong SP (1996). "关于某些类内相关系数的推断". Psychological Methods. 1: 30–46. doi:10.1037/1082-989X.1.1.30. 文章中有几处错误:
- McGraw KO, Wong SP (1996). "对McGraw和Wong(1996)的更正". Psychological Methods. 1 (4): 390. doi:10.1037/1082-989x.1.4.390.
- ↑ Shrout PE, Fleiss JL (1979年3月). "类内相关性:评估评价者可靠性的应用". 心理学公报. 86 (2): 420–8. doi:10.1037/0033-2909.86.2.420. PMID 18839484.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ Nickerson CA (1997年12月). "关于'评估可重复性的一致性相关系数'的注释". 生物统计学. 53 (4): 1503–1507. doi:10.2307/2533516. JSTOR 2533516.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ Stoffel MA, Nakagawa S, Schielzeth J (2017). "rptR: 通过广义线性混合效应模型估计重复性和方差分解". 生态学和进化方法. 8 (11): 1639–1644. doi:10.1111/2041-210x.12797. ISSN 2041-210X.
- ↑ MacLennan RN (1993年11月). "使用SPSS for Windows 5.0进行评价者间可靠性". 美国统计员. 47 (4): 292–296. doi:10.2307/2685289. JSTOR 2685289.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ 模板:Ite journal
- ↑ Stata用户指南第15版. College Station, Texas: Stata Press. 2017. pp. 1101–1123. ISBN 978-1-59718-249-2.
- ↑ Howell DC. "类内相关系数".
{{cite web}}
: Missing or empty|url=
(help) - ↑ Liljequist D, Elfving B, Skavberg Roaldsen K (2019). "等级内相关性 - 基本特征的讨论和演示". PLOS ONE. 14 (7): e0219854. doi:10.1371/journal.pone.0219854. PMC 6645485. PMID 31329615.
- ↑ Cicchetti DV (1994). "评估心理学中规范化和标准化评估工具的指南、标准和经验法则。". Psychological Assessment. 6 (4): 284–290. doi:10.1037/1040-3590.6.4.284.
- ↑ Koo TK, Li MY (June 2016). "选择和报告等级内相关系数的可靠性研究指南". Journal of Chiropractic Medicine. 15 (2): 155–63. doi:10.1016/j.jcm.2016.02.012. PMC 4913118. PMID 27330520.
查找其他类别的节点,请参考以下列表