组内相关系数混合效应

组内相关系数_混合效应
节点状态	/ Win10及以上可用在V1.0.2部署
组内相关系数_混合效应
节点开发者	决策链算法研发部 (Dev.Team-DPS)
节点英文名	Intraclass Correlation Coefficient_Mixed
功能主类别	数据分析
英文缩写	ICCM
功能亚类别	相关分析
节点类型	数据挖掘
开发语言	R
节点简介
	组内相关系数是衡量和评价观察者间信度和复测信度的信度系数指标之一。也就是说常用于衡量某个指标在多次测量中的一致性或者相似性。该算法运用的是混合效应模型，当个体效应随机，各组之间效应固定时选用。用途：可以用来处理层次或嵌套数据结构。参数：选择多个连续型或离散型数值变量。
端口数量与逻辑控制(PC)
Input-入口	3个
Output-出口	2个
Loop-支持循环	是
If/Switch-支持逻辑判断	否
输入输出
	可生成图片类型（推荐）散点图; 可生成数据表类型（推荐）统计值; F值; 自由度; P值 (P-Value); 置信区间; 可配置参数例型变量列表; 文本输入; 入口类型控制流程 ➤; 传输变量 ◆; 传输源数据表 ■; 出口类型控制流程 ➤; 传输源数据表 ■;
相关节点
上一节点	组内相关系数_随机效应
下一节点	线性回归
相关网站 ;

在统计学中，intraclass correlation|组内相关性，或intraclass correlation coefficient|组内相关系数（ICC）^[1]是一种描述统计，可用于对组织成组的单位进行定量测量时使用。它描述了同一组内的单位彼此相似的程度。虽然它被视为一种相关类型，但与大多数其他相关度量不同，它是对作为组而不是成对观测数据结构化的数据进行操作。

intraclass correlation|组内相关性通常用于量化具有固定关联度（例如，同胞兄弟姐妹）的个体在定量特征上彼此相似的程度（参见遗传性）。另一个重要的应用是评估不同观察者测量相同数量时的一致性或可重复性。

早期ICC定义：无偏但复杂的公式

最早关于组内相关性的工作集中在成对测量的情况上，而首个被提出的组内相关性（ICC）统计量是类间相关性（皮尔逊相关性）的修改版。

考虑一个由N对数据值组成的数据集（x_n,1, x_n,2），对于n = 1, ..., N。最初由罗纳德·费舍尔提出的组内相关性r^[2]是

[math]r = \frac{1}{Ns^2} \sum_{n=1}^N (x_{n,1} - \bar{x}) ( x_{n,2} - \bar{x}), [/math]

其中

[math]\bar{x} = \frac{1}{2N} \sum_{n=1}^N (x_{n,1} + x_{n,2}), [/math]

[math]s^2 = \frac{1}{2N} \left\{ \sum_{n=1}^N ( x_{n,1} - \bar{x})^2 + \sum_{n=1}^N ( x_{n,2} - \bar{x})^2 \right\}. [/math]

此统计量的后续版本^[3]在计算s²的分母中使用自由度2N −1，而在计算r的分母中使用N −1，使得s²变得无偏，如果s是已知的，那么r也变得无偏。

这个ICC与类间（皮尔逊）相关性的主要区别在于，数据被汇总以估计均值和方差。这样做的原因是，在需要组内相关性的设置中，对是被视为无序的。例如，如果我们正在研究双胞胎的相似性，通常没有有意义的方法来为双胞胎对中的两个个体排序。与类间相关性一样，成对数据的组内相关性将被限制在区间 [−1, +1]内。

也为具有多于2个值的组定义了组内相关性。对于由三个值组成的组，其定义为^[3]

[math]r = \frac{1}{3Ns^2} \sum_{n=1}^N \left\{ ( x_{n,1} - \bar{x})( x_{n,2} - \bar{x}) + (x_{n,1} - \bar{x})( x_{n,3} - \bar{x})+( x_{n,2} - \bar{x})( x_{n,3} - \bar{x}) \right\}, [/math]

其中

[math]\bar{x} = \frac{1}{3 N} \sum_{n=1}^N (x_{n,1} + x_{n,2} + x_{n,3}), [/math]

[math]s^2 = \frac{1}{3N} \left\{ \sum_{n=1}^N ( x_{n,1} - \bar{x})^2 + \sum_{n=1}^N ( x_{n,2} - \bar{x})^2 + \sum_{n=1}^N ( x_{n,3} - \bar{x})^2\right\}. [/math]

随着每组项目数量的增加，此表达式中的交叉乘积项数量也随之增加。以下等价形式更简单：

[math]r = \frac{K}{K-1}\cdot\frac{N^{-1}\sum_{n=1}^N(\bar{x}_n-\bar{x})^2}{s^2} - \frac{1}{K-1},[/math]

其中K是每组的数据值数量，[math]\bar{x}_n[/math]是第n组的样本均值。^[3] 这种形式通常归功于哈里斯。^[4] 左边的项是非负的；因此，组内相关性必须满足

[math]r \geq \frac {-1} {K-1}.[/math]

对于大的K，这个ICC几乎等于

[math]\frac{N^{-1}\sum_{n=1}^N(\bar{x}_n-\bar{x})^2}{s^2},[/math]

这可以解释为总方差中由于组间变异所占的比例。罗纳德·费舍尔在其经典书籍Statistical Methods for Research Workers中专门讨论了组内相关性。^[3]

对于来自完全噪声的人口数据，费舍尔的公式产生的ICC值分布在0附近，即有时为负。这是因为费舍尔设计了这个公式以使其无偏，因此其估计有时会过高估计，有时会低估。对于人口中的小或0底层值，从样本计算出的ICC可能为负。

现代ICC定义：简化公式但正偏差

从罗纳德·费舍尔开始，组内相关性已经在方差分析（ANOVA）的框架内被考虑，最近则在随机效应模型的框架内被考虑。已经提出了多种ICC估计器。大多数估计器可以根据随机效应模型定义

[math]Y_{ij} = \mu + \alpha_j + \varepsilon_{ij},[/math]

其中Y_ij是第j组的第i次观察值，μ是未观察到的整体均值，α_j是所有组j中的值共享的未观察到的随机效应，而ε_ij是未观察到的噪声项。^[5] 为了识别模型，假设α_j和ε_ij的期望值为零并且彼此不相关。此外，假设α_j是同分布的，而ε_ij也是同分布的。α_j的方差表示为σ模板:Supsub，而ε_ij的方差表示为σ模板:Supsub。

在这个框架下，群体ICC为^[6]

：[math] \frac{\sigma_\alpha^2}{\sigma_\alpha^2+\sigma_\varepsilon^2}. [/math]

在此框架中，ICC是同一组内两次观察的相关性。

[Proof]

对于单向随机效应模型：

[math]Y_{ij}=\mu+\alpha_i+\epsilon_{ij}[/math]

[math]\alpha_i \sim N(0,\sigma_\alpha^2)[/math]，[math]\epsilon_{ij} \sim N(0,\sigma_\varepsilon^2)[/math]，[math]\alpha_i[/math]s与[math]\epsilon_{ij}[/math]s相互独立，且[math]\alpha_i[/math]s与[math]\epsilon_{ij}[/math]s互相独立。

任何观察的方差是：[math]Var(Y_{ij})=\sigma_\varepsilon^2 + \sigma_\alpha^2[/math] 同一组[math]i[/math]内两次观察的协方差（对于[math]j \neq k[/math]）是：^[7]

[math]\begin{aligned} \operatorname{Cov}\left(Y_{i j}, Y_{i k}\right) & =\operatorname{Cov}\left(\mu+\alpha_{i}+\epsilon_{i j}, \mu+\alpha_{i}+\epsilon_{i k}\right) \\ & =\operatorname{Cov}\left(\alpha_{i}+\epsilon_{i j}, \alpha_{i}+\epsilon_{i k}\right) \\ & =\operatorname{Cov}\left(\alpha_{i}, \alpha_{i}\right)+2 \operatorname{Cov}\left(\alpha_{i}, \epsilon_{i k}\right)+\operatorname{Cov}\left(\epsilon_{i j}, \epsilon_{i k}\right) \\ & =\operatorname{Cov}\left(\alpha_{i}, \alpha_{i}\right) \\ & =\operatorname{Var}\left(\alpha_{i}\right) \\ & =\sigma_{\alpha}^{2} .\end{aligned}[/math]

在此，我们使用了协方差的性质。

综合起来我们得到： [math] \text{Cor}(Y_{ij}, Y_{ik}) = \frac{\text{Cov}(Y_{ij}, Y_{ik})}{\sqrt{Var(Y_{ij})Var(Y_{ik})}} = \frac{\sigma^2_\alpha }{\sigma_\varepsilon^2 + \sigma_\alpha^2} [/math]

这个ANOVA框架的一个优点是，不同组可以有不同数量的数据值，这是使用早期ICC统计量难以处理的。这个ICC始终是非负的，允许将其解释为“组间”总方差的比例。这个ICC可以推广以允许协变量效应，在这种情况下，ICC被解释为捕捉协变量调整后数据值的类内相似性。^[8]

这个表达式永远不会是负数（不同于费舍尔的原始公式），因此，在来自具有0 ICC的群体的样本中，样本中的ICC将高于群体的ICC。

已经提出了许多不同的ICC统计量，不是所有这些统计量都估计相同的群体参数。关于哪些ICC统计量适用于特定用途，已经有相当大的争论，因为它们可能会为相同的数据产生明显不同的结果。^[9]^[10]

与皮尔逊相关系数的关系

就其代数形式而言，费舍尔的原始ICC是最类似于皮尔逊相关系数的ICC。两个统计量之间的一个关键差异是，在ICC中，数据使用汇总的均值和标准差进行中心化和缩放，而在皮尔逊相关系数中，每个变量都通过其自己的均值和标准差进行中心化和缩放。这种对ICC的汇总缩放是有意义的，因为所有测量都是相同的量（尽管是在不同组的单位上）。例如，在一组配对数据中，每个“对”是为两个单位（例如，称量一对同卵双胞胎中的每个孪生子）所做的单一测量，而不是为单一单位做两个不同的测量（例如，为每个个体测量身高和体重），ICC是比皮尔逊相关更自然的关联度量。

皮尔逊相关的一个重要属性是，它对于对两个被比较变量应用的单独线性变换是不变的。因此，如果我们正在关联‘[math]X[/math]’和‘[math]Y[/math]’，比如说，‘[math]Y[/math]’ = 2‘[math]X[/math]’ + 1，‘[math]X[/math]’和‘[math]Y[/math]’之间的皮尔逊相关系数是1 —— 一个完美的相关。对于ICC来说，这个属性没有意义，因为没有依据来决定哪种变换应用于组内的每个值。然而，如果所有组中的所有数据都受到相同的线性变换，那么ICC不会改变。

观察者一致性评估中的应用

ICC（类内相关系数）用于评估多个观察者测量相同数量时的一致性或符合性。^[11] 例如，如果请求几位医师对CT扫描结果进行癌症进展的评分，我们可以询问这些评分彼此之间的一致性。如果真相已知（例如，如果CT扫描是对随后接受探索性手术的患者进行的），那么重点通常是医师的评分与真相的匹配程度。如果真相未知，我们只能考虑评分之间的相似性。这个问题的一个重要方面是存在观察者间和观察者内的可变性。观察者间的可变性指的是观察者之间的系统性差异——例如，一位医师可能一贯地将患者评为比其他医师更高的风险等级。观察者内的可变性指的是特定观察者对特定患者的评分偏离，这些偏离不是系统性差异的一部分。

ICC被构建为适用于可交换的测量值——即，组内没有有意义的方式对测量值进行排序的分组数据。在评估观察者间的一致性时，如果相同的观察者对每个被研究元素进行评价，则观察者之间可能存在系统性差异，这与可交换性的概念相冲突。如果在存在系统性差异的情况下使用ICC，结果是观察者内和观察者间可变性的综合度量。一个可以合理假设可交换性成立的情况是，要评分的样本，比如血液样本，被分成多个分液，并且这些分液在同一仪器上分别测量。在这种情况下，只要不存在由于运行样本的顺序而产生的效应，可交换性就成立。

由于‘[math]类内相关系数[/math]’提供了观察者内和观察者间可变性的综合，当观察者不可交换时，其结果有时被认为难以解释。作为替代，提出了如科恩的kappa统计量、Fleiss kappa和一致性相关系数^[12]等其他度量方法，作为非可交换观察者间协议的更适合的度量。

软件包中的计算

文件:Intraclass correlation coefficient graph improved.svg

应用于三种观察者一致性场景的不同类内相关系数定义。

ICC在开源软件包R中得到支持（使用"icc"函数与[ ‘psy’]或[ ‘irr’]包，或通过[ ‘psych’]包中的"ICC"函数）。[ rptR]包^[13]提供了在混合模型框架下估计ICC和重复性的方法，适用于高斯分布、二项分布和泊松分布的数据。值得注意的是，该包允许估计调整后的ICC（即控制其他变量）并基于参数自举法计算置信区间，以及基于残差置换计算的显著性。商业软件也支持ICC，例如Stata或SPSS^[14]

不同类型的ICC [3] Error in Webarchive template: Empty url.
Shrout和Fleiss约定	McGraw和Wong约定 ^[15]	SPSS和Stata中的名称 ^[16]^[17]
ICC(1,1)	单向随机，单次评分 ICC(1)	单向随机，单次测量
ICC(2,1)	双向随机，单次评分 ICC(A,1)	双向随机，单次测量，绝对协议
ICC(3,1)	双向混合，单次评分 ICC(C,1)	双向混合，单次测量，一致性
未定义	双向随机，单次评分 ICC(C,1)	双向随机，单次测量，一致性
未定义	双向混合，单次评分 ICC(A,1)	双向混合，单次测量，绝对协议
ICC(1,k)	单向随机，平均评分 ICC(k)	单向随机，平均测量
ICC(2,k)	双向随机，平均评分 ICC(A,k)	双向随机，平均测量，绝对协议
ICC(3,k)	双向混合，平均评分 ICC(C,k)	双向混合，平均测量，一致性
未定义	双向随机，平均评分 ICC(C,k)	双向随机，平均测量，一致性
未定义	双向混合，平均评分 ICC(A,k)	双向混合，平均测量，绝对协议

这三种模型是：

单向随机效应：每个受试者由一组不同的k个随机选定的评价者测量；
双向随机：随机选择k个评价者，然后，每个受试者由同一组k个评价者测量；
双向混合：定义k个固定评价者。每个受试者由k个评价者测量。

测量次数：

单一测量：尽管在实验中进行了不止一次的测量，可靠性适用于一个场景，即将执行单一评估者的单一测量；
平均测量：可靠性适用于一个场景，其中k个评估者的测量将对每个受试者进行平均。

一致性或绝对一致性：

绝对一致性：两个评估者之间的一致性是重点，包括两个评估者的系统性错误和随机残余错误；
一致性：在同一评估者重复测量的上下文中，评估者的系统性错误被取消，只保留随机残余错误。

在单向随机效应模型中，无法估计一致性ICC，因为无法分离评估者间和残余方差。

Liljequist等人（2019）^[18]也提供了对单一测量ICC的三个模型的概览和重新分析，以及它们使用的另一种方法。

解释

Cicchetti（1994）^[19]为kappa或ICC评估者间一致性测量提供了以下经常引用的解释指南：

少于0.40—差。
在0.40和0.59之间—一般。
在0.60和0.74之间—好。
在0.75和1.00之间—优秀。

Koo和Li（2016）^[20]给出了不同的指南：

低于0.50：差
在0.50和0.75之间：中等
在0.75和0.90之间：好
高于0.90：优秀

节点使用的R语言示例代码