模型评估

来自决策链云智库
混淆矩阵中可以派生出四个基本测量指标。

二元分类器的评估 比较了两种分配二元属性的方法,其中通常一种是标准方法,另一种则是被研究的方法。用于衡量分类器或预测器性能的指标有很多;由于不同领域的目标不同,对特定指标的偏好也不同。例如,在医学中经常使用敏感性和特异性,而在计算机科学中更倾向于使用精确度和召回率。一个重要的区别在于,有些指标与流行度(每个类别在人群中出现的频率)无关,而另一些指标则取决于流行度——这两种类型都很有用,但它们具有非常不同的属性。

概率分类模型不仅提供二元输出,而且为每个类别产生概率分数。这些模型旨在评估实例属于不同类别的可能性或概率。在评估概率分类器的背景下,已经开发出替代评估指标,以正确评估这些模型的性能。这些指标考虑了分类器输出的概率本质,并提供了对其在为不同类别分配准确概率方面有效性的更全面评估。这些评估指标旨在捕捉概率分类器预测的校准度、区分度和整体准确性。

术语和从confusion matrix衍生出的定义
条件阳性 (P):数据中实际阳性案例的数量
条件阴性 (N):数据中实际阴性案例的数量

真阳性 (TP):一种正确指示出某种条件或特征存在的测试结果
真阴性 (TN):一种正确指示出某种条件或特征不存在的测试结果
假阳性 (FP), 第一类错误:一种错误地指示某种条件或特征存在的测试结果
假阴性 (FN), 第二类错误:一种错误地指示某种条件或特征不存在的测试结果

敏感性, 召回率, hit rate, 或 真阳性率 (TPR):[math]\mathrm{TPR} = \frac {\mathrm{TP}} {\mathrm{P}} = \frac {\mathrm{TP}} {\mathrm{TP}+\mathrm{FN}}= 1 - \mathrm{FNR}[/math]
特异性, 选择性真阴性率 (TNR):[math]\mathrm{TNR} = \frac {\mathrm{TN}} {\mathrm{N}} = \frac {\mathrm{TN}} {\mathrm{TN} + \mathrm{FP}} = 1 - \mathrm{FPR}[/math]
精确度positive predictive value (PPV):[math]\mathrm{PPV} = \frac {\mathrm{TP}} {\mathrm{TP} + \mathrm{FP}} = 1 - \mathrm{FDR}[/math]
negative predictive value (NPV):[math]\mathrm{NPV} = \frac {\mathrm{TN}} {\mathrm{TN} + \mathrm{FN}} = 1 - \mathrm{FOR}[/math]
未检出率 或 假阴性率 (FNR):[math]\mathrm{FNR} = \frac {\mathrm{FN}} {\mathrm{P}} = \frac {\mathrm{FN}} {\mathrm{FN} + \mathrm{TP}} = 1 - \mathrm{TPR} [/math]
误报率假阳性率 (FPR):[math]\mathrm{FPR} = \frac {\mathrm{FP}} {\mathrm{N}} = \frac {\mathrm{FP}} {\mathrm{FP} + \mathrm{TN}} = 1 - \mathrm{TNR}[/math]
false discovery rate (FDR):[math]\mathrm{FDR} = \frac {\mathrm{FP}} {\mathrm{FP} + \mathrm{TP}} = 1 - \mathrm{PPV} [/math]
漏报率 (FOR):[math]\mathrm{FOR} = \frac {\mathrm{FN}} {\mathrm{FN} + \mathrm{TN}} = 1 - \mathrm{NPV} [/math]
Positive likelihood ratio (LR+):[math]\mathrm{LR+} = \frac {\mathrm{TPR}} {\mathrm{FPR}} [/math]
Negative likelihood ratio (LR-):[math]\mathrm{LR-} = \frac {\mathrm{FNR}} {\mathrm{TNR}} [/math]
prevalence threshold (PT):[math]\mathrm{PT}= \frac{\sqrt{\mathrm{FPR}}}{\sqrt{\mathrm{TPR}} + \sqrt{\mathrm{FPR}}} [/math]
威胁分数 (TS) 或关键成功指数 (CSI):[math]\mathrm{TS} = \frac{\mathrm{TP}}{\mathrm{TP} + \mathrm{FN} + \mathrm{FP}}[/math]

Prevalence:[math] \frac {\mathrm{P}} {\mathrm{P} + \mathrm{N}} [/math]
accuracy (ACC):[math]\mathrm{ACC} = \frac {\mathrm{TP} + \mathrm{TN}} {\mathrm{P} + \mathrm{N}} = \frac {\mathrm{TP} + \mathrm{TN}} {\mathrm{TP} + \mathrm{TN} + \mathrm{FP} + \mathrm{FN}} [/math]
平衡准确度 (BA):[math]\mathrm{BA} = \frac {\mathrm{TPR} + \mathrm{TNR}}{2} [/math]
F1 score:是精确度敏感性调和平均:[math]\mathrm{F}_1 = 2 \times \frac {\mathrm{PPV} \times \mathrm{TPR}} {\mathrm{PPV} + \mathrm{TPR}} = \frac {2 \mathrm{TP}} {2 \mathrm{TP} + \mathrm{FP} + \mathrm{FN}}[/math]
phi coefficient (φ 或 rφ) 或 Matthews correlation coefficient (MCC):[math] \mathrm{MCC} = \frac{ \mathrm{TP} \times \mathrm{TN} - \mathrm{FP} \times \mathrm{FN} } {\sqrt{ (\mathrm{TP}+\mathrm{FP}) ( \mathrm{TP} + \mathrm{FN} ) ( \mathrm{TN} + \mathrm{FP} ) ( \mathrm{TN} + \mathrm{FN} ) } }[/math]
Fowlkes–Mallows index (FM):[math] \mathrm{FM} = \mathrm{\sqrt{\frac {TP}{TP+FP} \times \frac{TP}{TP+FN}} = \sqrt{ PPV \times TPR }}[/math]
informedness 或博彩商信息度 (BM):[math] \mathrm{BM} = \mathrm{TPR} + \mathrm{TNR} - 1[/math]
markedness (MK) 或 deltaP (Δp):[math] \mathrm{MK} = \mathrm{PPV} + \mathrm{NPV} - 1[/math]
Diagnostic odds ratio (DOR):[math] \mathrm{DOR} = \frac {\mathrm{LR+}} {\mathrm{LR-}} [/math]

来源: Fawcett (2006),[1] Piryonesi 和 El-Diraby (2020),[2] Powers (2011),[3] Ting (2011),[4] CAWCR,[5] D. Chicco & G. Jurman (2020, 2021, 2023),[6][7][8] Tharwat (2018).[9] Balayla (2020)[10]

列联表

给定一个数据集,分类(分类器在该集合上的输出)给出两个数字:正例的数量和负例的数量,这两个数字加起来等于集合的总大小。为了评估分类器,人们将其输出与另一个参考分类进行比较——理想情况下是完美分类,但实际上是另一个金标准测试的输出——并将数据交叉制表成一个2×2的列联表,比较两个分类。然后通过计算这4个数字的汇总统计来评估分类器与金标准的相对性能。通常这些统计数据会是尺度不变的(将所有数字按同一因子缩放不会改变输出),以使它们独立于人口规模,这是通过使用齐次函数比率来实现的,最简单的是齐次线性齐次二次函数。

假设我们对一些人进行疾病检测。其中一些人患有疾病,而我们的检测正确地表示他们是阳性。他们被称为真阳性(TP)。有些人患有疾病,但测试错误地声称他们没有。他们被称为假阴性(FN)。有些人没有患病,而测试显示他们没有——真阴性(TN)。最后,可能有健康人的检测结果是阳性——假阳性(FP)。这些可以排列成一个2×2的列联表(混淆矩阵),通常将测试结果放在垂直轴,实际情况放在水平轴上。

然后这些数字可以汇总,得出总计边际总计。汇总整个表格,真阳性、假阴性、真阴性和假阳性的数量加起来占集合的100%。汇总列(纵向相加),真阳性和假阳性的数量加起来占测试阳性的100%,对阴性亦然。汇总行(横向相加),真阳性和假阴性的数量加起来占条件阳性的100%(对阴性亦然)。通过将表格中的2×2=4个值除以边际总计(行或列)来获得基本的边际比率统计,从而得出2个辅助的2×2表格,总共8个比率。这些比率分为4对互补对,每对之和为1,因此每个派生的2×2表格可以用一对2个数字及其互补数进行总结。可以通过取这些比率的比率、比率的比率或更复杂的函数来获得进一步的统计数据。

下面总结了列联表和最常见的派生比率;详情见后续部分。

请注意,行对应于实际情况为阳性或阴性(或被金标准分类为此类),如颜色编码所示,相关统计数据与流行度无关,而列对应于测试为阳性或阴性,相关统计数据取决于流行度。还有类似的预测值的似然比,但这些使用较少,上面未描绘。

预测条件 来源: [11][12][13][14][15][16][17][18][19]
总体人群
= P + N
预测阳性 (PP) 预测阴性 (PN) 信息度, 博彩信息度 (BM)
= TPR + TNR − 1
患病率阈值 (PT)
=[math]=\frac{\sqrt{\mathrm{TPR} \times \mathrm{FPR}}-\mathrm{FPR}}{\mathrm{TPR}-\mathrm{FPR}}[/math]
实际条件
阳性 (P) 真阳性 (TP),
命中
假阴性 (FN),
type II error, 错失,
低估
真阳性率 (TPR), 召回率, 敏感性 (SEN), 检测概率, 命中率, 功效
= TP/P = 1 − FNR
假阴性率 (FNR),
错失率
= FN/P = 1 − TPR
阴性 (N) 假阳性 (FP),
type I error, 虚警,
高估
真阴性 (TN),
正确拒绝
假阳性率 (FPR),
虚警概率, 降雨量
= FP/N = 1 − TNR
[[真阴性率] (TNR),
特异性 (SPC), 选择性
= TN/N = 1 − FPR
患病率
= P/P + N
阳性预测值 (PPV), 精确度
= TP/PP = 1 − FDR
漏报率 (FOR)
= FN/PN = 1 − NPV
阳性似然比 (LR+)
= TPR/FPR
阴性似然比 (LR−)
= FNR/TNR
准确度 (ACC) = TP + TN/P + N 假发现率 (FDR)
= FP/PP = 1 − PPV
阴性预测值 (NPV) = TN/PN = 1 − FOR 标记度 (MK), deltaP (Δp)
= PPV + NPV − 1
诊断比值比 (DOR) = LR+/LR−
平衡准确度 (BA) = TPR + TNR/2 F1 分数
= 2 PPV × TPR/PPV + TPR = 2 TP/2 TP + FP + FN
Fowlkes–Mallows 指数 (FM) = [math](F M)=\sqrt{P P V} \times TPR[/math] 马修斯相关系数 (MCC)
[math]\begin{array}{l}=\sqrt{\mathrm{TPR} \times \mathrm{TNR} \times \mathrm{PPV} \times \mathrm{NPV}} \\ -\sqrt{\mathrm{FNR} \times \mathrm{FPR} \times \mathrm{FOR} \times \mathrm{FDR}}\end{array}[/math]
威胁分数 (TS), 关键成功指数 (CSI), Jaccard 指数 = TP/TP + FN + FP

敏感性和特异性

基本的流行度独立统计是敏感性和特异性

敏感性真阳性率(TPR),也被称为召回率,是测试呈阳性且实际为阳性(真阳性,TP)的人数与实际为阳性的所有人数(条件阳性,CP = TP + FN)的比例。它可以被视为测试呈阳性的情况下患者生病的概率。敏感性越高,实际疾病病例的漏检越少(或者,在工厂质量控制的情况下,较少的次品流入市场)。

特异性(SPC)或真阴性率(TNR)是指被测验为阴性且实际为阴性(真阴性,TN)的人数占实际阴性人数(条件阴性,CN = TN + FP)的比例。与灵敏度一样,它可以被看作是“测试结果为阴性的条件下患者未患病的概率”。特异性越高,标记为病患的健康人越少(或者,在工厂案例中,被丢弃的良品越少)。

灵敏度和特异性之间的关系,以及分类器的性能,可以使用接收者操作特征(ROC)曲线来可视化和研究。

从理论上讲,灵敏度和特异性是独立的,这意味着可以同时实现两者100%(如上面所给的红/蓝球例子)。但在更实际、不那么刻意构造的情况下,通常存在一定程度的权衡,即它们在某种程度上成反比。这是因为我们很少测量我们想要分类的实际事物;相反,我们通常测量一个指标,即我们想要分类的事物的一个代理标记代理标记。在球的例子中可以实现100%是因为红色和蓝色是通过直接检测红色和蓝色来确定的。然而,指标有时会受到妥协,例如当非指标模仿指标,或者当指标是时间依赖的,只有在一定的滞后时间后才变得明显。以下关于怀孕测试的例子将使用这样的指标。

现代怀孕测试使用怀孕本身来确定怀孕状态;相反,使用人绒毛膜促性腺激素(hCG),它存在于孕妇尿液中,作为指示妇女怀孕的代理标记。因为hCG也可以由肿瘤产生,所以现代怀孕测试的特异性不能达到100%(因为可能出现假阳性)。此外,因为受精和早期胚胎发生后,hCG在尿液中的浓度很低,现代怀孕测试的灵敏度也不能达到100%(因为可能出现假阴性)。

可能性比

阳性和阴性预测值

除了灵敏度和特异性之外,二元分类测试的性能还可以用阳性预测值(PPV),也称为精确度,和阴性预测值(NPV)来衡量。阳性预测值回答的问题是“如果测试结果是阳性,那么这个结果预测实际存在疾病的准确性有多高?”。它的计算方式为TP/(TP + FP);即,真阳性在所有阳性结果中的比例。阴性预测值也是如此,但自然是针对阴性。

发病率对预测值的影响

发病率对预测值有显著影响。例如,假设有一个疾病测试,灵敏度和特异性都是99%。如果测试了2000人,样本中的发病率为50%,那么其中1000人患病,1000人健康。因此,大约有990个真阳性和990个真阴性,10个假阳性和10个假阴性。阳性和阴性预测值将为99%,因此可以对结果有高度的信心。

然而,如果发病率仅为5%,那么在2000人中只有100人真正患病,那么预测值就会发生显著变化。可能的结果是99个真阳性,1个假阴性,1881个真阴性和19个假阳性。在19+99个测试阳性的人中,只有99人真正患有该病——这意味着,直观地说,给定一个病人的测试结果为阳性,他们真正患病的几率只有84%。另一方面,给定病人的测试结果为阴性,他们尽管测试结果为阴性却患有该病的概率只有1/1882,或0.05%。

可能性比

精确度和召回率

精确度和召回率可以解释为(估计的)条件概率: 精确度由[math]P(C=P|\hat{C}=P)[/math]给出,而召回率由[math]P(\hat{C}=P|C=P)[/math]给出,[20]其中[math]\hat{C}[/math]是预测类别,[math]C[/math]是实际类别。 因此,这两个量通过贝叶斯定理相联系。

关系

这些比率之间存在各种关系。

如果已知发病率、灵敏度和特异性,可以从以下等式得出阳性预测值:

[math] \text{PPV} = \frac{(\text{sensitivity}) (\text{prevalence})}{(\text{sensitivity}) (\text{prevalence}) + (1 - \text{specificity}) (1-\text{prevalence})} [/math]

如果已知发病率、灵敏度和特异性,可以从以下等式得出阴性预测值:

[math]\text{NPV} = \frac{(\text{specificity}) (1 - \text{prevalence})}{(\text{specificity}) (1 - \text{prevalence}) + (1 - \text{sensitivity}) (\text{prevalence})}. [/math]

单一指标

除了成对指标外,还有单一指标,它提供一个数字来评估测试。

或许最简单的统计量是准确度正确率(FC),它衡量所有实例中正确分类的比例;即正确分类的数量与正确或错误分类的总数之比:(TP + TN)/总人口 = (TP + TN)/(TP + TN + FP + FN)。因此,它比较了测试前和测试后的概率估计。这个度量与流行度相关。如果90%的有COVID症状的人实际上没有COVID,先验概率P(-)是0.9,简单规则"将所有这样的患者分类为无COVID"的准确度将是90%。诊断应该比这更准确。人们可以构建一个"单比例z-测试",用p0作为最大先验概率 max(priors) = max(P(-),P(+)),以期望通过最可能的结果击败简单规则的诊断方法。这里,假设是"Ho: p ≤ 0.9 vs. Ha: p > 0.9",对于z的大值拒绝Ho。如果另一个诊断规则的准确度已知,并且用于替换p0来计算z统计量,那么可以与之比较。如果不知道且根据数据计算,可以使用"两比例z-测试,合并为Ho: p1 = p2"进行准确度比较测试。没有使用很多的是互补统计量,即错误率(FiC):FC + FiC = 1,或 (FP + FN)/(TP + TN + FP + FN) — 这是对角线之和除以总人口。成本加权的错误率可以比较不同方法的错误分类的预期成本。

诊断比率(DOR)可以是一个更有用的整体度量,它可以直接定义为(TP×TN)/(FP×FN) = (TP/FN)/(FP/TN),或间接定义为比率的比率的比率(可能性比的比率,这些比率本身是真实率或预测值的比率)。这有一个有用的解释——作为一个赔率比——并且与流行度无关。似然比通常被认为与流行度无关,并且容易被解释为将先验概率转换为后验概率的乘数。另一个有用的单一度量是"ROC曲线下的面积", AUC

替代指标

F-分数精确度召回率的结合,提供一个单一分数。存在一个参数为β的统计量单参数家族,决定了精确度和召回率的相对权重。传统的或平衡的F-分数(F1分数)是精确度和召回率的调和平均数

[math]F_1 = 2 \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{\mathrm{precision} + \mathrm{recall}} [/math]。

F-分数不考虑真阴性率,因此更适合信息检索信息提取评估,其中真阴性是数不清的。相反,像菲系数马修斯相关系数知情度科恩的卡帕等度量可能更适合评估二元分类器的性能。[21][22] 作为相关系数,马修斯相关系数是问题及其对偶回归系数几何平均数。马修斯相关系数的组成回归系数是标记度(deltap)和知情度(尤登J统计量或deltap')。[23]

另行参见

引用

  1. Fawcett, Tom (2006). "ROC 分析简介" (PDF). 模式识别信函. 27 (8): 861–874. Bibcode:2006PaReL..27..861F. doi:10.1016/j.patrec.2005.10.010. S2CID 2027090.
  2. Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "资产管理中的数据分析:经济高效的道路状况指数预测". 基础设施系统杂志. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512. S2CID 213782055.
  3. Powers, David M. W. (2011). "评估:从精确度、召回率和F-度量到ROC、知情度、标记度和相关性". 机器学习技术杂志. 2 (1): 37–63.
  4. Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). 机器学习百科全书. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  5. Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE联合预报验证研究工作组". 澳大利亚天气与气候研究协作. 世界气象组织. Retrieved 2019-07-17.
  6. Chicco D.; Jurman G. (January 2020). "Matthews 相关系数 (MCC) 在二元分类评估中比 F1 分数和准确率的优势". BMC 基因组学. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
  7. Chicco D.; Toetsch N.; Jurman G. (February 2021). "在两类混淆矩阵评估中,Matthews 相关系数 (MCC) 比平衡准确率、博彩知情度和标记度更可靠". BioData Mining. 14 (13): 13. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.
  8. Chicco D.; Jurman G. (2023). "Matthews 相关系数 (MCC) 应取代 ROC AUC 成为评估二元分类的标准指标". BioData Mining. 16 (1): 4. doi:10.1186/s13040-023-00322-4. PMC 9938573. PMID 36800973.
  9. Tharwat A. (August 2018). "分类评估方法". 应用计算与信息学. 17: 168–192. doi:10.1016/j.aci.2018.08.003.
  10. Balayla, Jacques (2020). "筛查曲线几何学中的流行率阈值 (ϕe)". PLOS ONE. 15 (10): e0240215. arXiv:2006.00398. Bibcode:2020PLoSO..1540215B. doi:10.1371/journal.pone.0240215. PMC 7540853. PMID 33027310.
  11. Balayla, Jacques (2020). "流行阈值 (ϕe) 及筛查曲线的几何性质". PLOS ONE. 15 (10): e0240215. doi:10.1371/journal.pone.0240215. PMID 33027310.
  12. Fawcett, Tom (2006). "ROC 分析简介" (PDF). Pattern Recognition Letters. 27 (8): 861–874. doi:10.1016/j.patrec.2005.10.010. S2CID 2027090.
  13. Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "资产管理中数据分析:路面状况指数的成本效益预测". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512. S2CID 213782055.
  14. Powers, David M. W. (2011). "评价:从精确度、召回率和F-度量到ROC、信息度和标记度与相关性". Journal of Machine Learning Technologies. 2 (1): 37–63.
  15. Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). 机器学习百科全书. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  16. Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE 联合预测验证研究工作组". 澳大利亚天气与气候研究合作. 世界气象组织. Retrieved 2019-07-17.
  17. Chicco D, Jurman G (January 2020). "马修斯相关系数 (MCC) 在二元分类评估中优于 F1 分数和准确度的优势". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
  18. Chicco D, Toetsch N, Jurman G (February 2021). "马修斯相关系数 (MCC) 在两类混淆矩阵评估中比平衡精度、博彩信息度和标记度更可靠". BioData Mining. 14 (13): 13pmid = 33541410. doi:10.1186/s13040-021-00244-z. PMC 7863449.
  19. Tharwat A. (August 2018). "分类评估方法". Applied Computing and Informatics. 17: 168–192. doi:10.1016/j.aci.2018.08.003.
  20. Roelleke, Thomas (2022-05-31). Information Retrieval Models: Foundations & Relationships (in English). Springer Nature. ISBN 978-3-031-02328-6.
  21. Powers, David M W (2011). "Evaluation: From Precision, Recall and F-Score to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63. hdl:2328/27165.
  22. Powers, David M. W. (2012). "The Problem with Kappa" (PDF). Conference of the European Chapter of the Association for Computational Linguistics (EACL2012) Joint ROBUS-UNSUP Workshop. Retrieved 2012-07-20. {{cite conference}}: |archive-date= requires |archive-url= (help)CS1 maint: url-status (link)
  23. Perruchet, P.; Peereman, R. (2004). "The exploitation of distributional information in syllable processing". J. Neurolinguistics. 17 (2–3): 97–119. doi:10.1016/S0911-6044(03)00059-9. S2CID 17104364.

外部链接