Zeroclanzhang(讨论 | 贡献) 无编辑摘要 |
Zeroclanzhang(讨论 | 贡献) 无编辑摘要 |
||
第5行: | 第5行: | ||
[[概率分类]]模型不仅提供二元输出,而且为每个类别产生概率分数。这些模型旨在评估实例属于不同类别的可能性或概率。在评估概率分类器的背景下,已经开发出[[概率分类#评估概率分类|替代评估指标]],以正确评估这些模型的性能。这些指标考虑了分类器输出的概率本质,并提供了对其在为不同类别分配准确概率方面有效性的更全面评估。这些评估指标旨在捕捉概率分类器预测的校准度、区分度和整体准确性。 | [[概率分类]]模型不仅提供二元输出,而且为每个类别产生概率分数。这些模型旨在评估实例属于不同类别的可能性或概率。在评估概率分类器的背景下,已经开发出[[概率分类#评估概率分类|替代评估指标]],以正确评估这些模型的性能。这些指标考虑了分类器输出的概率本质,并提供了对其在为不同类别分配准确概率方面有效性的更全面评估。这些评估指标旨在捕捉概率分类器预测的校准度、区分度和整体准确性。 | ||
{| class="wikitable" | {| class="wikitable" style="overflow-x: auto; float: right"; width=40% style="margin-left:0.5em; padding:0.25em; background:#f1f5fc; font-size:100%;" | ||
|+ 术语和从[[confusion matrix]]衍生出的定义<br/> | |+ 术语和从[[confusion matrix]]衍生出的定义<br/> | ||
|- style="vertical-align:top;" | |- style="vertical-align:top;" |
2024年1月26日 (五) 16:23的版本
二元分类器的评估 比较了两种分配二元属性的方法,其中通常一种是标准方法,另一种则是被研究的方法。用于衡量分类器或预测器性能的指标有很多;由于不同领域的目标不同,对特定指标的偏好也不同。例如,在医学中经常使用敏感性和特异性,而在计算机科学中更倾向于使用精确度和召回率。一个重要的区别在于,有些指标与流行度(每个类别在人群中出现的频率)无关,而另一些指标则取决于流行度——这两种类型都很有用,但它们具有非常不同的属性。
概率分类模型不仅提供二元输出,而且为每个类别产生概率分数。这些模型旨在评估实例属于不同类别的可能性或概率。在评估概率分类器的背景下,已经开发出替代评估指标,以正确评估这些模型的性能。这些指标考虑了分类器输出的概率本质,并提供了对其在为不同类别分配准确概率方面有效性的更全面评估。这些评估指标旨在捕捉概率分类器预测的校准度、区分度和整体准确性。
|
来源: Fawcett (2006),[1] Piryonesi 和 El-Diraby (2020),[2] Powers (2011),[3] Ting (2011),[4] CAWCR,[5] D. Chicco & G. Jurman (2020, 2021, 2023),[6][7][8] Tharwat (2018).[9] Balayla (2020)[10]
列联表
给定一个数据集,分类(分类器在该集合上的输出)给出两个数字:正例的数量和负例的数量,这两个数字加起来等于集合的总大小。为了评估分类器,人们将其输出与另一个参考分类进行比较——理想情况下是完美分类,但实际上是另一个金标准测试的输出——并将数据交叉制表成一个2×2的列联表,比较两个分类。然后通过计算这4个数字的汇总统计来评估分类器与金标准的相对性能。通常这些统计数据会是尺度不变的(将所有数字按同一因子缩放不会改变输出),以使它们独立于人口规模,这是通过使用齐次函数比率来实现的,最简单的是齐次线性或齐次二次函数。
假设我们对一些人进行疾病检测。其中一些人患有疾病,而我们的检测正确地表示他们是阳性。他们被称为真阳性(TP)。有些人患有疾病,但测试错误地声称他们没有。他们被称为假阴性(FN)。有些人没有患病,而测试显示他们没有——真阴性(TN)。最后,可能有健康人的检测结果是阳性——假阳性(FP)。这些可以排列成一个2×2的列联表(混淆矩阵),通常将测试结果放在垂直轴,实际情况放在水平轴上。
然后这些数字可以汇总,得出总计和边际总计。汇总整个表格,真阳性、假阴性、真阴性和假阳性的数量加起来占集合的100%。汇总列(纵向相加),真阳性和假阳性的数量加起来占测试阳性的100%,对阴性亦然。汇总行(横向相加),真阳性和假阴性的数量加起来占条件阳性的100%(对阴性亦然)。通过将表格中的2×2=4个值除以边际总计(行或列)来获得基本的边际比率统计,从而得出2个辅助的2×2表格,总共8个比率。这些比率分为4对互补对,每对之和为1,因此每个派生的2×2表格可以用一对2个数字及其互补数进行总结。可以通过取这些比率的比率、比率的比率或更复杂的函数来获得进一步的统计数据。
下面总结了列联表和最常见的派生比率;详情见后续部分。
请注意,行对应于实际情况为阳性或阴性(或被金标准分类为此类),如颜色编码所示,相关统计数据与流行度无关,而列对应于测试为阳性或阴性,相关统计数据取决于流行度。还有类似的预测值的似然比,但这些使用较少,上面未描绘。
预测条件 | 来源: [11][12][13][14][15][16][17][18][19] | ||||
总体人群 = P + N |
预测阳性 (PP) | 预测阴性 (PN) | 信息度, 博彩信息度 (BM) = TPR + TNR − 1 |
患病率阈值 (PT) =[math]=\frac{\sqrt{\mathrm{TPR} \times \mathrm{FPR}}-\mathrm{FPR}}{\mathrm{TPR}-\mathrm{FPR}}[/math] | |
阳性 (P) | 真阳性 (TP), 命中 |
假阴性 (FN), type II error, 错失, 低估 |
真阳性率 (TPR), 召回率, 敏感性 (SEN), 检测概率, 命中率, 功效 = TP/P = 1 − FNR |
假阴性率 (FNR), 错失率 = FN/P = 1 − TPR | |
阴性 (N) | 假阳性 (FP), type I error, 虚警, 高估 |
真阴性 (TN), 正确拒绝 |
假阳性率 (FPR), 虚警概率, 降雨量 = FP/N = 1 − TNR |
[[真阴性率] (TNR), 特异性 (SPC), 选择性 = TN/N = 1 − FPR | |
患病率 = P/P + N |
阳性预测值 (PPV), 精确度 = TP/PP = 1 − FDR |
漏报率 (FOR) = FN/PN = 1 − NPV |
阳性似然比 (LR+) = TPR/FPR |
阴性似然比 (LR−) = FNR/TNR | |
准确度 (ACC) = TP + TN/P + N | 假发现率 (FDR) = FP/PP = 1 − PPV |
阴性预测值 (NPV) = TN/PN = 1 − FOR | 标记度 (MK), deltaP (Δp) = PPV + NPV − 1 |
诊断比值比 (DOR) = LR+/LR− | |
平衡准确度 (BA) = TPR + TNR/2 | F1 分数 = 2 PPV × TPR/PPV + TPR = 2 TP/2 TP + FP + FN |
Fowlkes–Mallows 指数 (FM) = [math](F M)=\sqrt{P P V} \times TPR[/math] | 马修斯相关系数 (MCC) [math]\begin{array}{l}=\sqrt{\mathrm{TPR} \times \mathrm{TNR} \times \mathrm{PPV} \times \mathrm{NPV}} \\ -\sqrt{\mathrm{FNR} \times \mathrm{FPR} \times \mathrm{FOR} \times \mathrm{FDR}}\end{array}[/math] |
威胁分数 (TS), 关键成功指数 (CSI), Jaccard 指数 = TP/TP + FN + FP |
敏感性和特异性
基本的流行度独立统计是敏感性和特异性。
敏感性 或 真阳性率(TPR),也被称为召回率,是测试呈阳性且实际为阳性(真阳性,TP)的人数与实际为阳性的所有人数(条件阳性,CP = TP + FN)的比例。它可以被视为测试呈阳性的情况下患者生病的概率。敏感性越高,实际疾病病例的漏检越少(或者,在工厂质量控制的情况下,较少的次品流入市场)。
特异性(SPC)或真阴性率(TNR)是指被测验为阴性且实际为阴性(真阴性,TN)的人数占实际阴性人数(条件阴性,CN = TN + FP)的比例。与灵敏度一样,它可以被看作是“测试结果为阴性的条件下患者未患病的概率”。特异性越高,标记为病患的健康人越少(或者,在工厂案例中,被丢弃的良品越少)。
灵敏度和特异性之间的关系,以及分类器的性能,可以使用接收者操作特征(ROC)曲线来可视化和研究。
从理论上讲,灵敏度和特异性是独立的,这意味着可以同时实现两者100%(如上面所给的红/蓝球例子)。但在更实际、不那么刻意构造的情况下,通常存在一定程度的权衡,即它们在某种程度上成反比。这是因为我们很少测量我们想要分类的实际事物;相反,我们通常测量一个指标,即我们想要分类的事物的一个代理标记代理标记。在球的例子中可以实现100%是因为红色和蓝色是通过直接检测红色和蓝色来确定的。然而,指标有时会受到妥协,例如当非指标模仿指标,或者当指标是时间依赖的,只有在一定的滞后时间后才变得明显。以下关于怀孕测试的例子将使用这样的指标。
现代怀孕测试不使用怀孕本身来确定怀孕状态;相反,使用人绒毛膜促性腺激素(hCG),它存在于孕妇尿液中,作为指示妇女怀孕的代理标记。因为hCG也可以由肿瘤产生,所以现代怀孕测试的特异性不能达到100%(因为可能出现假阳性)。此外,因为受精和早期胚胎发生后,hCG在尿液中的浓度很低,现代怀孕测试的灵敏度也不能达到100%(因为可能出现假阴性)。
可能性比
This section is empty. You can help by adding to it. (July 2014) |
阳性和阴性预测值
除了灵敏度和特异性之外,二元分类测试的性能还可以用阳性预测值(PPV),也称为精确度,和阴性预测值(NPV)来衡量。阳性预测值回答的问题是“如果测试结果是阳性,那么这个结果预测实际存在疾病的准确性有多高?”。它的计算方式为TP/(TP + FP);即,真阳性在所有阳性结果中的比例。阴性预测值也是如此,但自然是针对阴性。
发病率对预测值的影响
发病率对预测值有显著影响。例如,假设有一个疾病测试,灵敏度和特异性都是99%。如果测试了2000人,样本中的发病率为50%,那么其中1000人患病,1000人健康。因此,大约有990个真阳性和990个真阴性,10个假阳性和10个假阴性。阳性和阴性预测值将为99%,因此可以对结果有高度的信心。
然而,如果发病率仅为5%,那么在2000人中只有100人真正患病,那么预测值就会发生显著变化。可能的结果是99个真阳性,1个假阴性,1881个真阴性和19个假阳性。在19+99个测试阳性的人中,只有99人真正患有该病——这意味着,直观地说,给定一个病人的测试结果为阳性,他们真正患病的几率只有84%。另一方面,给定病人的测试结果为阴性,他们尽管测试结果为阴性却患有该病的概率只有1/1882,或0.05%。
可能性比
This section is empty. You can help by adding to it. (July 2014) |
精确度和召回率
This section is empty. You can help by adding to it. (July 2014) |
精确度和召回率可以解释为(估计的)条件概率: 精确度由[math]P(C=P|\hat{C}=P)[/math]给出,而召回率由[math]P(\hat{C}=P|C=P)[/math]给出,[20]其中[math]\hat{C}[/math]是预测类别,[math]C[/math]是实际类别。 因此,这两个量通过贝叶斯定理相联系。
关系
这些比率之间存在各种关系。
如果已知发病率、灵敏度和特异性,可以从以下等式得出阳性预测值:
- [math] \text{PPV} = \frac{(\text{sensitivity}) (\text{prevalence})}{(\text{sensitivity}) (\text{prevalence}) + (1 - \text{specificity}) (1-\text{prevalence})} [/math]
如果已知发病率、灵敏度和特异性,可以从以下等式得出阴性预测值:
- [math]\text{NPV} = \frac{(\text{specificity}) (1 - \text{prevalence})}{(\text{specificity}) (1 - \text{prevalence}) + (1 - \text{sensitivity}) (\text{prevalence})}. [/math]
单一指标
除了成对指标外,还有单一指标,它提供一个数字来评估测试。
或许最简单的统计量是准确度或正确率(FC),它衡量所有实例中正确分类的比例;即正确分类的数量与正确或错误分类的总数之比:(TP + TN)/总人口 = (TP + TN)/(TP + TN + FP + FN)。因此,它比较了测试前和测试后的概率估计。这个度量与流行度相关。如果90%的有COVID症状的人实际上没有COVID,先验概率P(-)是0.9,简单规则"将所有这样的患者分类为无COVID"的准确度将是90%。诊断应该比这更准确。人们可以构建一个"单比例z-测试",用p0作为最大先验概率 max(priors) = max(P(-),P(+)),以期望通过最可能的结果击败简单规则的诊断方法。这里,假设是"Ho: p ≤ 0.9 vs. Ha: p > 0.9",对于z的大值拒绝Ho。如果另一个诊断规则的准确度已知,并且用于替换p0来计算z统计量,那么可以与之比较。如果不知道且根据数据计算,可以使用"两比例z-测试,合并为Ho: p1 = p2"进行准确度比较测试。没有使用很多的是互补统计量,即错误率(FiC):FC + FiC = 1,或 (FP + FN)/(TP + TN + FP + FN) — 这是对角线之和除以总人口。成本加权的错误率可以比较不同方法的错误分类的预期成本。
诊断比率(DOR)可以是一个更有用的整体度量,它可以直接定义为(TP×TN)/(FP×FN) = (TP/FN)/(FP/TN),或间接定义为比率的比率的比率(可能性比的比率,这些比率本身是真实率或预测值的比率)。这有一个有用的解释——作为一个赔率比——并且与流行度无关。似然比通常被认为与流行度无关,并且容易被解释为将先验概率转换为后验概率的乘数。另一个有用的单一度量是"ROC曲线下的面积", AUC。
替代指标
F-分数是精确度与召回率的结合,提供一个单一分数。存在一个参数为β的统计量单参数家族,决定了精确度和召回率的相对权重。传统的或平衡的F-分数(F1分数)是精确度和召回率的调和平均数:
- [math]F_1 = 2 \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{\mathrm{precision} + \mathrm{recall}} [/math]。
F-分数不考虑真阴性率,因此更适合信息检索和信息提取评估,其中真阴性是数不清的。相反,像菲系数、马修斯相关系数、知情度或科恩的卡帕等度量可能更适合评估二元分类器的性能。[21][22] 作为相关系数,马修斯相关系数是问题及其对偶的回归系数的几何平均数。马修斯相关系数的组成回归系数是标记度(deltap)和知情度(尤登J统计量或deltap')。[23]
另行参见
- Population impact measures
- Attributable risk
- Attributable risk percent
- Scoring rule (for probability predictions)
- Pseudo-R-squared
引用
- ↑ Fawcett, Tom (2006). "ROC 分析简介" (PDF). 模式识别信函. 27 (8): 861–874. Bibcode:2006PaReL..27..861F. doi:10.1016/j.patrec.2005.10.010. S2CID 2027090.
- ↑ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "资产管理中的数据分析:经济高效的道路状况指数预测". 基础设施系统杂志. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512. S2CID 213782055.
- ↑ Powers, David M. W. (2011). "评估:从精确度、召回率和F-度量到ROC、知情度、标记度和相关性". 机器学习技术杂志. 2 (1): 37–63.
- ↑ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). 机器学习百科全书. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
- ↑ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE联合预报验证研究工作组". 澳大利亚天气与气候研究协作. 世界气象组织. Retrieved 2019-07-17.
- ↑ Chicco D.; Jurman G. (January 2020). "Matthews 相关系数 (MCC) 在二元分类评估中比 F1 分数和准确率的优势". BMC 基因组学. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
- ↑ Chicco D.; Toetsch N.; Jurman G. (February 2021). "在两类混淆矩阵评估中,Matthews 相关系数 (MCC) 比平衡准确率、博彩知情度和标记度更可靠". BioData Mining. 14 (13): 13. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.
- ↑ Chicco D.; Jurman G. (2023). "Matthews 相关系数 (MCC) 应取代 ROC AUC 成为评估二元分类的标准指标". BioData Mining. 16 (1): 4. doi:10.1186/s13040-023-00322-4. PMC 9938573. PMID 36800973.
- ↑ Tharwat A. (August 2018). "分类评估方法". 应用计算与信息学. 17: 168–192. doi:10.1016/j.aci.2018.08.003.
- ↑ Balayla, Jacques (2020). "筛查曲线几何学中的流行率阈值 (ϕe)". PLOS ONE. 15 (10): e0240215. arXiv:2006.00398. Bibcode:2020PLoSO..1540215B. doi:10.1371/journal.pone.0240215. PMC 7540853. PMID 33027310.
- ↑ Balayla, Jacques (2020). "流行阈值 (ϕe) 及筛查曲线的几何性质". PLOS ONE. 15 (10): e0240215. doi:10.1371/journal.pone.0240215. PMID 33027310.
- ↑ Fawcett, Tom (2006). "ROC 分析简介" (PDF). Pattern Recognition Letters. 27 (8): 861–874. doi:10.1016/j.patrec.2005.10.010. S2CID 2027090.
- ↑ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "资产管理中数据分析:路面状况指数的成本效益预测". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512. S2CID 213782055.
- ↑ Powers, David M. W. (2011). "评价:从精确度、召回率和F-度量到ROC、信息度和标记度与相关性". Journal of Machine Learning Technologies. 2 (1): 37–63.
- ↑ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). 机器学习百科全书. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
- ↑ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE 联合预测验证研究工作组". 澳大利亚天气与气候研究合作. 世界气象组织. Retrieved 2019-07-17.
- ↑ Chicco D, Jurman G (January 2020). "马修斯相关系数 (MCC) 在二元分类评估中优于 F1 分数和准确度的优势". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
- ↑ Chicco D, Toetsch N, Jurman G (February 2021). "马修斯相关系数 (MCC) 在两类混淆矩阵评估中比平衡精度、博彩信息度和标记度更可靠". BioData Mining. 14 (13): 13pmid = 33541410. doi:10.1186/s13040-021-00244-z. PMC 7863449.
- ↑ Tharwat A. (August 2018). "分类评估方法". Applied Computing and Informatics. 17: 168–192. doi:10.1016/j.aci.2018.08.003.
- ↑ Roelleke, Thomas (2022-05-31). Information Retrieval Models: Foundations & Relationships (in English). Springer Nature. ISBN 978-3-031-02328-6.
- ↑ Powers, David M W (2011). "Evaluation: From Precision, Recall and F-Score to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63. hdl:2328/27165.
- ↑ Powers, David M. W. (2012). "The Problem with Kappa" (PDF). Conference of the European Chapter of the Association for Computational Linguistics (EACL2012) Joint ROBUS-UNSUP Workshop. Retrieved 2012-07-20.
{{cite conference}}
:|archive-date=
requires|archive-url=
(help)CS1 maint: url-status (link) - ↑ Perruchet, P.; Peereman, R. (2004). "The exploitation of distributional information in syllable processing". J. Neurolinguistics. 17 (2–3): 97–119. doi:10.1016/S0911-6044(03)00059-9. S2CID 17104364.