模型评估：修订间差异

2024年1月25日 (四) 12:34的版本

从混淆矩阵中可以派生出四个基本测量指标。

二元分类器的评估 比较了两种分配二元属性的方法，其中通常一种是标准方法，另一种则是被研究的方法。用于衡量分类器或预测器性能的指标有很多；由于不同领域的目标不同，对特定指标的偏好也不同。例如，在医学中经常使用敏感性和特异性，而在计算机科学中更倾向于使用精确度和召回率。一个重要的区别在于，有些指标与流行度（每个类别在人群中出现的频率）无关，而另一些指标则取决于流行度——这两种类型都很有用，但它们具有非常不同的属性。

概率分类模型不仅提供二元输出，而且为每个类别产生概率分数。这些模型旨在评估实例属于不同类别的可能性或概率。在评估概率分类器的背景下，已经开发出替代评估指标，以正确评估这些模型的性能。这些指标考虑了分类器输出的概率本质，并提供了对其在为不同类别分配准确概率方面有效性的更全面评估。这些评估指标旨在捕捉概率分类器预测的校准度、区分度和整体准确性。

术语和从confusion matrix衍生出的定义
条件阳性 (P)：数据中实际阳性案例的数量条件阴性 (N)：数据中实际阴性案例的数量真阳性 (TP)：一种正确指示出某种条件或特征存在的测试结果真阴性 (TN)：一种正确指示出某种条件或特征不存在的测试结果假阳性 (FP), 第一类错误：一种错误地指示某种条件或特征存在的测试结果假阴性 (FN), 第二类错误：一种错误地指示某种条件或特征不存在的测试结果敏感性, 召回率, hit rate, 或真阳性率 (TPR)：[math]\mathrm{TPR} = \frac {\mathrm{TP}} {\mathrm{P}} = \frac {\mathrm{TP}} {\mathrm{TP}+\mathrm{FN}}= 1 - \mathrm{FNR}[/math] 特异性, 选择性或真阴性率 (TNR)：[math]\mathrm{TNR} = \frac {\mathrm{TN}} {\mathrm{N}} = \frac {\mathrm{TN}} {\mathrm{TN} + \mathrm{FP}} = 1 - \mathrm{FPR}[/math] 精确度或 positive predictive value (PPV)：[math]\mathrm{PPV} = \frac {\mathrm{TP}} {\mathrm{TP} + \mathrm{FP}} = 1 - \mathrm{FDR}[/math] negative predictive value (NPV)：[math]\mathrm{NPV} = \frac {\mathrm{TN}} {\mathrm{TN} + \mathrm{FN}} = 1 - \mathrm{FOR}[/math] 未检出率或假阴性率 (FNR)：[math]\mathrm{FNR} = \frac {\mathrm{FN}} {\mathrm{P}} = \frac {\mathrm{FN}} {\mathrm{FN} + \mathrm{TP}} = 1 - \mathrm{TPR} [/math] 误报率或假阳性率 (FPR)：[math]\mathrm{FPR} = \frac {\mathrm{FP}} {\mathrm{N}} = \frac {\mathrm{FP}} {\mathrm{FP} + \mathrm{TN}} = 1 - \mathrm{TNR}[/math] false discovery rate (FDR)：[math]\mathrm{FDR} = \frac {\mathrm{FP}} {\mathrm{FP} + \mathrm{TP}} = 1 - \mathrm{PPV} [/math] 漏报率 (FOR)：[math]\mathrm{FOR} = \frac {\mathrm{FN}} {\mathrm{FN} + \mathrm{TN}} = 1 - \mathrm{NPV} [/math] Positive likelihood ratio (LR+)：[math]\mathrm{LR+} = \frac {\mathrm{TPR}} {\mathrm{FPR}} [/math] Negative likelihood ratio (LR-)：[math]\mathrm{LR-} = \frac {\mathrm{FNR}} {\mathrm{TNR}} [/math] prevalence threshold (PT)：[math]\mathrm{PT}= \frac{\sqrt{\mathrm{FPR}}}{\sqrt{\mathrm{TPR}} + \sqrt{\mathrm{FPR}}} [/math] 威胁分数 (TS) 或关键成功指数 (CSI)：[math]\mathrm{TS} = \frac{\mathrm{TP}}{\mathrm{TP} + \mathrm{FN} + \mathrm{FP}}[/math] Prevalence：[math] \frac {\mathrm{P}} {\mathrm{P} + \mathrm{N}} [/math] accuracy (ACC)：[math]\mathrm{ACC} = \frac {\mathrm{TP} + \mathrm{TN}} {\mathrm{P} + \mathrm{N}} = \frac {\mathrm{TP} + \mathrm{TN}} {\mathrm{TP} + \mathrm{TN} + \mathrm{FP} + \mathrm{FN}} [/math] 平衡准确度 (BA)：[math]\mathrm{BA} = \frac {\mathrm{TPR} + \mathrm{TNR}}{2} [/math] F1 score：是精确度和敏感性的调和平均：[math]\mathrm{F}_1 = 2 \times \frac {\mathrm{PPV} \times \mathrm{TPR}} {\mathrm{PPV} + \mathrm{TPR}} = \frac {2 \mathrm{TP}} {2 \mathrm{TP} + \mathrm{FP} + \mathrm{FN}}[/math] phi coefficient (φ 或 r_φ) 或 Matthews correlation coefficient (MCC)：[math] \mathrm{MCC} = \frac{ \mathrm{TP} \times \mathrm{TN} - \mathrm{FP} \times \mathrm{FN} } {\sqrt{ (\mathrm{TP}+\mathrm{FP}) ( \mathrm{TP} + \mathrm{FN} ) ( \mathrm{TN} + \mathrm{FP} ) ( \mathrm{TN} + \mathrm{FN} ) } }[/math] Fowlkes–Mallows index (FM)：[math] \mathrm{FM} = \mathrm{\sqrt{\frac {TP}{TP+FP} \times \frac{TP}{TP+FN}} = \sqrt{ PPV \times TPR }}[/math] informedness 或博彩商信息度 (BM)：[math] \mathrm{BM} = \mathrm{TPR} + \mathrm{TNR} - 1[/math] markedness (MK) 或 deltaP (Δp)：[math] \mathrm{MK} = \mathrm{PPV} + \mathrm{NPV} - 1[/math] Diagnostic odds ratio (DOR)：[math] \mathrm{DOR} = \frac {\mathrm{LR+}} {\mathrm{LR-}} [/math]

来源： Fawcett (2006),^[1] Piryonesi 和 El-Diraby (2020),^[2] Powers (2011),^[3] Ting (2011),^[4] CAWCR,^[5] D. Chicco & G. Jurman (2020, 2021, 2023),^[6]^[7]^[8] Tharwat (2018).^[9] Balayla (2020)^[10]

列联表

给定一个数据集，分类（分类器在该集合上的输出）给出两个数字：正例的数量和负例的数量，这两个数字加起来等于集合的总大小。为了评估分类器，人们将其输出与另一个参考分类进行比较——理想情况下是完美分类，但实际上是另一个金标准测试的输出——并将数据交叉制表成一个2×2的列联表，比较两个分类。然后通过计算这4个数字的汇总统计来评估分类器与金标准的相对性能。通常这些统计数据会是尺度不变的（将所有数字按同一因子缩放不会改变输出），以使它们独立于人口规模，这是通过使用齐次函数比率来实现的，最简单的是齐次线性或齐次二次函数。

假设我们对一些人进行疾病检测。其中一些人患有疾病，而我们的检测正确地表示他们是阳性。他们被称为真阳性（TP）。有些人患有疾病，但测试错误地声称他们没有。他们被称为假阴性（FN）。有些人没有患病，而测试显示他们没有——真阴性（TN）。最后，可能有健康人的检测结果是阳性——假阳性（FP）。这些可以排列成一个2×2的列联表（混淆矩阵），通常将测试结果放在垂直轴，实际情况放在水平轴上。

然后这些数字可以汇总，得出总计和边际总计。汇总整个表格，真阳性、假阴性、真阴性和假阳性的数量加起来占集合的100%。汇总列（纵向相加），真阳性和假阳性的数量加起来占测试阳性的100%，对阴性亦然。汇总行（横向相加），真阳性和假阴性的数量加起来占条件阳性的100%（对阴性亦然）。通过将表格中的2×2=4个值除以边际总计（行或列）来获得基本的边际比率统计，从而得出2个辅助的2×2表格，总共8个比率。这些比率分为4对互补对，每对之和为1，因此每个派生的2×2表格可以用一对2个数字及其互补数进行总结。可以通过取这些比率的比率、比率的比率或更复杂的函数来获得进一步的统计数据。

下面总结了列联表和最常见的派生比率；详情见后续部分。

请注意，行对应于实际情况为阳性或阴性（或被金标准分类为此类），如颜色编码所示，相关统计数据与流行度无关，而列对应于测试为阳性或阴性，相关统计数据取决于流行度。还有类似的预测值的似然比，但这些使用较少，上面未描绘。

敏感性和特异性

基本的流行度独立统计是敏感性和特异性。

敏感性 或真阳性率（TPR），也被称为召回率，是测试呈阳性且实际为阳性（真阳性，TP）的人数与实际为阳性的所有人数（条件阳性，CP = TP + FN）的比例。它可以被视为测试呈阳性的情况下患者生病的概率。敏感性越高，实际疾病病例的漏检越少（或者，在工厂质量控制的情况下，较少的次品流入市场）。

特异性（SPC）或真阴性率（TNR）是指被测验为阴性且实际为阴性（真阴性，TN）的人数占实际阴性人数（条件阴性，CN = TN + FP）的比例。与灵敏度一样，它可以被看作是“测试结果为阴性的条件下患者未患病的概率”。特异性越高，标记为病患的健康人越少（或者，在工厂案例中，被丢弃的良品越少）。

灵敏度和特异性之间的关系，以及分类器的性能，可以使用接收者操作特征（ROC）曲线来可视化和研究。

从理论上讲，灵敏度和特异性是独立的，这意味着可以同时实现两者100%（如上面所给的红/蓝球例子）。但在更实际、不那么刻意构造的情况下，通常存在一定程度的权衡，即它们在某种程度上成反比。这是因为我们很少测量我们想要分类的实际事物；相反，我们通常测量一个指标，即我们想要分类的事物的一个代理标记代理标记。在球的例子中可以实现100%是因为红色和蓝色是通过直接检测红色和蓝色来确定的。然而，指标有时会受到妥协，例如当非指标模仿指标，或者当指标是时间依赖的，只有在一定的滞后时间后才变得明显。以下关于怀孕测试的例子将使用这样的指标。

现代怀孕测试不使用怀孕本身来确定怀孕状态；相反，使用人绒毛膜促性腺激素（hCG），它存在于孕妇尿液中，作为指示妇女怀孕的代理标记。因为hCG也可以由肿瘤产生，所以现代怀孕测试的特异性不能达到100%（因为可能出现假阳性）。此外，因为受精和早期胚胎发生后，hCG在尿液中的浓度很低，现代怀孕测试的灵敏度也不能达到100%（因为可能出现假阴性）。

可能性比

阳性和阴性预测值

除了灵敏度和特异性之外，二元分类测试的性能还可以用阳性预测值（PPV），也称为精确度，和阴性预测值（NPV）来衡量。阳性预测值回答的问题是“如果测试结果是阳性，那么这个结果预测实际存在疾病的准确性有多高？”。它的计算方式为TP/(TP + FP)；即，真阳性在所有阳性结果中的比例。阴性预测值也是如此，但自然是针对阴性。

发病率对预测值的影响

发病率对预测值有显著影响。例如，假设有一个疾病测试，灵敏度和特异性都是99%。如果测试了2000人，样本中的发病率为50%，那么其中1000人患病，1000人健康。因此，大约有990个真阳性和990个真阴性，10个假阳性和10个假阴性。阳性和阴性预测值将为99%，因此可以对结果有高度的信心。

然而，如果发病率仅为5%，那么在2000人中只有100人真正患病，那么预测值就会发生显著变化。可能的结果是99个真阳性，1个假阴性，1881个真阴性和19个假阳性。在19+99个测试阳性的人中，只有99人真正患有该病——这意味着，直观地说，给定一个病人的测试结果为阳性，他们真正患病的几率只有84%。另一方面，给定病人的测试结果为阴性，他们尽管测试结果为阴性却患有该病的概率只有1/1882，或0.05%。

可能性比

精确度和召回率

精确度和召回率可以解释为（估计的）条件概率：精确度由[math]P(C=P|\hat{C}=P)[/math]给出，而召回率由[math]P(\hat{C}=P|C=P)[/math]给出，^[11]其中[math]\hat{C}[/math]是预测类别，[math]C[/math]是实际类别。因此，这两个量通过贝叶斯定理相联系。

关系

这些比率之间存在各种关系。

如果已知发病率、灵敏度和特异性，可以从以下等式得出阳性预测值：

[math] \text{PPV} = \frac{(\text{sensitivity}) (\text{prevalence})}{(\text{sensitivity}) (\text{prevalence}) + (1 - \text{specificity}) (1-\text{prevalence})} [/math]

如果已知发病率、灵敏度和特异性，可以从以下等式得出阴性预测值：

[math]\text{NPV} = \frac{(\text{specificity}) (1 - \text{prevalence})}{(\text{specificity}) (1 - \text{prevalence}) + (1 - \text{sensitivity}) (\text{prevalence})}. [/math]

单一指标

除了成对指标外，还有单一指标，它提供一个数字来评估测试。

或许最简单的统计量是准确度或正确率（FC），它衡量所有实例中正确分类的比例；即正确分类的数量与正确或错误分类的总数之比：(TP + TN)/总人口 = (TP + TN)/(TP + TN + FP + FN)。因此，它比较了测试前和测试后的概率估计。这个度量与流行度相关。如果90%的有COVID症状的人实际上没有COVID，先验概率P(-)是0.9，简单规则"将所有这样的患者分类为无COVID"的准确度将是90%。诊断应该比这更准确。人们可以构建一个"单比例z-测试"，用p0作为最大先验概率 max(priors) = max(P(-),P(+))，以期望通过最可能的结果击败简单规则的诊断方法。这里，假设是"Ho: p ≤ 0.9 vs. Ha: p > 0.9"，对于z的大值拒绝Ho。如果另一个诊断规则的准确度已知，并且用于替换p0来计算z统计量，那么可以与之比较。如果不知道且根据数据计算，可以使用"两比例z-测试，合并为Ho: p1 = p2"进行准确度比较测试。没有使用很多的是互补统计量，即错误率（FiC）：FC + FiC = 1，或 (FP + FN)/(TP + TN + FP + FN) — 这是对角线之和除以总人口。成本加权的错误率可以比较不同方法的错误分类的预期成本。

诊断比率（DOR）可以是一个更有用的整体度量，它可以直接定义为(TP×TN)/(FP×FN) = (TP/FN)/(FP/TN)，或间接定义为比率的比率的比率（可能性比的比率，这些比率本身是真实率或预测值的比率）。这有一个有用的解释——作为一个赔率比——并且与流行度无关。似然比通常被认为与流行度无关，并且容易被解释为将先验概率转换为后验概率的乘数。另一个有用的单一度量是"ROC曲线下的面积", AUC。

替代指标

F-分数是精确度与召回率的结合，提供一个单一分数。存在一个参数为β的统计量单参数家族，决定了精确度和召回率的相对权重。传统的或平衡的F-分数（F1分数）是精确度和召回率的调和平均数：

[math]F_1 = 2 \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{\mathrm{precision} + \mathrm{recall}} [/math]。

F-分数不考虑真阴性率，因此更适合信息检索和信息提取评估，其中真阴性是数不清的。相反，像菲系数、马修斯相关系数、知情度或科恩的卡帕等度量可能更适合评估二元分类器的性能。^[12]^[13] 作为相关系数，马修斯相关系数是问题及其对偶的回归系数的几何平均数。马修斯相关系数的组成回归系数是标记度（deltap）和知情度（尤登J统计量或deltap'）。^[14]

另行参见

Population impact measures
Attributable risk
Attributable risk percent
Scoring rule (for probability predictions)
Pseudo-R-squared

引用

↑ Fawcett, Tom (2006). "ROC 分析简介" (PDF). 模式识别信函. 27 (8): 861–874. Bibcode:2006PaReL..27..861F. doi:10.1016/j.patrec.2005.10.010. S2CID 2027090.
↑ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "资产管理中的数据分析：经济高效的道路状况指数预测". 基础设施系统杂志. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512. S2CID 213782055.
↑ Powers, David M. W. (2011). "评估：从精确度、召回率和F-度量到ROC、知情度、标记度和相关性". 机器学习技术杂志. 2 (1): 37–63.
↑ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). 机器学习百科全书. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
↑ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE联合预报验证研究工作组". 澳大利亚天气与气候研究协作. 世界气象组织. Retrieved 2019-07-17.
↑ Chicco D.; Jurman G. (January 2020). "Matthews 相关系数 (MCC) 在二元分类评估中比 F1 分数和准确率的优势". BMC 基因组学. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
↑ Chicco D.; Toetsch N.; Jurman G. (February 2021). "在两类混淆矩阵评估中，Matthews 相关系数 (MCC) 比平衡准确率、博彩知情度和标记度更可靠". BioData Mining. 14 (13): 13. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.
↑ Chicco D.; Jurman G. (2023). "Matthews 相关系数 (MCC) 应取代 ROC AUC 成为评估二元分类的标准指标". BioData Mining. 16 (1): 4. doi:10.1186/s13040-023-00322-4. PMC 9938573. PMID 36800973.
↑ Tharwat A. (August 2018). "分类评估方法". 应用计算与信息学. 17: 168–192. doi:10.1016/j.aci.2018.08.003.
↑ Balayla, Jacques (2020). "筛查曲线几何学中的流行率阈值 (ϕe)". PLOS ONE. 15 (10): e0240215. arXiv:2006.00398. Bibcode:2020PLoSO..1540215B. doi:10.1371/journal.pone.0240215. PMC 7540853. PMID 33027310.
↑ Roelleke, Thomas (2022-05-31). Information Retrieval Models: Foundations & Relationships (in English). Springer Nature. ISBN 978-3-031-02328-6.
↑ Powers, David M W (2011). "Evaluation: From Precision, Recall and F-Score to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63. hdl:2328/27165.
↑ Powers, David M. W. (2012). "The Problem with Kappa" (PDF). Conference of the European Chapter of the Association for Computational Linguistics (EACL2012) Joint ROBUS-UNSUP Workshop. Retrieved 2012-07-20. {{cite conference}}: |archive-date= requires |archive-url= (help)CS1 maint: url-status (link)
↑ Perruchet, P.; Peereman, R. (2004). "The exploitation of distributional information in syllable processing". J. Neurolinguistics. 17 (2–3): 97–119. doi:10.1016/S0911-6044(03)00059-9. S2CID 17104364.

外部链接

Damage Caused by Classification Accuracy and Other Discontinuous Improper Accuracy Scoring Rules

[1] Fawcett, Tom (2006). "ROC 分析简介" (PDF). 模式识别信函. 27 (8): 861–874. Bibcode:2006PaReL..27..861F. doi:10.1016/j.patrec.2005.10.010. S2CID 2027090.

[2] Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "资产管理中的数据分析：经济高效的道路状况指数预测". 基础设施系统杂志. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512. S2CID 213782055.

[3] Powers, David M. W. (2011). "评估：从精确度、召回率和F-度量到ROC、知情度、标记度和相关性". 机器学习技术杂志. 2 (1): 37–63.

[4] Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). 机器学习百科全书. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.

[5] Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE联合预报验证研究工作组". 澳大利亚天气与气候研究协作. 世界气象组织. Retrieved 2019-07-17.

[6] Chicco D.; Jurman G. (January 2020). "Matthews 相关系数 (MCC) 在二元分类评估中比 F1 分数和准确率的优势". BMC 基因组学. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.

[7] Chicco D.; Toetsch N.; Jurman G. (February 2021). "在两类混淆矩阵评估中，Matthews 相关系数 (MCC) 比平衡准确率、博彩知情度和标记度更可靠". BioData Mining. 14 (13): 13. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.

[8] Chicco D.; Jurman G. (2023). "Matthews 相关系数 (MCC) 应取代 ROC AUC 成为评估二元分类的标准指标". BioData Mining. 16 (1): 4. doi:10.1186/s13040-023-00322-4. PMC 9938573. PMID 36800973.

[9] Tharwat A. (August 2018). "分类评估方法". 应用计算与信息学. 17: 168–192. doi:10.1016/j.aci.2018.08.003.

[10] Balayla, Jacques (2020). "筛查曲线几何学中的流行率阈值 (ϕe)". PLOS ONE. 15 (10): e0240215. arXiv:2006.00398. Bibcode:2020PLoSO..1540215B. doi:10.1371/journal.pone.0240215. PMC 7540853. PMID 33027310.

[11] Roelleke, Thomas (2022-05-31). Information Retrieval Models: Foundations & Relationships (in English). Springer Nature. ISBN 978-3-031-02328-6.

[Powers2007-12] Powers, David M W (2011). "Evaluation: From Precision, Recall and F-Score to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63. hdl:2328/27165.

[Powers2012-13] Powers, David M. W. (2012). "The Problem with Kappa" (PDF). Conference of the European Chapter of the Association for Computational Linguistics (EACL2012) Joint ROBUS-UNSUP Workshop. Retrieved 2012-07-20. {{cite conference}}: |archive-date= requires |archive-url= (help)CS1 maint: url-status (link)

[Perruchet2004-14] Perruchet, P.; Peereman, R. (2004). "The exploitation of distributional information in syllable processing". J. Neurolinguistics. 17 (2–3): 97–119. doi:10.1016/S0911-6044(03)00059-9. S2CID 17104364.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

@@ 第1行： / 第1行： @@
-{{Confusion matrix terms}}
 [[Image:binary-classification-labeled.svg|thumb|220px|right|从[[混淆矩阵]]中可以派生出四个基本测量指标。]]
@@ 第5行： / 第4行： @@
 [[概率分类]]模型不仅提供二元输出，而且为每个类别产生概率分数。这些模型旨在评估实例属于不同类别的可能性或概率。在评估概率分类器的背景下，已经开发出[[概率分类#评估概率分类|替代评估指标]]，以正确评估这些模型的性能。这些指标考虑了分类器输出的概率本质，并提供了对其在为不同类别分配准确概率方面有效性的更全面评估。这些评估指标旨在捕捉概率分类器预测的校准度、区分度和整体准确性。
+{| class="wikitable floatright" width=35% style="margin-left:0.5em; padding:0.25em; background:#f1f5fc; font-size:98%;"
+|+ 术语和从[[confusion matrix]]衍生出的定义<br/>
+|- style="vertical-align:top;"
+|
+; 条件阳性 (P)：数据中实际阳性案例的数量
+; 条件阴性 (N)：数据中实际阴性案例的数量
+----
+; 真阳性 (TP)：一种正确指示出某种条件或特征存在的测试结果
+; 真阴性 (TN)：一种正确指示出某种条件或特征不存在的测试结果
+; 假阳性 (FP), 第一类错误：一种错误地指示某种条件或特征存在的测试结果
+; 假阴性 (FN), 第二类错误：一种错误地指示某种条件或特征不存在的测试结果
+----
+; [[sensitivity (test)|敏感性]], [[Precision_and_recall#Recall|召回率]], [[hit rate]], 或 [[sensitivity (test)|真阳性率]] (TPR)：[math]\mathrm{TPR} = \frac {\mathrm{TP}} {\mathrm{P}} = \frac {\mathrm{TP}} {\mathrm{TP}+\mathrm{FN}}= 1 - \mathrm{FNR}[/math]
+; [[Specificity (tests)|特异性]], [[Specificity (tests)|选择性]] 或 [[Specificity (tests)|真阴性率]] (TNR)：[math]\mathrm{TNR} = \frac {\mathrm{TN}} {\mathrm{N}} = \frac {\mathrm{TN}} {\mathrm{TN} + \mathrm{FP}} = 1 - \mathrm{FPR}[/math]
+; [[Precision_and_recall#Precision|精确度]] 或 [[positive predictive value]] (PPV)：[math]\mathrm{PPV} = \frac {\mathrm{TP}} {\mathrm{TP} + \mathrm{FP}} = 1 - \mathrm{FDR}[/math]
+; [[negative predictive value]] (NPV)：[math]\mathrm{NPV} = \frac {\mathrm{TN}} {\mathrm{TN} + \mathrm{FN}} = 1 - \mathrm{FOR}[/math]
+; 未检出率 或 [[Type I and type II errors#False positive and false negative rates|假阴性率]] (FNR)：[math]\mathrm{FNR} = \frac {\mathrm{FN}} {\mathrm{P}} = \frac {\mathrm{FN}} {\mathrm{FN} + \mathrm{TP}} = 1 - \mathrm{TPR} [/math]
+; [[False positive rate|误报率]] 或 [[False positive rate|假阳性率]] (FPR)：[math]\mathrm{FPR} = \frac {\mathrm{FP}} {\mathrm{N}} = \frac {\mathrm{FP}} {\mathrm{FP} + \mathrm{TN}} = 1 - \mathrm{TNR}[/math]
+; [[false discovery rate]] (FDR)：[math]\mathrm{FDR} = \frac {\mathrm{FP}} {\mathrm{FP} + \mathrm{TP}} = 1 - \mathrm{PPV} [/math]
+; [[Positive and negative predictive values|漏报率]] (FOR)：[math]\mathrm{FOR} = \frac {\mathrm{FN}} {\mathrm{FN} + \mathrm{TN}} = 1 - \mathrm{NPV} [/math]
+; [[Positive likelihood ratio]] (LR+)：[math]\mathrm{LR+} = \frac {\mathrm{TPR}} {\mathrm{FPR}} [/math]
+; [[Negative likelihood ratio]] (LR-)：[math]\mathrm{LR-} = \frac {\mathrm{FNR}} {\mathrm{TNR}} [/math]
+; [[prevalence threshold]] (PT)：[math]\mathrm{PT}= \frac{\sqrt{\mathrm{FPR}}}{\sqrt{\mathrm{TPR}} + \sqrt{\mathrm{FPR}}} [/math]
+; 威胁分数 (TS) 或关键成功指数 (CSI)：[math]\mathrm{TS} = \frac{\mathrm{TP}}{\mathrm{TP} + \mathrm{FN} + \mathrm{FP}}[/math]
+----
+; [[Prevalence]]：[math] \frac {\mathrm{P}} {\mathrm{P} + \mathrm{N}} [/math]
+; [[accuracy]] (ACC)：[math]\mathrm{ACC} = \frac {\mathrm{TP} + \mathrm{TN}} {\mathrm{P} + \mathrm{N}} = \frac {\mathrm{TP} + \mathrm{TN}} {\mathrm{TP} + \mathrm{TN} + \mathrm{FP} + \mathrm{FN}} [/math]
+; 平衡准确度 (BA)：[math]\mathrm{BA} = \frac {\mathrm{TPR} + \mathrm{TNR}}{2} [/math]
+; [[F1 score]]：是[[Information retrieval#Precision|精确度]]和[[sensitivity (test)|敏感性]]的[[Harmonic mean#Harmonic mean of two numbers|调和平均]]：[math]\mathrm{F}_1 = 2 \times \frac {\mathrm{PPV} \times \mathrm{TPR}} {\mathrm{PPV} + \mathrm{TPR}} = \frac {2 \mathrm{TP}} {2 \mathrm{TP} + \mathrm{FP} + \mathrm{FN}}[/math]
+; [[phi coefficient]] (φ 或 r<sub>φ</sub>) 或 [[Matthews correlation coefficient]] (MCC)：[math] \mathrm{MCC} = \frac{ \mathrm{TP} \times \mathrm{TN} - \mathrm{FP} \times \mathrm{FN} } {\sqrt{ (\mathrm{TP}+\mathrm{FP}) ( \mathrm{TP} + \mathrm{FN} ) ( \mathrm{TN} + \mathrm{FP} ) ( \mathrm{TN} + \mathrm{FN} ) } }[/math]
+; [[Fowlkes–Mallows index]] (FM)：[math] \mathrm{FM} = \mathrm{\sqrt{\frac {TP}{TP+FP} \times \frac{TP}{TP+FN}} = \sqrt{ PPV \times TPR }}[/math]
+; [[informedness]] 或博彩商信息度 (BM)：[math] \mathrm{BM} = \mathrm{TPR} + \mathrm{TNR} - 1[/math]
+; [[markedness]] (MK) 或 deltaP (Δp)：[math] \mathrm{MK} = \mathrm{PPV} + \mathrm{NPV} - 1[/math]
+; [[Diagnostic odds ratio]] (DOR)：[math] \mathrm{DOR} = \frac {\mathrm{LR+}} {\mathrm{LR-}} [/math]
+|}
+<span style="font-size:90%;">''来源：'' Fawcett (2006),<ref>{{cite journal |last=Fawcett |first=Tom |title=ROC 分析简介 |journal=模式识别信函 |date=2006 |volume=27 |issue=8 |pages=861–874 |doi=10.1016/j.patrec.2005.10.010 |bibcode=2006PaReL..27..861F |s2cid=2027090 |url=http://people.inf.elte.hu/kiss/11dwhdm/roc.pdf}}</ref> Piryonesi 和 El-Diraby (2020),<ref>{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-03-01|title=资产管理中的数据分析：经济高效的道路状况指数预测|journal=基础设施系统杂志|volume=26|issue=1|pages=04019036|doi=10.1061/(ASCE)IS.1943-555X.0000512|s2cid=213782055 }}</ref>
+Powers (2011),<ref>{{cite journal |first=David M. W. |last=Powers |date=2011 |title=评估：从精确度、召回率和F-度量到ROC、知情度、标记度和相关性 |journal=机器学习技术杂志 |volume=2 |issue=1 |pages=37–63 |url=https://www.researchgate.net/publication/228529307}}</ref> Ting (2011),<ref>{{cite book |last=Ting |first=Kai Ming |editor2-first=Geoffrey I. |editor2-last=Webb |editor1-first=Claude |editor1-last=Sammut |title=机器学习百科全书 |date=2011 |publisher=Springer |doi=10.1007/978-0-387-30164-8 |isbn=978-0-387-30164-8 }}</ref> CAWCR,<ref>{{cite web |url=https://www.cawcr.gov.au/projects/verification/ |title=WWRP/WGNE联合预报验证研究工作组 |last1=Brooks |first1=Harold |last2=Brown |first2=Barb |last3=Ebert |first3=Beth |last4=Ferro |first4=Chris |last5=Jolliffe |first5=Ian |last6=Koh |first6=Tieh-Yong |last7=Roebber |first7=Paul |last8=Stephenson |first8=David |date=2015-01-26|website=澳大利亚天气与气候研究协作|publisher=世界气象组织|access-date=2019-07-17}}</ref> {{Nowrap|D. Chicco & G. Jurman (2020, 2021, 2023)}},<ref>{{cite journal |author=Chicco D. |author2=Jurman G. |title = Matthews 相关系数 (MCC) 在二元分类评估中比 F1 分数和准确率的优势 |journal = BMC 基因组学 |volume = 21 |issue = 1 |date = January 2020 |page = 6-1–6-13 |pmid = 31898477 |doi = 10.1186/s12864-019-6413-7 |pmc = 6941312 |doi-access=free }}</ref><ref>{{cite journal |author=Chicco D. |author2=Toetsch N. |author3=Jurman G. |title = 在两类混淆矩阵评估中，Matthews 相关系数 (MCC) 比平衡准确率、博彩知情度和标记度更可靠 |journal = BioData Mining |volume = 14 |issue = 13 |date = February 2021 |page = 13 |pmid = 33541410 | pmc = 7863449 |doi = 10.1186/s13040-021-00244-z |doi-access=free }}</ref><ref>{{cite journal |author = Chicco D. |author2 = Jurman G. | title = Matthews 相关系数 (MCC) 应取代 ROC AUC 成为评估二元分类的标准指标 | journal = BioData Mining | date = 2023 | volume = 16 | issue = 1 |page = 4 | doi = 10.1186/s13040-023-00322-4  |pmid = 36800973 | pmc = 9938573 |doi-access = free}}</ref>  Tharwat (2018).<ref>{{cite journal |author = Tharwat A. |title = 分类评估方法 |journal = 应用计算与信息学 |date = August 2018 |volume = 17 |pages = 168–192 |doi = 10.1016/j.aci.2018.08.003 |doi-access = free }}</ref> Balayla (2020)<ref>{{cite journal |last=Balayla |first=Jacques |title=筛查曲线几何学中的流行率阈值 (ϕe) |journal=PLOS ONE |date=2020 |volume=15 |issue=10 |pages=e0240215 |doi=10.1371/journal.pone.0240215 |pmid=33027310 |pmc=7540853 |arxiv=2006.00398 |bibcode=2020PLoSO..1540215B |doi-access=free }}</ref></span>
 == 列联表 ==