模型评估

从混淆矩阵中可以派生出四个基本测量指标。

二元分类器的评估 比较了两种分配二元属性的方法，其中通常一种是标准方法，另一种则是被研究的方法。用于衡量分类器或预测器性能的指标有很多；由于不同领域的目标不同，对特定指标的偏好也不同。例如，在医学中经常使用敏感性和特异性，而在计算机科学中更倾向于使用精确度和召回率。一个重要的区别在于，有些指标与流行度（每个类别在人群中出现的频率）无关，而另一些指标则取决于流行度——这两种类型都很有用，但它们具有非常不同的属性。

概率分类模型不仅提供二元输出，而且为每个类别产生概率分数。这些模型旨在评估实例属于不同类别的可能性或概率。在评估概率分类器的背景下，已经开发出替代评估指标，以正确评估这些模型的性能。这些指标考虑了分类器输出的概率本质，并提供了对其在为不同类别分配准确概率方面有效性的更全面评估。这些评估指标旨在捕捉概率分类器预测的校准度、区分度和整体准确性。

术语和从confusion matrix衍生出的定义
条件阳性 (P)：数据中实际阳性案例的数量条件阴性 (N)：数据中实际阴性案例的数量真阳性 (TP)：一种正确指示出某种条件或特征存在的测试结果真阴性 (TN)：一种正确指示出某种条件或特征不存在的测试结果假阳性 (FP), 第一类错误：一种错误地指示某种条件或特征存在的测试结果假阴性 (FN), 第二类错误：一种错误地指示某种条件或特征不存在的测试结果敏感性, 召回率, hit rate, 或真阳性率 (TPR)：[math]\mathrm{TPR} = \frac {\mathrm{TP}} {\mathrm{P}} = \frac {\mathrm{TP}} {\mathrm{TP}+\mathrm{FN}}= 1 - \mathrm{FNR}[/math] 特异性, 选择性或真阴性率 (TNR)：[math]\mathrm{TNR} = \frac {\mathrm{TN}} {\mathrm{N}} = \frac {\mathrm{TN}} {\mathrm{TN} + \mathrm{FP}} = 1 - \mathrm{FPR}[/math] 精确度或 positive predictive value (PPV)：[math]\mathrm{PPV} = \frac {\mathrm{TP}} {\mathrm{TP} + \mathrm{FP}} = 1 - \mathrm{FDR}[/math] negative predictive value (NPV)：[math]\mathrm{NPV} = \frac {\mathrm{TN}} {\mathrm{TN} + \mathrm{FN}} = 1 - \mathrm{FOR}[/math] 未检出率或假阴性率 (FNR)：[math]\mathrm{FNR} = \frac {\mathrm{FN}} {\mathrm{P}} = \frac {\mathrm{FN}} {\mathrm{FN} + \mathrm{TP}} = 1 - \mathrm{TPR} [/math] 误报率或假阳性率 (FPR)：[math]\mathrm{FPR} = \frac {\mathrm{FP}} {\mathrm{N}} = \frac {\mathrm{FP}} {\mathrm{FP} + \mathrm{TN}} = 1 - \mathrm{TNR}[/math] false discovery rate (FDR)：[math]\mathrm{FDR} = \frac {\mathrm{FP}} {\mathrm{FP} + \mathrm{TP}} = 1 - \mathrm{PPV} [/math] 漏报率 (FOR)：[math]\mathrm{FOR} = \frac {\mathrm{FN}} {\mathrm{FN} + \mathrm{TN}} = 1 - \mathrm{NPV} [/math] Positive likelihood ratio (LR+)：[math]\mathrm{LR+} = \frac {\mathrm{TPR}} {\mathrm{FPR}} [/math] Negative likelihood ratio (LR-)：[math]\mathrm{LR-} = \frac {\mathrm{FNR}} {\mathrm{TNR}} [/math] prevalence threshold (PT)：[math]\mathrm{PT}= \frac{\sqrt{\mathrm{FPR}}}{\sqrt{\mathrm{TPR}} + \sqrt{\mathrm{FPR}}} [/math] 威胁分数 (TS) 或关键成功指数 (CSI)：[math]\mathrm{TS} = \frac{\mathrm{TP}}{\mathrm{TP} + \mathrm{FN} + \mathrm{FP}}[/math] Prevalence：[math] \frac {\mathrm{P}} {\mathrm{P} + \mathrm{N}} [/math] accuracy (ACC)：[math]\mathrm{ACC} = \frac {\mathrm{TP} + \mathrm{TN}} {\mathrm{P} + \mathrm{N}} = \frac {\mathrm{TP} + \mathrm{TN}} {\mathrm{TP} + \mathrm{TN} + \mathrm{FP} + \mathrm{FN}} [/math] 平衡准确度 (BA)：[math]\mathrm{BA} = \frac {\mathrm{TPR} + \mathrm{TNR}}{2} [/math] F1 score：是精确度和敏感性的调和平均：[math]\mathrm{F}_1 = 2 \times \frac {\mathrm{PPV} \times \mathrm{TPR}} {\mathrm{PPV} + \mathrm{TPR}} = \frac {2 \mathrm{TP}} {2 \mathrm{TP} + \mathrm{FP} + \mathrm{FN}}[/math] phi coefficient (φ 或 r_φ) 或 Matthews correlation coefficient (MCC)：[math] \mathrm{MCC} = \frac{ \mathrm{TP} \times \mathrm{TN} - \mathrm{FP} \times \mathrm{FN} } {\sqrt{ (\mathrm{TP}+\mathrm{FP}) ( \mathrm{TP} + \mathrm{FN} ) ( \mathrm{TN} + \mathrm{FP} ) ( \mathrm{TN} + \mathrm{FN} ) } }[/math] Fowlkes–Mallows index (FM)：[math] \mathrm{FM} = \mathrm{\sqrt{\frac {TP}{TP+FP} \times \frac{TP}{TP+FN}} = \sqrt{ PPV \times TPR }}[/math] informedness 或博彩商信息度 (BM)：[math] \mathrm{BM} = \mathrm{TPR} + \mathrm{TNR} - 1[/math] markedness (MK) 或 deltaP (Δp)：[math] \mathrm{MK} = \mathrm{PPV} + \mathrm{NPV} - 1[/math] Diagnostic odds ratio (DOR)：[math] \mathrm{DOR} = \frac {\mathrm{LR+}} {\mathrm{LR-}} [/math]

来源： Fawcett (2006),^[1] Piryonesi 和 El-Diraby (2020),^[2] Powers (2011),^[3] Ting (2011),^[4] CAWCR,^[5] D. Chicco & G. Jurman (2020, 2021, 2023),^[6]^[7]^[8] Tharwat (2018).^[9] Balayla (2020)^[10]

列联表

给定一个数据集，分类（分类器在该集合上的输出）给出两个数字：正例的数量和负例的数量，这两个数字加起来等于集合的总大小。为了评估分类器，人们将其输出与另一个参考分类进行比较——理想情况下是完美分类，但实际上是另一个金标准测试的输出——并将数据交叉制表成一个2×2的列联表，比较两个分类。然后通过计算这4个数字的汇总统计来评估分类器与金标准的相对性能。通常这些统计数据会是尺度不变的（将所有数字按同一因子缩放不会改变输出），以使它们独立于人口规模，这是通过使用齐次函数比率来实现的，最简单的是齐次线性或齐次二次函数。

假设我们对一些人进行疾病检测。其中一些人患有疾病，而我们的检测正确地表示他们是阳性。他们被称为真阳性（TP）。有些人患有疾病，但测试错误地声称他们没有。他们被称为假阴性（FN）。有些人没有患病，而测试显示他们没有——真阴性（TN）。最后，可能有健康人的检测结果是阳性——假阳性（FP）。这些可以排列成一个2×2的列联表（混淆矩阵），通常将测试结果放在垂直轴，实际情况放在水平轴上。

然后这些数字可以汇总，得出总计和边际总计。汇总整个表格，真阳性、假阴性、真阴性和假阳性的数量加起来占集合的100%。汇总列（纵向相加），真阳性和假阳性的数量加起来占测试阳性的100%，对阴性亦然。汇总行（横向相加），真阳性和假阴性的数量加起来占条件阳性的100%（对阴性亦然）。通过将表格中的2×2=4个值除以边际总计（行或列）来获得基本的边际比率统计，从而得出2个辅助的2×2表格，总共8个比率。这些比率分为4对互补对，每对之和为1，因此每个派生的2×2表格可以用一对2个数字及其互补数进行总结。可以通过取这些比率的比率、比率的比率或更复杂的函数来获得进一步的统计数据。

下面总结了列联表和最常见的派生比率；详情见后续部分。

请注意，行对应于实际情况为阳性或阴性（或被金标准分类为此类），如颜色编码所示，相关统计数据与流行度无关，而列对应于测试为阳性或阴性，相关统计数据取决于流行度。还有类似的预测值的似然比，但这些使用较少，上面未描绘。

		预测条件		^来源:^[11]^[12]^[13]^[14]^[15]^[16]^[17]^[18]^[19] ^{view talk edit}
	总体人群 = P + N	预测阳性 (PP)	预测阴性 (PN)	信息度, 博彩信息度 (BM) = TPR + TNR − 1	患病率阈值 (PT) =[math]=\frac{\sqrt{\mathrm{TPR} \times \mathrm{FPR}}-\mathrm{FPR}}{\mathrm{TPR}-\mathrm{FPR}}[/math]
实际条件	阳性 (P)	真阳性 (TP), 命中	假阴性 (FN), type II error, 错失, 低估	真阳性率 (TPR), 召回率, 敏感性 (SEN), 检测概率, 命中率, 功效 = TP/P = 1 − FNR	假阴性率 (FNR), 错失率 = FN/P = 1 − TPR
实际条件	阴性 (N)	假阳性 (FP), type I error, 虚警, 高估	真阴性 (TN), 正确拒绝	假阳性率 (FPR), 虚警概率, 降雨量 = FP/N = 1 − TNR	[[真阴性率] (TNR), 特异性 (SPC), 选择性 = TN/N = 1 − FPR
	患病率 = P/P + N	阳性预测值 (PPV), 精确度 = TP/PP = 1 − FDR	漏报率 (FOR) = FN/PN = 1 − NPV	阳性似然比 (LR+) = TPR/FPR	阴性似然比 (LR−) = FNR/TNR
	准确度 (ACC) = TP + TN/P + N	假发现率 (FDR) = FP/PP = 1 − PPV	阴性预测值 (NPV) = TN/PN = 1 − FOR	标记度 (MK), deltaP (Δp) = PPV + NPV − 1	诊断比值比 (DOR) = LR+/LR−
	平衡准确度 (BA) = TPR + TNR/2	F₁ 分数 = 2 PPV × TPR/PPV + TPR = 2 TP/2 TP + FP + FN	Fowlkes–Mallows 指数 (FM) = [math](F M)=\sqrt{P P V} \times TPR[/math]	马修斯相关系数 (MCC) [math]\begin{array}{l}=\sqrt{\mathrm{TPR} \times \mathrm{TNR} \times \mathrm{PPV} \times \mathrm{NPV}} \\ -\sqrt{\mathrm{FNR} \times \mathrm{FPR} \times \mathrm{FOR} \times \mathrm{FDR}}\end{array}[/math]	威胁分数 (TS), 关键成功指数 (CSI), Jaccard 指数 = TP/TP + FN + FP

敏感性和特异性

基本的流行度独立统计是敏感性和特异性。

敏感性 或真阳性率（TPR），也被称为召回率，是测试呈阳性且实际为阳性（真阳性，TP）的人数与实际为阳性的所有人数（条件阳性，CP = TP + FN）的比例。它可以被视为测试呈阳性的情况下患者生病的概率。敏感性越高，实际疾病病例的漏检越少（或者，在工厂质量控制的情况下，较少的次品流入市场）。

特异性（SPC）或真阴性率（TNR）是指被测验为阴性且实际为阴性（真阴性，TN）的人数占实际阴性人数（条件阴性，CN = TN + FP）的比例。与灵敏度一样，它可以被看作是“测试结果为阴性的条件下患者未患病的概率”。特异性越高，标记为病患的健康人越少（或者，在工厂案例中，被丢弃的良品越少）。

灵敏度和特异性之间的关系，以及分类器的性能，可以使用接收者操作特征（ROC）曲线来可视化和研究。

从理论上讲，灵敏度和特异性是独立的，这意味着可以同时实现两者100%（如上面所给的红/蓝球例子）。但在更实际、不那么刻意构造的情况下，通常存在一定程度的权衡，即它们在某种程度上成反比。这是因为我们很少测量我们想要分类的实际事物；相反，我们通常测量一个指标，即我们想要分类的事物的一个代理标记代理标记。在球的例子中可以实现100%是因为红色和蓝色是通过直接检测红色和蓝色来确定的。然而，指标有时会受到妥协，例如当非指标模仿指标，或者当指标是时间依赖的，只有在一定的滞后时间后才变得明显。以下关于怀孕测试的例子将使用这样的指标。

现代怀孕测试不使用怀孕本身来确定怀孕状态；相反，使用人绒毛膜促性腺激素（hCG），它存在于孕妇尿液中，作为指示妇女怀孕的代理标记。因为hCG也可以由肿瘤产生，所以现代怀孕测试的特异性不能达到100%（因为可能出现假阳性）。此外，因为受精和早期胚胎发生后，hCG在尿液中的浓度很低，现代怀孕测试的灵敏度也不能达到100%（因为可能出现假阴性）。

可能性比

阳性和阴性预测值

除了灵敏度和特异性之外，二元分类测试的性能还可以用阳性预测值（PPV），也称为精确度，和阴性预测值（NPV）来衡量。阳性预测值回答的问题是“如果测试结果是阳性，那么这个结果预测实际存在疾病的准确性有多高？”。它的计算方式为TP/(TP + FP)；即，真阳性在所有阳性结果中的比例。阴性预测值也是如此，但自然是针对阴性。

发病率对预测值的影响

发病率对预测值有显著影响。例如，假设有一个疾病测试，灵敏度和特异性都是99%。如果测试了2000人，样本中的发病率为50%，那么其中1000人患病，1000人健康。因此，大约有990个真阳性和990个真阴性，10个假阳性和10个假阴性。阳性和阴性预测值将为99%，因此可以对结果有高度的信心。

然而，如果发病率仅为5%，那么在2000人中只有100人真正患病，那么预测值就会发生显著变化。可能的结果是99个真阳性，1个假阴性，1881个真阴性和19个假阳性。在19+99个测试阳性的人中，只有99人真正患有该病——这意味着，直观地说，给定一个病人的测试结果为阳性，他们真正患病的几率只有84%。另一方面，给定病人的测试结果为阴性，他们尽管测试结果为阴性却患有该病的概率只有1/1882，或0.05%。

可能性比

精确度和召回率

精确度和召回率可以解释为（估计的）条件概率：精确度由[math]P(C=P|\hat{C}=P)[/math]给出，而召回率由[math]P(\hat{C}=P|C=P)[/math]给出，^[20]其中[math]\hat{C}[/math]是预测类别，[math]C[/math]是实际类别。因此，这两个量通过贝叶斯定理相联系。

关系

这些比率之间存在各种关系。

如果已知发病率、灵敏度和特异性，可以从以下等式得出阳性预测值：

[math] \text{PPV} = \frac{(\text{sensitivity}) (\text{prevalence})}{(\text{sensitivity}) (\text{prevalence}) + (1 - \text{specificity}) (1-\text{prevalence})} [/math]

如果已知发病率、灵敏度和特异性，可以从以下等式得出阴性预测值：

[math]\text{NPV} = \frac{(\text{specificity}) (1 - \text{prevalence})}{(\text{specificity}) (1 - \text{prevalence}) + (1 - \text{sensitivity}) (\text{prevalence})}. [/math]

单一指标

除了成对指标外，还有单一指标，它提供一个数字来评估测试。

或许最简单的统计量是准确度或正确率（FC），它衡量所有实例中正确分类的比例；即正确分类的数量与正确或错误分类的总数之比：(TP + TN)/总人口 = (TP + TN)/(TP + TN + FP + FN)。因此，它比较了测试前和测试后的概率估计。这个度量与流行度相关。如果90%的有COVID症状的人实际上没有COVID，先验概率P(-)是0.9，简单规则"将所有这样的患者分类为无COVID"的准确度将是90%。诊断应该比这更准确。人们可以构建一个"单比例z-测试"，用p0作为最大先验概率 max(priors) = max(P(-),P(+))，以期望通过最可能的结果击败简单规则的诊断方法。这里，假设是"Ho: p ≤ 0.9 vs. Ha: p > 0.9"，对于z的大值拒绝Ho。如果另一个诊断规则的准确度已知，并且用于替换p0来计算z统计量，那么可以与之比较。如果不知道且根据数据计算，可以使用"两比例z-测试，合并为Ho: p1 = p2"进行准确度比较测试。没有使用很多的是互补统计量，即错误率（FiC）：FC + FiC = 1，或 (FP + FN)/(TP + TN + FP + FN) — 这是对角线之和除以总人口。成本加权的错误率可以比较不同方法的错误分类的预期成本。

诊断比率（DOR）可以是一个更有用的整体度量，它可以直接定义为(TP×TN)/(FP×FN) = (TP/FN)/(FP/TN)，或间接定义为比率的比率的比率（可能性比的比率，这些比率本身是真实率或预测值的比率）。这有一个有用的解释——作为一个赔率比——并且与流行度无关。似然比通常被认为与流行度无关，并且容易被解释为将先验概率转换为后验概率的乘数。另一个有用的单一度量是"ROC曲线下的面积", AUC。

替代指标

F-分数是精确度与召回率的结合，提供一个单一分数。存在一个参数为β的统计量单参数家族，决定了精确度和召回率的相对权重。传统的或平衡的F-分数（F1分数）是精确度和召回率的调和平均数：

[math]F_1 = 2 \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{\mathrm{precision} + \mathrm{recall}} [/math]。

F-分数不考虑真阴性率，因此更适合信息检索和信息提取评估，其中真阴性是数不清的。相反，像菲系数、马修斯相关系数、知情度或科恩的卡帕等度量可能更适合评估二元分类器的性能。^[21]^[22] 作为相关系数，马修斯相关系数是问题及其对偶的回归系数的几何平均数。马修斯相关系数的组成回归系数是标记度（deltap）和知情度（尤登J统计量或deltap'）。^[23]

另行参见

Population impact measures
Attributable risk
Attributable risk percent
Scoring rule (for probability predictions)
Pseudo-R-squared

引用

↑ Fawcett, Tom (2006). "ROC 分析简介" (PDF). 模式识别信函. 27 (8): 861–874. Bibcode:2006PaReL..27..861F. doi:10.1016/j.patrec.2005.10.010. S2CID 2027090.
↑ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "资产管理中的数据分析：经济高效的道路状况指数预测". 基础设施系统杂志. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512. S2CID 213782055.
↑ Powers, David M. W. (2011). "评估：从精确度、召回率和F-度量到ROC、知情度、标记度和相关性". 机器学习技术杂志. 2 (1): 37–63.
↑ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). 机器学习百科全书. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
↑ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE联合预报验证研究工作组". 澳大利亚天气与气候研究协作. 世界气象组织. Retrieved 2019-07-17.
↑ Chicco D.; Jurman G. (January 2020). "Matthews 相关系数 (MCC) 在二元分类评估中比 F1 分数和准确率的优势". BMC 基因组学. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
↑ Chicco D.; Toetsch N.; Jurman G. (February 2021). "在两类混淆矩阵评估中，Matthews 相关系数 (MCC) 比平衡准确率、博彩知情度和标记度更可靠". BioData Mining. 14 (13): 13. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.
↑ Chicco D.; Jurman G. (2023). "Matthews 相关系数 (MCC) 应取代 ROC AUC 成为评估二元分类的标准指标". BioData Mining. 16 (1): 4. doi:10.1186/s13040-023-00322-4. PMC 9938573. PMID 36800973.
↑ Tharwat A. (August 2018). "分类评估方法". 应用计算与信息学. 17: 168–192. doi:10.1016/j.aci.2018.08.003.
↑ Balayla, Jacques (2020). "筛查曲线几何学中的流行率阈值 (ϕe)". PLOS ONE. 15 (10): e0240215. arXiv:2006.00398. Bibcode:2020PLoSO..1540215B. doi:10.1371/journal.pone.0240215. PMC 7540853. PMID 33027310.
↑ Balayla, Jacques (2020). "流行阈值 (ϕe) 及筛查曲线的几何性质". PLOS ONE. 15 (10): e0240215. doi:10.1371/journal.pone.0240215. PMID 33027310.
↑ Fawcett, Tom (2006). "ROC 分析简介" (PDF). Pattern Recognition Letters. 27 (8): 861–874. doi:10.1016/j.patrec.2005.10.010. S2CID 2027090.
↑ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "资产管理中数据分析：路面状况指数的成本效益预测". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512. S2CID 213782055.
↑ Powers, David M. W. (2011). "评价：从精确度、召回率和F-度量到ROC、信息度和标记度与相关性". Journal of Machine Learning Technologies. 2 (1): 37–63.
↑ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). 机器学习百科全书. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
↑ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE 联合预测验证研究工作组". 澳大利亚天气与气候研究合作. 世界气象组织. Retrieved 2019-07-17.
↑ Chicco D, Jurman G (January 2020). "马修斯相关系数 (MCC) 在二元分类评估中优于 F1 分数和准确度的优势". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
↑ Chicco D, Toetsch N, Jurman G (February 2021). "马修斯相关系数 (MCC) 在两类混淆矩阵评估中比平衡精度、博彩信息度和标记度更可靠". BioData Mining. 14 (13): 13pmid = 33541410. doi:10.1186/s13040-021-00244-z. PMC 7863449.
↑ Tharwat A. (August 2018). "分类评估方法". Applied Computing and Informatics. 17: 168–192. doi:10.1016/j.aci.2018.08.003.
↑ Roelleke, Thomas (2022-05-31). Information Retrieval Models: Foundations & Relationships (in English). Springer Nature. ISBN 978-3-031-02328-6.
↑ Powers, David M W (2011). "Evaluation: From Precision, Recall and F-Score to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63. hdl:2328/27165.
↑ Powers, David M. W. (2012). "The Problem with Kappa" (PDF). Conference of the European Chapter of the Association for Computational Linguistics (EACL2012) Joint ROBUS-UNSUP Workshop. Retrieved 2012-07-20. {{cite conference}}: |archive-date= requires |archive-url= (help)CS1 maint: url-status (link)
↑ Perruchet, P.; Peereman, R. (2004). "The exploitation of distributional information in syllable processing". J. Neurolinguistics. 17 (2–3): 97–119. doi:10.1016/S0911-6044(03)00059-9. S2CID 17104364.

外部链接

Damage Caused by Classification Accuracy and Other Discontinuous Improper Accuracy Scoring Rules

[1] Fawcett, Tom (2006). "ROC 分析简介" (PDF). 模式识别信函. 27 (8): 861–874. Bibcode:2006PaReL..27..861F. doi:10.1016/j.patrec.2005.10.010. S2CID 2027090.

[2] Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "资产管理中的数据分析：经济高效的道路状况指数预测". 基础设施系统杂志. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512. S2CID 213782055.

[3] Powers, David M. W. (2011). "评估：从精确度、召回率和F-度量到ROC、知情度、标记度和相关性". 机器学习技术杂志. 2 (1): 37–63.

[4] Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). 机器学习百科全书. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.

[5] Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE联合预报验证研究工作组". 澳大利亚天气与气候研究协作. 世界气象组织. Retrieved 2019-07-17.

[6] Chicco D.; Jurman G. (January 2020). "Matthews 相关系数 (MCC) 在二元分类评估中比 F1 分数和准确率的优势". BMC 基因组学. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.

[7] Chicco D.; Toetsch N.; Jurman G. (February 2021). "在两类混淆矩阵评估中，Matthews 相关系数 (MCC) 比平衡准确率、博彩知情度和标记度更可靠". BioData Mining. 14 (13): 13. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.

[8] Chicco D.; Jurman G. (2023). "Matthews 相关系数 (MCC) 应取代 ROC AUC 成为评估二元分类的标准指标". BioData Mining. 16 (1): 4. doi:10.1186/s13040-023-00322-4. PMC 9938573. PMID 36800973.

[9] Tharwat A. (August 2018). "分类评估方法". 应用计算与信息学. 17: 168–192. doi:10.1016/j.aci.2018.08.003.

[10] Balayla, Jacques (2020). "筛查曲线几何学中的流行率阈值 (ϕe)". PLOS ONE. 15 (10): e0240215. arXiv:2006.00398. Bibcode:2020PLoSO..1540215B. doi:10.1371/journal.pone.0240215. PMC 7540853. PMID 33027310.

[11] Balayla, Jacques (2020). "流行阈值 (ϕe) 及筛查曲线的几何性质". PLOS ONE. 15 (10): e0240215. doi:10.1371/journal.pone.0240215. PMID 33027310.

[12] Fawcett, Tom (2006). "ROC 分析简介" (PDF). Pattern Recognition Letters. 27 (8): 861–874. doi:10.1016/j.patrec.2005.10.010. S2CID 2027090.

[13] Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "资产管理中数据分析：路面状况指数的成本效益预测". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512. S2CID 213782055.

[14] Powers, David M. W. (2011). "评价：从精确度、召回率和F-度量到ROC、信息度和标记度与相关性". Journal of Machine Learning Technologies. 2 (1): 37–63.

[15] Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). 机器学习百科全书. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.

[16] Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE 联合预测验证研究工作组". 澳大利亚天气与气候研究合作. 世界气象组织. Retrieved 2019-07-17.

[17] Chicco D, Jurman G (January 2020). "马修斯相关系数 (MCC) 在二元分类评估中优于 F1 分数和准确度的优势". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.

[18] Chicco D, Toetsch N, Jurman G (February 2021). "马修斯相关系数 (MCC) 在两类混淆矩阵评估中比平衡精度、博彩信息度和标记度更可靠". BioData Mining. 14 (13): 13pmid = 33541410. doi:10.1186/s13040-021-00244-z. PMC 7863449.

[19] Tharwat A. (August 2018). "分类评估方法". Applied Computing and Informatics. 17: 168–192. doi:10.1016/j.aci.2018.08.003.

[20] Roelleke, Thomas (2022-05-31). Information Retrieval Models: Foundations & Relationships (in English). Springer Nature. ISBN 978-3-031-02328-6.

[Powers2007-21] Powers, David M W (2011). "Evaluation: From Precision, Recall and F-Score to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63. hdl:2328/27165.

[Powers2012-22] Powers, David M. W. (2012). "The Problem with Kappa" (PDF). Conference of the European Chapter of the Association for Computational Linguistics (EACL2012) Joint ROBUS-UNSUP Workshop. Retrieved 2012-07-20. {{cite conference}}: |archive-date= requires |archive-url= (help)CS1 maint: url-status (link)

[Perruchet2004-23] Perruchet, P.; Peereman, R. (2004). "The exploitation of distributional information in syllable processing". J. Neurolinguistics. 17 (2–3): 97–119. doi:10.1016/S0911-6044(03)00059-9. S2CID 17104364.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]