Zeroclanzhang(讨论 | 贡献) (创建页面,内容为“{{Confusion matrix terms}} thumb|220px|right|从[[混淆矩阵中可以派生出四个基本测量指标。]] '''二元分类器的评估''' 比较了两种分配二元属性的方法,其中通常一种是标准方法,另一种则是被研究的方法。用于衡量分类器或预测器性能的指标有很多;由于不同领域的目标不同,对特定指标的偏好也不同。例如,在…”) |
Zeroclanzhang(讨论 | 贡献) 无编辑摘要 |
||
(未显示同一用户的31个中间版本) | |||
第1行: | 第1行: | ||
[[Image:binary-classification-labeled.svg|thumb|220px|right|从[[混淆矩阵]]中可以派生出四个基本测量指标。]] | [[Image:binary-classification-labeled.svg|thumb|220px|right|从[[混淆矩阵]]中可以派生出四个基本测量指标。]] | ||
第5行: | 第4行: | ||
[[概率分类]]模型不仅提供二元输出,而且为每个类别产生概率分数。这些模型旨在评估实例属于不同类别的可能性或概率。在评估概率分类器的背景下,已经开发出[[概率分类#评估概率分类|替代评估指标]],以正确评估这些模型的性能。这些指标考虑了分类器输出的概率本质,并提供了对其在为不同类别分配准确概率方面有效性的更全面评估。这些评估指标旨在捕捉概率分类器预测的校准度、区分度和整体准确性。 | [[概率分类]]模型不仅提供二元输出,而且为每个类别产生概率分数。这些模型旨在评估实例属于不同类别的可能性或概率。在评估概率分类器的背景下,已经开发出[[概率分类#评估概率分类|替代评估指标]],以正确评估这些模型的性能。这些指标考虑了分类器输出的概率本质,并提供了对其在为不同类别分配准确概率方面有效性的更全面评估。这些评估指标旨在捕捉概率分类器预测的校准度、区分度和整体准确性。 | ||
{| class="wikitable" width=40% style="float: right; border: 1px solid #cccccc; line-height: 2.2; margin-left:0.5em; padding:0.25em; background:#f1f5fc; font-size:100%;" | |||
|+ 术语和从[[confusion matrix]]衍生出的定义<br/> | |||
|- style="vertical-align:top;" | |||
| | |||
; 条件阳性 (P):数据中实际阳性案例的数量 | |||
; 条件阴性 (N):数据中实际阴性案例的数量 | |||
---- | |||
; 真阳性 (TP):一种正确指示出某种条件或特征存在的测试结果 | |||
; 真阴性 (TN):一种正确指示出某种条件或特征不存在的测试结果 | |||
; 假阳性 (FP), 第一类错误:一种错误地指示某种条件或特征存在的测试结果 | |||
; 假阴性 (FN), 第二类错误:一种错误地指示某种条件或特征不存在的测试结果 | |||
---- | |||
; [[sensitivity (test)|敏感性]], [[Precision_and_recall#Recall|召回率]], [[hit rate]], 或 [[sensitivity (test)|真阳性率]] (TPR):[math]\mathrm{TPR} = \frac {\mathrm{TP}} {\mathrm{P}} = \frac {\mathrm{TP}} {\mathrm{TP}+\mathrm{FN}}= 1 - \mathrm{FNR}[/math] | |||
; [[Specificity (tests)|特异性]], [[Specificity (tests)|选择性]] 或 [[Specificity (tests)|真阴性率]] (TNR):[math]\mathrm{TNR} = \frac {\mathrm{TN}} {\mathrm{N}} = \frac {\mathrm{TN}} {\mathrm{TN} + \mathrm{FP}} = 1 - \mathrm{FPR}[/math] | |||
; [[Precision_and_recall#Precision|精确度]] 或 [[positive predictive value]] (PPV):[math]\mathrm{PPV} = \frac {\mathrm{TP}} {\mathrm{TP} + \mathrm{FP}} = 1 - \mathrm{FDR}[/math] | |||
; [[negative predictive value]] (NPV):[math]\mathrm{NPV} = \frac {\mathrm{TN}} {\mathrm{TN} + \mathrm{FN}} = 1 - \mathrm{FOR}[/math] | |||
; 未检出率 或 [[Type I and type II errors#False positive and false negative rates|假阴性率]] (FNR):[math]\mathrm{FNR} = \frac {\mathrm{FN}} {\mathrm{P}} = \frac {\mathrm{FN}} {\mathrm{FN} + \mathrm{TP}} = 1 - \mathrm{TPR} [/math] | |||
; [[False positive rate|误报率]] 或 [[False positive rate|假阳性率]] (FPR):[math]\mathrm{FPR} = \frac {\mathrm{FP}} {\mathrm{N}} = \frac {\mathrm{FP}} {\mathrm{FP} + \mathrm{TN}} = 1 - \mathrm{TNR}[/math] | |||
; [[false discovery rate]] (FDR):[math]\mathrm{FDR} = \frac {\mathrm{FP}} {\mathrm{FP} + \mathrm{TP}} = 1 - \mathrm{PPV} [/math] | |||
; [[Positive and negative predictive values|漏报率]] (FOR):[math]\mathrm{FOR} = \frac {\mathrm{FN}} {\mathrm{FN} + \mathrm{TN}} = 1 - \mathrm{NPV} [/math] | |||
; [[Positive likelihood ratio]] (LR+):[math]\mathrm{LR+} = \frac {\mathrm{TPR}} {\mathrm{FPR}} [/math] | |||
; [[Negative likelihood ratio]] (LR-):[math]\mathrm{LR-} = \frac {\mathrm{FNR}} {\mathrm{TNR}} [/math] | |||
; [[prevalence threshold]] (PT):[math]\mathrm{PT}= \frac{\sqrt{\mathrm{FPR}}}{\sqrt{\mathrm{TPR}} + \sqrt{\mathrm{FPR}}} [/math] | |||
; 威胁分数 (TS) 或关键成功指数 (CSI):[math]\mathrm{TS} = \frac{\mathrm{TP}}{\mathrm{TP} + \mathrm{FN} + \mathrm{FP}}[/math] | |||
---- | |||
; [[Prevalence]]:[math] \frac {\mathrm{P}} {\mathrm{P} + \mathrm{N}} [/math] | |||
; [[accuracy]] (ACC):[math]\mathrm{ACC} = \frac {\mathrm{TP} + \mathrm{TN}} {\mathrm{P} + \mathrm{N}} = \frac {\mathrm{TP} + \mathrm{TN}} {\mathrm{TP} + \mathrm{TN} + \mathrm{FP} + \mathrm{FN}} [/math] | |||
; 平衡准确度 (BA):[math]\mathrm{BA} = \frac {\mathrm{TPR} + \mathrm{TNR}}{2} [/math] | |||
; [[F1 score]]:是[[Information retrieval#Precision|精确度]]和[[sensitivity (test)|敏感性]]的[[Harmonic mean#Harmonic mean of two numbers|调和平均]]:[math]\mathrm{F}_1 = 2 \times \frac {\mathrm{PPV} \times \mathrm{TPR}} {\mathrm{PPV} + \mathrm{TPR}} = \frac {2 \mathrm{TP}} {2 \mathrm{TP} + \mathrm{FP} + \mathrm{FN}}[/math] | |||
; [[phi coefficient]] (φ 或 r<sub>φ</sub>) 或 [[Matthews correlation coefficient]] (MCC):[math] \mathrm{MCC} = \frac{ \mathrm{TP} \times \mathrm{TN} - \mathrm{FP} \times \mathrm{FN} } {\sqrt{ (\mathrm{TP}+\mathrm{FP}) ( \mathrm{TP} + \mathrm{FN} ) ( \mathrm{TN} + \mathrm{FP} ) ( \mathrm{TN} + \mathrm{FN} ) } }[/math] | |||
; [[Fowlkes–Mallows index]] (FM):[math] \mathrm{FM} = \mathrm{\sqrt{\frac {TP}{TP+FP} \times \frac{TP}{TP+FN}} = \sqrt{ PPV \times TPR }}[/math] | |||
; [[informedness]] 或博彩商信息度 (BM):[math] \mathrm{BM} = \mathrm{TPR} + \mathrm{TNR} - 1[/math] | |||
; [[markedness]] (MK) 或 deltaP (Δp):[math] \mathrm{MK} = \mathrm{PPV} + \mathrm{NPV} - 1[/math] | |||
; [[Diagnostic odds ratio]] (DOR):[math] \mathrm{DOR} = \frac {\mathrm{LR+}} {\mathrm{LR-}} [/math] | |||
|} | |||
<span style="font-size:90%;">''来源:'' Fawcett (2006),<ref>{{cite journal |last=Fawcett |first=Tom |title=ROC 分析简介 |journal=模式识别信函 |date=2006 |volume=27 |issue=8 |pages=861–874 |doi=10.1016/j.patrec.2005.10.010 |bibcode=2006PaReL..27..861F |s2cid=2027090 |url=http://people.inf.elte.hu/kiss/11dwhdm/roc.pdf}}</ref> Piryonesi 和 El-Diraby (2020),<ref>{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-03-01|title=资产管理中的数据分析:经济高效的道路状况指数预测|journal=基础设施系统杂志|volume=26|issue=1|pages=04019036|doi=10.1061/(ASCE)IS.1943-555X.0000512|s2cid=213782055 }}</ref> | |||
Powers (2011),<ref>{{cite journal |first=David M. W. |last=Powers |date=2011 |title=评估:从精确度、召回率和F-度量到ROC、知情度、标记度和相关性 |journal=机器学习技术杂志 |volume=2 |issue=1 |pages=37–63 |url=https://www.researchgate.net/publication/228529307}}</ref> Ting (2011),<ref>{{cite book |last=Ting |first=Kai Ming |editor2-first=Geoffrey I. |editor2-last=Webb |editor1-first=Claude |editor1-last=Sammut |title=机器学习百科全书 |date=2011 |publisher=Springer |doi=10.1007/978-0-387-30164-8 |isbn=978-0-387-30164-8 }}</ref> CAWCR,<ref>{{cite web |url=https://www.cawcr.gov.au/projects/verification/ |title=WWRP/WGNE联合预报验证研究工作组 |last1=Brooks |first1=Harold |last2=Brown |first2=Barb |last3=Ebert |first3=Beth |last4=Ferro |first4=Chris |last5=Jolliffe |first5=Ian |last6=Koh |first6=Tieh-Yong |last7=Roebber |first7=Paul |last8=Stephenson |first8=David |date=2015-01-26|website=澳大利亚天气与气候研究协作|publisher=世界气象组织|access-date=2019-07-17}}</ref> {{Nowrap|D. Chicco & G. Jurman (2020, 2021, 2023)}},<ref>{{cite journal |author=Chicco D. |author2=Jurman G. |title = Matthews 相关系数 (MCC) 在二元分类评估中比 F1 分数和准确率的优势 |journal = BMC 基因组学 |volume = 21 |issue = 1 |date = January 2020 |page = 6-1–6-13 |pmid = 31898477 |doi = 10.1186/s12864-019-6413-7 |pmc = 6941312 |doi-access=free }}</ref><ref>{{cite journal |author=Chicco D. |author2=Toetsch N. |author3=Jurman G. |title = 在两类混淆矩阵评估中,Matthews 相关系数 (MCC) 比平衡准确率、博彩知情度和标记度更可靠 |journal = BioData Mining |volume = 14 |issue = 13 |date = February 2021 |page = 13 |pmid = 33541410 | pmc = 7863449 |doi = 10.1186/s13040-021-00244-z |doi-access=free }}</ref><ref>{{cite journal |author = Chicco D. |author2 = Jurman G. | title = Matthews 相关系数 (MCC) 应取代 ROC AUC 成为评估二元分类的标准指标 | journal = BioData Mining | date = 2023 | volume = 16 | issue = 1 |page = 4 | doi = 10.1186/s13040-023-00322-4 |pmid = 36800973 | pmc = 9938573 |doi-access = free}}</ref> Tharwat (2018).<ref>{{cite journal |author = Tharwat A. |title = 分类评估方法 |journal = 应用计算与信息学 |date = August 2018 |volume = 17 |pages = 168–192 |doi = 10.1016/j.aci.2018.08.003 |doi-access = free }}</ref> Balayla (2020)<ref>{{cite journal |last=Balayla |first=Jacques |title=筛查曲线几何学中的流行率阈值 (ϕe) |journal=PLOS ONE |date=2020 |volume=15 |issue=10 |pages=e0240215 |doi=10.1371/journal.pone.0240215 |pmid=33027310 |pmc=7540853 |arxiv=2006.00398 |bibcode=2020PLoSO..1540215B |doi-access=free }}</ref></span> | |||
== 列联表 == | == 列联表 == | ||
第17行: | 第55行: | ||
下面总结了列联表和最常见的派生比率;详情见后续部分。 | 下面总结了列联表和最常见的派生比率;详情见后续部分。 | ||
请注意,行对应于''实际情况''为阳性或阴性(或被金标准分类为此类),如颜色编码所示,相关统计数据与流行度无关,而列对应于''测试''为阳性或阴性,相关统计数据取决于流行度。还有类似的预测值的似然比,但这些使用较少,上面未描绘。 | |||
{| class="wikitable" align="center" style="border-style: solid; border-collapse: collapse; background:transparent; text-align:center;" | |||
| " rowspan="2" | | |||
| " | | |||
| style="background:#bbeeee;" colspan="2" | '''预测条件''' | |||
| text-align:right;" colspan="2" | <sup>来源: </sup><ref> | |||
{{cite journal |last=Balayla |first=Jacques |title=流行阈值 (ϕe) 及筛查曲线的几何性质 |journal=PLOS ONE |date=2020 |volume=15 |issue=10 |pages=e0240215 |doi=10.1371/journal.pone.0240215 |pmid=33027310 |doi-access=free }}</ref><ref> | |||
{{cite journal |last=Fawcett |first=Tom |title=ROC 分析简介 |journal=Pattern Recognition Letters |date=2006 |volume=27 |issue=8 |pages=861–874 |doi=10.1016/j.patrec.2005.10.010 |s2cid=2027090 |url=http://people.inf.elte.hu/kiss/11dwhdm/roc.pdf}}</ref><ref> | |||
{{Cite journal|last1=Piryonesi S. Madeh|last2=El-Diraby Tamer E.|date=2020-03-01|title=资产管理中数据分析:路面状况指数的成本效益预测|journal=Journal of Infrastructure Systems|volume=26|issue=1|pages=04019036|doi=10.1061/(ASCE)IS.1943-555X.0000512|s2cid=213782055 }}</ref><ref> | |||
{{cite journal |first=David M. W. |last=Powers |date=2011 |title=评价:从精确度、召回率和F-度量到ROC、信息度和标记度与相关性 |journal=Journal of Machine Learning Technologies |volume=2 |issue=1 |pages=37–63 |url=https://www.researchgate.net/publication/228529307}}</ref><ref> | |||
{{cite book |last=Ting |first=Kai Ming |editor2-first=Geoffrey I. |editor2-last=Webb |editor1-first=Claude |editor1-last=Sammut |title=机器学习百科全书 |date=2011 |publisher=Springer |doi=10.1007/978-0-387-30164-8 |isbn=978-0-387-30164-8 }}</ref><ref> | |||
{{cite web |url=https://www.cawcr.gov.au/projects/verification/ |title=WWRP/WGNE 联合预测验证研究工作组 |last1=Brooks |first1=Harold |last2=Brown |first2=Barb |last3=Ebert |first3=Beth |last4=Ferro |first4=Chris |last5=Jolliffe |first5=Ian |last6=Koh |first6=Tieh-Yong |last7=Roebber |first7=Paul |last8=Stephenson |first8=David |date=2015-01-26|website=澳大利亚天气与气候研究合作|publisher=世界气象组织|access-date=2019-07-17}}</ref><ref> | |||
{{cite journal |vauthors = Chicco D, Jurman G |title = 马修斯相关系数 (MCC) 在二元分类评估中优于 F1 分数和准确度的优势 |journal = BMC Genomics |volume = 21 |issue = 1 |date = January 2020 |page = 6-1–6-13 |pmid = 31898477 |doi = 10.1186/s12864-019-6413-7 |pmc = 6941312 |doi-access = free }}</ref><ref> | |||
{{cite journal |vauthors = Chicco D, Toetsch N, Jurman G |title = 马修斯相关系数 (MCC) 在两类混淆矩阵评估中比平衡精度、博彩信息度和标记度更可靠 |journal = BioData Mining |volume = 14 |issue = 13 |date = February 2021 |page = 13pmid = 33541410 | pmc = 7863449 |doi = 10.1186/s13040-021-00244-z |doi-access = free }}</ref><ref> | |||
{{cite journal |author = Tharwat A. |title = 分类评估方法 |journal = Applied Computing and Informatics |date = August 2018 |volume = 17 |pages = 168–192 |doi = 10.1016/j.aci.2018.08.003 |doi-access = free }}</ref> <sup>{{navbar|Diagnostic testing diagram|plain=y}}</sup> | |||
|- | |||
| style="background:#eeeeee;" | [[Statistical population|总体人群]] <br/><span style="white-space:nowrap;">= P + N</span> | |||
| style="background:#ccffff;" | '''预测阳性 (PP)''' | |||
| style="background:#aadddd;" | '''预测阴性 (PN)''' | |||
| style="border-left:double silver;" | [[Youden's_J_statistic|信息度]], {{small|博彩信息度 (BM)}} <br/><span style="white-space:nowrap;">= TPR + TNR − 1</span> | |||
| [[患病率阈值]] (PT) <br/><span style="white-space:nowrap;">=[math]=\frac{\sqrt{\mathrm{TPR} \times \mathrm{FPR}}-\mathrm{FPR}}{\mathrm{TPR}-\mathrm{FPR}}[/math]</span> | |||
|- | |||
| rowspan="2" {{verth|va=middle|cellstyle=background:#eeeebb;|'''实际条件'''}} | |||
| style="background:#ffffcc;" | '''阳性 (P)''' | |||
| style="background:#ccffcc;" | '''[[真阳性]] (TP), <br />{{small|命中}}''' | |||
| style="background:#ffdddd;" | '''[[假阴性]] (FN), <br/>{{small|[[type II error]], 错失, <br/>低估}}''' | |||
| style="background:#eeffee;" | [[真阳性率]] (TPR), [[recall (information retrieval)|召回率]], [[Sensitivity (tests)|敏感性]] (SEN), {{small|检测概率, 命中率, [[statistical power|功效]]}} <br/><span style="white-space:nowrap;">= {{sfrac|TP|P}}</span> <span style="white-space:nowrap;">= 1 − FNR</span> | |||
| style="background:#ffeeee;" | [[假阴性率]] (FNR), <br/>{{small|错失率}} <br/><span style="white-space:nowrap;">= {{sfrac|FN|P}}</span> <span style="white-space:nowrap;">= 1 − TPR</span> | |||
|- | |||
| style="background:#ddddaa;" | '''阴性 (N)''' | |||
| style="background:#ffcccc;" | '''[[假阳性]] (FP), <br/>{{small|[[type I error]], 虚警, <br/>高估}}''' | |||
| style="background:#bbeebb;" | '''[[真阴性]] (TN), <br />{{small|正确拒绝}}''' | |||
| style="background:#eedddd;" | [[假阳性率]] (FPR), <br/>{{small|虚警概率, [[evaluation measures (information retrieval)#Fall-out|{{nowrap|降雨量}}]]}} <br/><span style="white-space:nowrap;">= {{sfrac|FP|N}}</span> <span style="white-space:nowrap;">= 1 − TNR</span> | |||
| style="background:#ddeedd;"| [[真阴性率] (TNR), <br/>{{small|[[specificity (tests)|特异性]] (SPC), 选择性}} <br/><span style="white-space:nowrap;">= {{sfrac|TN|N}}</span> <span style="white-space:nowrap;">= 1 − FPR</span> | |||
|- | |||
| " rowspan="3"| | |||
| style="border-top:double silver; border-right:double silver;"|[[患病率]] <br/><span style="white-space:nowrap;">= {{sfrac|P|P + N}}</span> | |||
| style="background:#eeffee;" | {{nowrap|[[阳性预测值]] (PPV),}} {{small|[[信息检索中的精确度|精确度]]}} <br/><span style="white-space:nowrap;">= {{sfrac|TP|PP}}</span> <span style="white-space:nowrap;">= 1 − FDR</span> | |||
| style="background:#ffeeee;border-right:double silver;"|[[漏报率]] (FOR) <br/><span style="white-space:nowrap;">= {{sfrac|FN|PN}}</span> <span style="white-space:nowrap;">= 1 − NPV</span> | |||
| style="background:#eeeeff;" | [[阳性似然比]] (LR+) <br/><span style="white-space:nowrap;">= {{sfrac|TPR|FPR}}</span> | |||
| style="background:#eeeeff;" | [[阴性似然比]] (LR−) <br/><span style="white-space:nowrap;">= {{sfrac|FNR|TNR}}</span> | |||
|- | |||
| style="border-right:double silver;"|[[准确度与精确度#在二元分类中|准确度]] (ACC) <span style="white-space:nowrap;">= {{sfrac|TP + TN|P + N}}</span> | |||
| style="background:#eedddd;"|[[假发现率]] (FDR) <br/><span style="white-space:nowrap;">= {{sfrac|FP|PP}}</span> <span style="white-space:nowrap;">= 1 − PPV</span> | |||
| style="background:#ddeedd;"|[[阴性预测值]] (NPV) <span style="white-space:nowrap;">= {{sfrac|TN|PN}}</span> <span style="white-space:nowrap;">= 1 − FOR</span> | |||
| style="border-top:double silver;border-right:double silver;" | [[标记度]] (MK), {{small|deltaP (Δp)}} <br/><span style="white-space:nowrap;">= PPV + NPV − 1</span> | |||
| style="background:#eeeeff;" | [[诊断比值比|诊断{{nowrap|比值比}}]] (DOR) <span style="white-space:nowrap;">= {{sfrac|LR+|LR−}}</span> | |||
|- | |||
| 平衡准确度 (BA) <span style="white-space:nowrap;">= {{sfrac|TPR + TNR|2}}</span> | |||
| style="border-top:double silver;"|[[F1 分数|F<sub>1</sub> 分数]] <br/><span style="white-space:nowrap;">= {{sfrac|2 PPV × TPR|PPV + TPR}}</span> <span white-space:nowrap;">= {{sfrac|2 TP|2 TP + FP + FN}}</span> | |||
| style="border-top:double silver;"|[[Fowlkes–Mallows 指数]] (FM) <span style="white-space:nowrap;">= [math](F M)=\sqrt{P P V} \times TPR[/math]</span> | |||
| style="border-top:double silver;"|[[马修斯相关系数]] (MCC) <br/>[math]\begin{array}{l}=\sqrt{\mathrm{TPR} \times \mathrm{TNR} \times \mathrm{PPV} \times \mathrm{NPV}} \\ -\sqrt{\mathrm{FNR} \times \mathrm{FPR} \times \mathrm{FOR} \times \mathrm{FDR}}\end{array}[/math] | |||
| style="border-top:double silver;" colspan="2"|威胁分数 (TS), 关键成功指数 (CSI), [[Jaccard 指数#在二元分类混淆矩阵中的Jaccard指数|Jaccard 指数]] <span style="white-space:nowrap;">= {{sfrac|TP|TP + FN + FP}}</span> | |||
|} | |||
== 敏感性和特异性 == | == 敏感性和特异性 == |
2024年1月26日 (五) 16:54的最新版本
二元分类器的评估 比较了两种分配二元属性的方法,其中通常一种是标准方法,另一种则是被研究的方法。用于衡量分类器或预测器性能的指标有很多;由于不同领域的目标不同,对特定指标的偏好也不同。例如,在医学中经常使用敏感性和特异性,而在计算机科学中更倾向于使用精确度和召回率。一个重要的区别在于,有些指标与流行度(每个类别在人群中出现的频率)无关,而另一些指标则取决于流行度——这两种类型都很有用,但它们具有非常不同的属性。
概率分类模型不仅提供二元输出,而且为每个类别产生概率分数。这些模型旨在评估实例属于不同类别的可能性或概率。在评估概率分类器的背景下,已经开发出替代评估指标,以正确评估这些模型的性能。这些指标考虑了分类器输出的概率本质,并提供了对其在为不同类别分配准确概率方面有效性的更全面评估。这些评估指标旨在捕捉概率分类器预测的校准度、区分度和整体准确性。
|
来源: Fawcett (2006),[1] Piryonesi 和 El-Diraby (2020),[2] Powers (2011),[3] Ting (2011),[4] CAWCR,[5] D. Chicco & G. Jurman (2020, 2021, 2023),[6][7][8] Tharwat (2018).[9] Balayla (2020)[10]
列联表
给定一个数据集,分类(分类器在该集合上的输出)给出两个数字:正例的数量和负例的数量,这两个数字加起来等于集合的总大小。为了评估分类器,人们将其输出与另一个参考分类进行比较——理想情况下是完美分类,但实际上是另一个金标准测试的输出——并将数据交叉制表成一个2×2的列联表,比较两个分类。然后通过计算这4个数字的汇总统计来评估分类器与金标准的相对性能。通常这些统计数据会是尺度不变的(将所有数字按同一因子缩放不会改变输出),以使它们独立于人口规模,这是通过使用齐次函数比率来实现的,最简单的是齐次线性或齐次二次函数。
假设我们对一些人进行疾病检测。其中一些人患有疾病,而我们的检测正确地表示他们是阳性。他们被称为真阳性(TP)。有些人患有疾病,但测试错误地声称他们没有。他们被称为假阴性(FN)。有些人没有患病,而测试显示他们没有——真阴性(TN)。最后,可能有健康人的检测结果是阳性——假阳性(FP)。这些可以排列成一个2×2的列联表(混淆矩阵),通常将测试结果放在垂直轴,实际情况放在水平轴上。
然后这些数字可以汇总,得出总计和边际总计。汇总整个表格,真阳性、假阴性、真阴性和假阳性的数量加起来占集合的100%。汇总列(纵向相加),真阳性和假阳性的数量加起来占测试阳性的100%,对阴性亦然。汇总行(横向相加),真阳性和假阴性的数量加起来占条件阳性的100%(对阴性亦然)。通过将表格中的2×2=4个值除以边际总计(行或列)来获得基本的边际比率统计,从而得出2个辅助的2×2表格,总共8个比率。这些比率分为4对互补对,每对之和为1,因此每个派生的2×2表格可以用一对2个数字及其互补数进行总结。可以通过取这些比率的比率、比率的比率或更复杂的函数来获得进一步的统计数据。
下面总结了列联表和最常见的派生比率;详情见后续部分。
请注意,行对应于实际情况为阳性或阴性(或被金标准分类为此类),如颜色编码所示,相关统计数据与流行度无关,而列对应于测试为阳性或阴性,相关统计数据取决于流行度。还有类似的预测值的似然比,但这些使用较少,上面未描绘。
预测条件 | 来源: [11][12][13][14][15][16][17][18][19] | ||||
总体人群 = P + N |
预测阳性 (PP) | 预测阴性 (PN) | 信息度, 博彩信息度 (BM) = TPR + TNR − 1 |
患病率阈值 (PT) =[math]=\frac{\sqrt{\mathrm{TPR} \times \mathrm{FPR}}-\mathrm{FPR}}{\mathrm{TPR}-\mathrm{FPR}}[/math] | |
阳性 (P) | 真阳性 (TP), 命中 |
假阴性 (FN), type II error, 错失, 低估 |
真阳性率 (TPR), 召回率, 敏感性 (SEN), 检测概率, 命中率, 功效 = TP/P = 1 − FNR |
假阴性率 (FNR), 错失率 = FN/P = 1 − TPR | |
阴性 (N) | 假阳性 (FP), type I error, 虚警, 高估 |
真阴性 (TN), 正确拒绝 |
假阳性率 (FPR), 虚警概率, 降雨量 = FP/N = 1 − TNR |
[[真阴性率] (TNR), 特异性 (SPC), 选择性 = TN/N = 1 − FPR | |
患病率 = P/P + N |
阳性预测值 (PPV), 精确度 = TP/PP = 1 − FDR |
漏报率 (FOR) = FN/PN = 1 − NPV |
阳性似然比 (LR+) = TPR/FPR |
阴性似然比 (LR−) = FNR/TNR | |
准确度 (ACC) = TP + TN/P + N | 假发现率 (FDR) = FP/PP = 1 − PPV |
阴性预测值 (NPV) = TN/PN = 1 − FOR | 标记度 (MK), deltaP (Δp) = PPV + NPV − 1 |
诊断比值比 (DOR) = LR+/LR− | |
平衡准确度 (BA) = TPR + TNR/2 | F1 分数 = 2 PPV × TPR/PPV + TPR = 2 TP/2 TP + FP + FN |
Fowlkes–Mallows 指数 (FM) = [math](F M)=\sqrt{P P V} \times TPR[/math] | 马修斯相关系数 (MCC) [math]\begin{array}{l}=\sqrt{\mathrm{TPR} \times \mathrm{TNR} \times \mathrm{PPV} \times \mathrm{NPV}} \\ -\sqrt{\mathrm{FNR} \times \mathrm{FPR} \times \mathrm{FOR} \times \mathrm{FDR}}\end{array}[/math] |
威胁分数 (TS), 关键成功指数 (CSI), Jaccard 指数 = TP/TP + FN + FP |
敏感性和特异性
基本的流行度独立统计是敏感性和特异性。
敏感性 或 真阳性率(TPR),也被称为召回率,是测试呈阳性且实际为阳性(真阳性,TP)的人数与实际为阳性的所有人数(条件阳性,CP = TP + FN)的比例。它可以被视为测试呈阳性的情况下患者生病的概率。敏感性越高,实际疾病病例的漏检越少(或者,在工厂质量控制的情况下,较少的次品流入市场)。
特异性(SPC)或真阴性率(TNR)是指被测验为阴性且实际为阴性(真阴性,TN)的人数占实际阴性人数(条件阴性,CN = TN + FP)的比例。与灵敏度一样,它可以被看作是“测试结果为阴性的条件下患者未患病的概率”。特异性越高,标记为病患的健康人越少(或者,在工厂案例中,被丢弃的良品越少)。
灵敏度和特异性之间的关系,以及分类器的性能,可以使用接收者操作特征(ROC)曲线来可视化和研究。
从理论上讲,灵敏度和特异性是独立的,这意味着可以同时实现两者100%(如上面所给的红/蓝球例子)。但在更实际、不那么刻意构造的情况下,通常存在一定程度的权衡,即它们在某种程度上成反比。这是因为我们很少测量我们想要分类的实际事物;相反,我们通常测量一个指标,即我们想要分类的事物的一个代理标记代理标记。在球的例子中可以实现100%是因为红色和蓝色是通过直接检测红色和蓝色来确定的。然而,指标有时会受到妥协,例如当非指标模仿指标,或者当指标是时间依赖的,只有在一定的滞后时间后才变得明显。以下关于怀孕测试的例子将使用这样的指标。
现代怀孕测试不使用怀孕本身来确定怀孕状态;相反,使用人绒毛膜促性腺激素(hCG),它存在于孕妇尿液中,作为指示妇女怀孕的代理标记。因为hCG也可以由肿瘤产生,所以现代怀孕测试的特异性不能达到100%(因为可能出现假阳性)。此外,因为受精和早期胚胎发生后,hCG在尿液中的浓度很低,现代怀孕测试的灵敏度也不能达到100%(因为可能出现假阴性)。
可能性比
This section is empty. You can help by adding to it. (July 2014) |
阳性和阴性预测值
除了灵敏度和特异性之外,二元分类测试的性能还可以用阳性预测值(PPV),也称为精确度,和阴性预测值(NPV)来衡量。阳性预测值回答的问题是“如果测试结果是阳性,那么这个结果预测实际存在疾病的准确性有多高?”。它的计算方式为TP/(TP + FP);即,真阳性在所有阳性结果中的比例。阴性预测值也是如此,但自然是针对阴性。
发病率对预测值的影响
发病率对预测值有显著影响。例如,假设有一个疾病测试,灵敏度和特异性都是99%。如果测试了2000人,样本中的发病率为50%,那么其中1000人患病,1000人健康。因此,大约有990个真阳性和990个真阴性,10个假阳性和10个假阴性。阳性和阴性预测值将为99%,因此可以对结果有高度的信心。
然而,如果发病率仅为5%,那么在2000人中只有100人真正患病,那么预测值就会发生显著变化。可能的结果是99个真阳性,1个假阴性,1881个真阴性和19个假阳性。在19+99个测试阳性的人中,只有99人真正患有该病——这意味着,直观地说,给定一个病人的测试结果为阳性,他们真正患病的几率只有84%。另一方面,给定病人的测试结果为阴性,他们尽管测试结果为阴性却患有该病的概率只有1/1882,或0.05%。
可能性比
This section is empty. You can help by adding to it. (July 2014) |
精确度和召回率
This section is empty. You can help by adding to it. (July 2014) |
精确度和召回率可以解释为(估计的)条件概率: 精确度由[math]P(C=P|\hat{C}=P)[/math]给出,而召回率由[math]P(\hat{C}=P|C=P)[/math]给出,[20]其中[math]\hat{C}[/math]是预测类别,[math]C[/math]是实际类别。 因此,这两个量通过贝叶斯定理相联系。
关系
这些比率之间存在各种关系。
如果已知发病率、灵敏度和特异性,可以从以下等式得出阳性预测值:
- [math] \text{PPV} = \frac{(\text{sensitivity}) (\text{prevalence})}{(\text{sensitivity}) (\text{prevalence}) + (1 - \text{specificity}) (1-\text{prevalence})} [/math]
如果已知发病率、灵敏度和特异性,可以从以下等式得出阴性预测值:
- [math]\text{NPV} = \frac{(\text{specificity}) (1 - \text{prevalence})}{(\text{specificity}) (1 - \text{prevalence}) + (1 - \text{sensitivity}) (\text{prevalence})}. [/math]
单一指标
除了成对指标外,还有单一指标,它提供一个数字来评估测试。
或许最简单的统计量是准确度或正确率(FC),它衡量所有实例中正确分类的比例;即正确分类的数量与正确或错误分类的总数之比:(TP + TN)/总人口 = (TP + TN)/(TP + TN + FP + FN)。因此,它比较了测试前和测试后的概率估计。这个度量与流行度相关。如果90%的有COVID症状的人实际上没有COVID,先验概率P(-)是0.9,简单规则"将所有这样的患者分类为无COVID"的准确度将是90%。诊断应该比这更准确。人们可以构建一个"单比例z-测试",用p0作为最大先验概率 max(priors) = max(P(-),P(+)),以期望通过最可能的结果击败简单规则的诊断方法。这里,假设是"Ho: p ≤ 0.9 vs. Ha: p > 0.9",对于z的大值拒绝Ho。如果另一个诊断规则的准确度已知,并且用于替换p0来计算z统计量,那么可以与之比较。如果不知道且根据数据计算,可以使用"两比例z-测试,合并为Ho: p1 = p2"进行准确度比较测试。没有使用很多的是互补统计量,即错误率(FiC):FC + FiC = 1,或 (FP + FN)/(TP + TN + FP + FN) — 这是对角线之和除以总人口。成本加权的错误率可以比较不同方法的错误分类的预期成本。
诊断比率(DOR)可以是一个更有用的整体度量,它可以直接定义为(TP×TN)/(FP×FN) = (TP/FN)/(FP/TN),或间接定义为比率的比率的比率(可能性比的比率,这些比率本身是真实率或预测值的比率)。这有一个有用的解释——作为一个赔率比——并且与流行度无关。似然比通常被认为与流行度无关,并且容易被解释为将先验概率转换为后验概率的乘数。另一个有用的单一度量是"ROC曲线下的面积", AUC。
替代指标
F-分数是精确度与召回率的结合,提供一个单一分数。存在一个参数为β的统计量单参数家族,决定了精确度和召回率的相对权重。传统的或平衡的F-分数(F1分数)是精确度和召回率的调和平均数:
- [math]F_1 = 2 \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{\mathrm{precision} + \mathrm{recall}} [/math]。
F-分数不考虑真阴性率,因此更适合信息检索和信息提取评估,其中真阴性是数不清的。相反,像菲系数、马修斯相关系数、知情度或科恩的卡帕等度量可能更适合评估二元分类器的性能。[21][22] 作为相关系数,马修斯相关系数是问题及其对偶的回归系数的几何平均数。马修斯相关系数的组成回归系数是标记度(deltap)和知情度(尤登J统计量或deltap')。[23]
另行参见
- Population impact measures
- Attributable risk
- Attributable risk percent
- Scoring rule (for probability predictions)
- Pseudo-R-squared
引用
- ↑ Fawcett, Tom (2006). "ROC 分析简介" (PDF). 模式识别信函. 27 (8): 861–874. Bibcode:2006PaReL..27..861F. doi:10.1016/j.patrec.2005.10.010. S2CID 2027090.
- ↑ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "资产管理中的数据分析:经济高效的道路状况指数预测". 基础设施系统杂志. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512. S2CID 213782055.
- ↑ Powers, David M. W. (2011). "评估:从精确度、召回率和F-度量到ROC、知情度、标记度和相关性". 机器学习技术杂志. 2 (1): 37–63.
- ↑ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). 机器学习百科全书. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
- ↑ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE联合预报验证研究工作组". 澳大利亚天气与气候研究协作. 世界气象组织. Retrieved 2019-07-17.
- ↑ Chicco D.; Jurman G. (January 2020). "Matthews 相关系数 (MCC) 在二元分类评估中比 F1 分数和准确率的优势". BMC 基因组学. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
- ↑ Chicco D.; Toetsch N.; Jurman G. (February 2021). "在两类混淆矩阵评估中,Matthews 相关系数 (MCC) 比平衡准确率、博彩知情度和标记度更可靠". BioData Mining. 14 (13): 13. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.
- ↑ Chicco D.; Jurman G. (2023). "Matthews 相关系数 (MCC) 应取代 ROC AUC 成为评估二元分类的标准指标". BioData Mining. 16 (1): 4. doi:10.1186/s13040-023-00322-4. PMC 9938573. PMID 36800973.
- ↑ Tharwat A. (August 2018). "分类评估方法". 应用计算与信息学. 17: 168–192. doi:10.1016/j.aci.2018.08.003.
- ↑ Balayla, Jacques (2020). "筛查曲线几何学中的流行率阈值 (ϕe)". PLOS ONE. 15 (10): e0240215. arXiv:2006.00398. Bibcode:2020PLoSO..1540215B. doi:10.1371/journal.pone.0240215. PMC 7540853. PMID 33027310.
- ↑ Balayla, Jacques (2020). "流行阈值 (ϕe) 及筛查曲线的几何性质". PLOS ONE. 15 (10): e0240215. doi:10.1371/journal.pone.0240215. PMID 33027310.
- ↑ Fawcett, Tom (2006). "ROC 分析简介" (PDF). Pattern Recognition Letters. 27 (8): 861–874. doi:10.1016/j.patrec.2005.10.010. S2CID 2027090.
- ↑ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "资产管理中数据分析:路面状况指数的成本效益预测". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512. S2CID 213782055.
- ↑ Powers, David M. W. (2011). "评价:从精确度、召回率和F-度量到ROC、信息度和标记度与相关性". Journal of Machine Learning Technologies. 2 (1): 37–63.
- ↑ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). 机器学习百科全书. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
- ↑ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE 联合预测验证研究工作组". 澳大利亚天气与气候研究合作. 世界气象组织. Retrieved 2019-07-17.
- ↑ Chicco D, Jurman G (January 2020). "马修斯相关系数 (MCC) 在二元分类评估中优于 F1 分数和准确度的优势". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
- ↑ Chicco D, Toetsch N, Jurman G (February 2021). "马修斯相关系数 (MCC) 在两类混淆矩阵评估中比平衡精度、博彩信息度和标记度更可靠". BioData Mining. 14 (13): 13pmid = 33541410. doi:10.1186/s13040-021-00244-z. PMC 7863449.
- ↑ Tharwat A. (August 2018). "分类评估方法". Applied Computing and Informatics. 17: 168–192. doi:10.1016/j.aci.2018.08.003.
- ↑ Roelleke, Thomas (2022-05-31). Information Retrieval Models: Foundations & Relationships (in English). Springer Nature. ISBN 978-3-031-02328-6.
- ↑ Powers, David M W (2011). "Evaluation: From Precision, Recall and F-Score to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63. hdl:2328/27165.
- ↑ Powers, David M. W. (2012). "The Problem with Kappa" (PDF). Conference of the European Chapter of the Association for Computational Linguistics (EACL2012) Joint ROBUS-UNSUP Workshop. Retrieved 2012-07-20.
{{cite conference}}
:|archive-date=
requires|archive-url=
(help)CS1 maint: url-status (link) - ↑ Perruchet, P.; Peereman, R. (2004). "The exploitation of distributional information in syllable processing". J. Neurolinguistics. 17 (2–3): 97–119. doi:10.1016/S0911-6044(03)00059-9. S2CID 17104364.