精确率与召回率,RoC曲线与PR曲线

 在机器学习的算法评估中,尤其是分类算法评估中,我们经常听到精确率(precision)与召回率(recall),RoC曲线与PR曲线这些概念,那这些概念到底有什么用处呢?

    首先,我们需要搞清楚几个拗口的概念:

1. TP, FP, TN, FN

    1.   True Positives,TP:预测为正样本,实际也为正样本的特征数
    2.   False Positives,FP:预测为正样本,实际为负样本的特征数
    3.   True Negatives,TN:预测为负样本,实际也为负样本的特征数
    4.   False Negatives,FN:预测为负样本,实际为正样本的特征数

    听起来还是很费劲,不过我们用一张图就很容易理解了。图如下所示,里面绿色的半圆就是TP(True Positives), 红色的半圆就是FP(False Positives), 左边的灰色长方形(不包括绿色半圆),就是FN(False Negatives)。右边的 浅灰色长方形(不包括红色半圆),就是TN(True Negatives)。这个绿色和红色组成的圆内代表我们分类得到模型结果认为是正值的样本。

2. 精确率(precision),召回率(Recall)与特异性(specificity)

    精确率(Precision)的定义在上图可以看出,是绿色半圆除以红色绿色组成的圆。严格的数学定义如下:

    P=TPTP+FPP=TPTP+FP

    召回率(Recall)的定义也在图上能看出,是绿色半圆除以左边的长方形。严格的数学定义如下:
    R=TPTP+FNR=TPTP+FN

    特异性(specificity)的定义图上没有直接写明,这里给出,是红色半圆除以右边的长方形。严格的数学定义如下:

    S=FPFP+TNS=FPFP+TN

    有时也用一个F1值来综合评估精确率和召回率,它是精确率和召回率的调和均值。当精确率和召回率都高时,F1值也会高。严格的数学定义如下:

    2F1=1P+1R2F1=1P+1R

    有时候我们对精确率和召回率并不是一视同仁,比如有时候我们更加重视精确率。我们用一个参数ββ来度量两者之间的关系。如果β>1β>1, 召回率有更大影响,如果β<1β<1,精确率有更大影响。自然,当β=1β=1的时候,精确率和召回率影响力相同,和F1形式一样。含有度量参数ββ的F1我们记为FβFβ, 严格的数学定义如下:

    Fβ=(1+β2)?P?Rβ2?P+RFβ=(1+β2)?P?Rβ2?P+R

    我们熟悉了精确率, 召回率和特异性,后面的RoC曲线和PR曲线就好了解了。

3. RoC曲线和PR曲线

    有了上面精确率, 召回率和特异性的基础,理解RoC曲线和PR曲线就小菜一碟了。

    以召回率为y轴,以特异性为x轴,我们就直接得到了RoC曲线。从召回率和特异性的定义可以理解,召回率越高,特异性越小,我们的模型和算法就越高效。也就是画出来的RoC曲线越靠近左上越好。如下图左图所示。从几何的角度讲,RoC曲线下方的面积越大越大,则模型越优。所以有时候我们用RoC曲线下的面积,即AUC(Area Under Curve)值来作为算法和模型好坏的标准。

    以精确率为y轴,以召回率为x轴,我们就得到了PR曲线。仍然从精确率和召回率的定义可以理解,精确率越高,召回率越高,我们的模型和算法就越高效。也就是画出来的PR曲线越靠近右上越好。如上图右图所示。

    使用RoC曲线和PR曲线,我们就能很方便的评估我们的模型的分类能力的优劣了。

时间: 2025-01-02 18:25:38

精确率与召回率,RoC曲线与PR曲线的相关文章

精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么?

作者:竹间智能 Emotibot链接:https://www.zhihu.com/question/30643044/answer/161955532来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 精确率(Precision)是指在所有系统判定的“真”的样本中,确实是真的的占比,就是TP/(TP+FP). 召回率(Recall)是指在所有确实为真的样本中,被判为的“真”的占比,就是TP/(TP+FN). FPR(False Positive Rate),又被称为“

准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-Measure

yu Code 15 Comments 机器学习(ML),自然语言处理(NLP),信息检索(IR)等领域,评估(Evaluation)是一个必要的 工作,而其评价指标往往有如下几点:准确率(Accuracy),精确率(Precision),召回率(Recall)和F1-Measure.(注: 相对来说,IR 的 ground truth 很多时候是一个 Ordered List, 而不是一个 Bool 类型的 Unordered Collection,在都找到的情况下,排在第三名还是第四名损失并

准确率、精确轨、召回率等

作者:邓小乔链接:https://www.zhihu.com/question/30643044/answer/224360465 正好最近刚做了个项目是关于imbalanced data的,又深入研究了一把各种evaluation metric,在这儿分享一下. 为了方便,以下专业名词都用英文替代了.本人留学狗,脑子不好使容易蹦英文单词,不喜勿喷哈. 准确率 - accuracy 精确率 - precision 召回率 - recall F1值 - F1-score ROC曲线下面积 - RO

一文让你彻底理解准确率,精准率,召回率,真正率,假正率,ROC/AUC

参考资料:https://zhuanlan.zhihu.com/p/46714763 ROC/AUC作为机器学习的评估指标非常重要,也是面试中经常出现的问题(80%都会问到).其实,理解它并不是非常难,但是好多朋友都遇到了一个相同的问题,那就是:每次看书的时候都很明白,但回过头就忘了,经常容易将概念弄混.还有的朋友面试之前背下来了,但是一紧张大脑一片空白全忘了,导致回答的很差. 我在之前的面试过程中也遇到过类似的问题,我的面试经验是:一般笔试题遇到选择题基本都会考这个率,那个率,或者给一个场景让

精确率和召回率

我自己通俗的解释: 查全率=召回率=集合里面一共有多少个A,我们正确识别出多少个A,两个比一下 查准率=精确率=在识别出的结果A集合里面,有多少是真正的A,两个比一下 p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "PingFang SC"; color: #454545 } p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px Helvetica; color: #4545

分类算法-2.精准率和召回率曲线

精准率和召回率是两个不同的评价指标,很多时候它们之间存在着差异,具体在使用的时候如何解读精准率和召回率,应该视具体使用场景而定 有些场景,人们可能更注重精准率,如股票预测系统,我们定义股票升为1,股票降为0,我们更关心的是未来升的股票的比例,而在另外一些场景中,人们更加注重召回率,如癌症预测系统,定义健康为1,患病为0,我们更关心癌症患者检查的遗漏情况. F1 Score F1 Score 兼顾精准率和召回率,它是两者的调和平均值 \[\frac{1}{F1} = \frac{1}{2}(\fr

R语言中绘制ROC曲线和PR曲线

接收器操作特性(ROC)曲线可能是评估评分分类器的预测性能的最常用的度量. 预测正类(+1)和负类(-1)的分类器的混淆矩阵具有以下结构: 预测/参考类 +1 -1 +1 TP FP -1 FN TN 这里,TP表示真阳性的数量(模型正确预测正类),FP表示误报的数量(模型错误地预测正类),FN表示假阴性的数量(模型错误地预测阴性类),TN表示真阴性的数量(模型正确预测阴性类). ROC曲线 在ROC曲线中,相对于假阳性率(FPR,x轴)绘制真阳性率(TPR,y轴).这些数量定义如下: TPRF

ROC曲线 VS PR曲线

sklearn实战-乳腺癌细胞数据挖掘(博客主亲自录制视频教程,QQ:231469242) https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share https://www.plob.org/article/12476.html(原文链接)  初识ROC曲线 1. RO

【ROC曲线】关于ROC曲线、PR曲线对于不平衡样本的不敏感性分析说引发的思考

ROC曲线 在网上有很多地方都有说ROC曲线对于正负样本比例不敏感,即正负样本比例的变化不会改变ROC曲线.但是对于PR曲线就不一样了.PR曲线会随着正负样本比例的变化而变化.但是没有一个有十分具体和严谨地对此做出过分析和论证(至少我没有找到). 此处记为结论1: 结论1:PR曲线会随着正负样本比例的变化而变化:但是ROC曲线不会. 此处我就这一问题进行了详细的分析论证,并在这个过程中引发了很多思考. 首先,如何分析这个问题呢? 看下ROC曲线是由TPR和FPR组成的 下面我们这样来分析这个问题