P-R曲线

P-R曲线刻画查准率和查全率之间的关系,查准率指的是在所有预测为正例的数据中,真正例所占的比例,查全率是指预测为真正例的数据占所有正例数据的比例。

即:查准率P=TP/(TP + FP) 查全率=TP/(TP+FN)

查准率和查全率是一对矛盾的度量,一般来说,查准率高时,查全率往往偏低,查全率高时,查准率往往偏低,例如,若希望将好瓜尽可能多选出来,则可通过增加选瓜的数量来实现,如果希望将所有的西瓜都选上,那么所有的好瓜必然都被选上了,但这样查准率就会较低;若希望选出的瓜中好瓜比例尽可能高,则可只挑选最有把握的瓜,但这样就难免会漏掉不少好瓜,使得查全率较低。

在很多情况下,我们可以根据学习器的预测结果对样例进行排序,排在前面的是学习器认为最可能是正例的样本,排在后面的是学习器认为最不可能是正例的样本,按此顺序逐个把样本作为正例进行预测,则每次可计算当前的查全率和查准率,以查准率为y轴,以查全率为x轴,可以画出下面的P-R曲线。

如果一个学习器的P-R曲线被另一个学习器的P-R曲线完全包住,则可断言后者的性能优于前者,例如上面的A和B优于学习器C,但是A和B的性能无法直接判断,但我们往往仍希望把学习器A和学习器B进行一个比较,我们可以根据曲线下方的面积大小来进行比较,但更常用的是平衡点或者是F1值。平衡点(BEP)是查准率=查全率时的取值,如果这个值较大,则说明学习器的性能较好。而F1 = 2 * P * R /( P + R ),同样,F1值越大,我们可以认为该学习器的性能较好。

联合建模(BJ)P-R曲线

原文地址:https://www.cnblogs.com/gczr/p/10137063.html

时间: 2024-12-23 12:57:33

P-R曲线的相关文章

机器学习:评价分类结果(ROC 曲线)

一.基础理解 1)定义 ROC(Receiver Operation Characteristic Curve) 定义:描述 TPR 和 FPR 之间的关系: 功能:应用于比较两个模型的优劣: 模型不限于是否通过极度偏斜的数据训练所得: 比较方式:ROC 曲线与坐标图形边界围成的面积,越大模型越优: TPR(True Positive Rate):真正率:被预测为正的正样本结果数 / 正样本实际数:TPR = TP /(TP + FN): TNR(True Negative Rate):真负率:

用Python开始机器学习(7:逻辑回归分类) --好!!

from : http://blog.csdn.net/lsldd/article/details/41551797 在本系列文章中提到过用Python开始机器学习(3:数据拟合与广义线性回归)中提到过回归算法来进行数值预测.逻辑回归算法本质还是回归,只是其引入了逻辑函数来帮助其分类.实践发现,逻辑回归在文本分类领域表现的也很优秀.现在让我们来一探究竟. 1.逻辑函数 假设数据集有n个独立的特征,x1到xn为样本的n个特征.常规的回归算法的目标是拟合出一个多项式函数,使得预测值与真实值的误差最小

opencv笔记(十七)——使用霍夫变换检测直线

一般我们在检测物体轮廓的时候,会有检测直线的需求,这时可以用到OpenCV当中的霍夫变换实现. 霍夫变换的原理的简单阐述见:http://docs.opencv.org/doc/tutorials/imgproc/imgtrans/hough_lines/hough_lines.html#hough-lines 简单来讲,对于单个像素来说,它可能是由许多直线经过的,我们通过一个点可以构造无数条直线. 对于一个像素的位置(x, y),从笛卡尔坐标和极坐标两个角度,我们可以有      进而得到 上

MATLAB学习笔记(十)——MATLAB图形句柄

(一)图形对象及其句柄 一.图形对象 MATLAB图形对象包括: 1.MATLAB每一个具体图形一定包括计算机屏幕和图形窗口两个对象 二.图形对象句柄 1.定义 MATLAB在创建每一个图形对象时,都会给该对象分配一个唯一确定的值,称其为图形对象句柄. PS:(1)计算机屏幕句柄默认为0. (2)图形窗口对象的句柄值为一正整数,并显示在窗口标题栏中 (3)其他图形对象的句柄为浮点数. 2.获取已有对象的句柄 3.一个demo x=linspace(0,2*pi,30); y=sin(x); h0

磁珠基础知识

一.认识磁珠 磁珠专用于抑制信号线.电源线上的高频噪声和尖峰干扰,还具有吸收静电脉冲的能力.磁珠是用来吸收超高频信号,象一些RF电路,PLL,振荡电路,含超高频存储器电路(DDRSDRAM,RAMBUS等)都需要在电源输入部分加磁珠,而电感是一种蓄能元件,用在LC振荡电路,中低频的滤波电路等,其应用频率范围很少超过50MHZ. 磁珠有很高的电阻率和磁导率,等效于电阻和电感串联,但电阻值和电感值都随频率变化. 磁珠(Ferrite bead)的等效电路是一个DCR电阻串联一个电感并联一个电容和一个

MATLAB图形界面设计(上)

参考https://www.cnblogs.com/BlueMountain-HaggenDazs/p/4307777.html 一.图形句柄 1.定义 MATLAB在创建每一个图形对象时,都会给该对象分配一个唯一确定的值,称其为图形对象句柄. PS:(1)计算机屏幕句柄默认为0. (2)图形窗口对象的句柄值为一正整数,并显示在窗口标题栏中 (3)其他图形对象的句柄为浮点数. 2.获取已有对象的句柄 直接输入该代码结果如下图: (1)gcf: (2)gca: (3)gco: 代码示例: x=li

西瓜书打卡Task6

过拟合与欠拟合及其解决方法 我们在进行模型训练的时候会出现模型不能够很好地拟合数据的情况,这个时候就需要我们来判断究竟现在的模型是欠拟合还是过拟合. 1. 欠拟合 首先欠拟合就是模型没有很好地捕捉到数据特征,不能够很好地拟合数据 training error cross validation error test error 解决方法: 1)添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决.例如,“组合”.“泛化”.“相关性”三类特征是特征添加

R语言ROC曲线下的面积 - 评估逻辑回归中的歧视

原文链接:http://tecdat.cn/?p=6310 在讨论ROC曲线之前,首先让我们在逻辑回归的背景下考虑校准和区分之间的区别. 良好的校准是不够的 对于模型协变量的给定值,我们可以获得预测的概率.如果观察到的风险与预测的风险(概率)相匹配,则称该模型已被很好地校准.也就是说,如果我们要分配一组值的大量观察结果,这些观察结果的比例应该接近20%.如果观察到的比例是80%,我们可能会同意该模型表现不佳 - 这低估了这些观察的风险. 我们是否应满足于使用模型,只要它经过良好校准?不幸的是.为

R语言绘制KS曲线;R语言实现KS曲线

更多内容请关注公众号<大数据风控的一点一滴> 将代码封装在函数PlotKS_N里,Pred_Var是预测结果,可以是评分或概率形式:labels_Var是好坏标签,取值为1或0,1代表坏客户,0代表好客户:descending用于控制数据按违约概率降序排列,如果Pred_Var是评分,则descending=0,如果Pred_Var是概率形式,则descending=1:N表示在将数据按风险降序排列后,等分N份后计算KS值. PlotKS_N函数返回的结果为一列表,列表中的元素依次为KS最大值

R语言中绘制ROC曲线和PR曲线

接收器操作特性(ROC)曲线可能是评估评分分类器的预测性能的最常用的度量. 预测正类(+1)和负类(-1)的分类器的混淆矩阵具有以下结构: 预测/参考类 +1 -1 +1 TP FP -1 FN TN 这里,TP表示真阳性的数量(模型正确预测正类),FP表示误报的数量(模型错误地预测正类),FN表示假阴性的数量(模型错误地预测阴性类),TN表示真阴性的数量(模型正确预测阴性类). ROC曲线 在ROC曲线中,相对于假阳性率(FPR,x轴)绘制真阳性率(TPR,y轴).这些数量定义如下: TPRF