机器学习之roc曲线

机器学习之ROC曲线

roc曲线全称受试者工作曲线,ROC曲线下面积就是AUC(Area under the curve),AUC用来衡量二分类机器学习算法的性能,即泛化能力

这里有几个概念,真阳性率,假阳性率,真阴性率,假阴性率,这四个率的产生是一个相对指标,即有一个参考标准,比如一个检测方法的金标准,

我用另一种方法检测,如下图所示

真(预测值) 假(预测值)
真(金标准) 20 5
假(金标准) 3 15

这个表里面我们分别来计算真阳性率和假阳性率(注意:所谓的真阳性率和假阳性率都是依据金标准来评判的

比如真阳性率=实际预测并且正确的阳性数/真正的阳性数

=TP/(TP+FN)

=20/(20+5)

假阳性率=实际为假但是被预测为真/(实际为假但是被预测为真+真正为假并且预测为假的数)

=FP/(FP+TN)

=3/(3+15)

其中,真阳性率又叫做敏感度,真阴性率又叫特异性

所以有时候假阳性率也可以=1-真阴性率=1-特异度

总之,这里面的一切真阳性假阳性真阴性假阴性都是依据金标准来的

根据不同标准来得到不同的真阳性率,假阳性率的值,然后以假阳性率和真阳性率为横纵坐标做点,连接成折线图,就是ROC曲线

原文地址:https://www.cnblogs.com/missed-forest/p/9795221.html

时间: 2024-07-29 16:16:07

机器学习之roc曲线的相关文章

scikit-learn机器学习(二)逻辑回归进行二分类(垃圾邮件分类),二分类性能指标,画ROC曲线,计算acc,recall,presicion,f1

数据来自UCI机器学习仓库中的垃圾信息数据集 数据可从http://archive.ics.uci.edu/ml/datasets/sms+spam+collection下载 转成csv载入数据 import matplotlib matplotlib.rcParams['font.sans-serif']=[u'simHei'] matplotlib.rcParams['axes.unicode_minus']=False import pandas as pd import numpy as

机器学习之分类器性能指标之ROC曲线、AUC值

分类器性能指标之ROC曲线.AUC值 一 roc曲线 1.roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性. 横轴:负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例:(1-Specificity) 纵轴:真正类率(true postive rate TPR)灵敏度,Sensitivity(正类覆盖率) 2针对一个二分类问题,将实例分成正类(postive

【机器学习】--模型评估指标之混淆矩阵,ROC曲线和AUC面积

一.前述 怎么样对训练出来的模型进行评估是有一定指标的,本文就相关指标做一个总结. 二.具体 1.混淆矩阵 混淆矩阵如图: 相关公式: 公式解释: fp_rate: tp_rate: recall:(召回率) 值越大越好 presssion:(准确率) TP:本来是正例,通过模型预测出来是正列 TP+FP:通过模型预测出来的所有正列数(其中包括本来是负例,但预测出来是正列) 值越大越好 2.ROC曲线 过程:对第一个样例,预测对,阈值是0.9,所以曲线向上走,以此类推. 对第三个样例,预测错,阈

机器学习:评价分类结果(ROC 曲线)

一.基础理解 1)定义 ROC(Receiver Operation Characteristic Curve) 定义:描述 TPR 和 FPR 之间的关系: 功能:应用于比较两个模型的优劣: 模型不限于是否通过极度偏斜的数据训练所得: 比较方式:ROC 曲线与坐标图形边界围成的面积,越大模型越优: TPR(True Positive Rate):真正率:被预测为正的正样本结果数 / 正样本实际数:TPR = TP /(TP + FN): TNR(True Negative Rate):真负率:

精确率与召回率,RoC曲线与PR曲线

在机器学习的算法评估中,尤其是分类算法评估中,我们经常听到精确率(precision)与召回率(recall),RoC曲线与PR曲线这些概念,那这些概念到底有什么用处呢? 首先,我们需要搞清楚几个拗口的概念: 1. TP, FP, TN, FN True Positives,TP:预测为正样本,实际也为正样本的特征数 False Positives,FP:预测为正样本,实际为负样本的特征数 True Negatives,TN:预测为负样本,实际也为负样本的特征数 False Negatives,

从TP、FP、TN、FN到ROC曲线、miss rate、行人检测评估

想要在行人检测的evaluation阶段要计算miss rate,就要从True Positive Rate讲起:miss rate = 1 - true positive rate true positive rate毕竟是一个rate,是一个比值.是谁和谁比呢?P 要从TP.FP.TN.FN讲起. 考虑一个二分类问题:一个item,它实际值有0.1两种取值,即负例.正例:而二分类算法预测出来的结果,也只有0.1两种取值,即负例.正例.我们不考虑二分类算法细节,当作黑箱子就好:我们关心的是,预

[zz] ROC曲线

wiki https://zh.wikipedia.org/wiki/ROC%E6%9B%B2%E7%BA%BF 在信号检测理论中,接收者操作特征曲线(receiver operating characteristic curve,或者叫ROC曲线)是一种座标图式的分析工具,用于 (1) 选择最佳的信号侦测模型.舍弃次佳的模型. (2) 在同一模型中设定最佳阈值. 在做决策时,ROC分析能不受成本/效益的影响,给出客观中立的建议. ROC曲线首先是由二战中的电子工程师和雷达工程师发明的,用来侦测

混淆矩阵、准确率、精确率/查准率、召回率/查全率、F1值、ROC曲线的AUC值

准确率.精确率(查准率).召回率(查全率).F1值.ROC曲线的AUC值,都可以作为评价一个机器学习模型好坏的指标(evaluation metrics),而这些评价指标直接或间接都与混淆矩阵有关,前四者可以从混淆矩阵中直接计算得到,AUC值则要通过ROC曲线进行计算,而ROC曲线的横纵坐标又和混淆矩阵联系密切,所以在了解这些评价指标之前,先知道什么是混淆矩阵很有必要,也方便记忆. 1.混淆矩阵 对于一个二分类问题,我们可以得到如表 1所示的的混淆矩阵(confusion matrix): 表

ROC曲线与AUC

一.ROC曲线 1.简介 ROC曲线全称是"受试者工作特征曲线 "(Receiver Operating Characteristic curve),又称为感受性曲线(Sensitivity curve). 它源于二战中用于敌机检测的雷达信号分析技术,二十世纪六七十年代开始被用于一些心理学.医学检测中,此后被引入机器学习领域. 得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在两种不同的判定标准下所得的结果而已. ROC曲线示意图如下图所示. ROC