AUC计算方法

本质是ROC曲线下的面积,ROC曲线x轴是误判率(false positive rate),y轴是准确率(true positive rate)。

AUC计算:

1. 使用Wilcoxon-Mann-Witney Test

AUC和Wilcoxon-Mann-Witney Test有等价的性质。Wilcoxon-Mann-Witney Test是测试任意给一个正样本和一个负样本,正样本score大于负样本score的概率。

算法:

统计所有的 M×N(M为正样本数,N为负样本数)个正负样本对中,有多少组中的正样本score大于负样本score。当二元组中正负样本的score相等的时候,按照0.5计算。然后除以MN。实现这个方法的复杂度为O(n^2)。n为样本数(即n=M+N)

2. 方法1的简化(降低计算时间复杂度)

算法:

首先对样本按score从大到小排序,然后令最大score对应样本的rank为n,第二大score对应样本的rank为n-1,以此类推。然后把所有的正样本的rank相加,再减去M-1个正样本两两组合的情况。然后再除以M×N。即

参考:

https://blog.csdn.net/pzy20062141/article/details/48711355

原文地址:https://www.cnblogs.com/yaoyaohust/p/11051807.html

时间: 2024-10-31 17:17:50

AUC计算方法的相关文章

AUC计算方法总结

一.roc曲线 1.roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性. 横轴:负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例:(1-Specificity) 纵轴:真正类率(true postive rate TPR)灵敏度,Sensitivity(正类覆盖率) 2针对一个二分类问题,将实例分成正类(postive)或者负类(negative).但是实

【转】AUC(Area Under roc Curve )计算及其与ROC的关系

让我们从头说起,首先AUC是一种用来度量分类模型好坏的一个标准.这样的标准其实有很多,例如:大约10年前在machine learning文献中一统天下的标准:分类精度:在信息检索(IR)领域中常用的recall和precision,等等.其实,度量反应了人们对” 好”的分类结果的追求,同一时期的不同的度量反映了人们对什么是”好”这个最根本问题的不同认识,而不同时期流行的度量则反映了人们认识事物的深度的变 化.近年来,随着machine learning的相关技术从实验室走向实际应用,一些实际的

点击率模型AUC

一 背景 首先举个例子: 正样本(90)                       负样本(10) 模型1预测        正(90)                                正(10) 模型2预测        正(70)负(20)                正(5)负(5) 结论: 模型1准确率90%: 模型2 准确率75% 考虑对正负样本对预测能力,显然模型2要比模型1好,但对于这种正负样本分布不平衡对数据,准确率不能衡量分类器对好坏了,所以需要指标auc解决

机器学习:基于sklearn的AUC的计算原理

AUC原理 一.AUC起源 AUC是一种用来度量分类模型好坏的一个标准.这样的标准其实有很多,例如:大约10年前在 machine learning文献中一统天下的标准:分类精度:在信息检索(IR)领域中常用的recall和precision,等等.其实,度量反应了人们对” 好”的分类结果的追求,同一时期的不同的度量反映了人们对什么是”好”这个最根本问题的不同认识,而不同时期流行的度量则反映了人们认识事物的深度的变 化.近年来,随着machine learning的相关技术从实验室走向实际应用,

模型评估-2

一.分类算法的评估 1.二分类 ROC与AUC 1.1 roc曲线:接收者操作特征(receiveroperating characteristic) roc曲线上每个点反映着对同一信号刺激的感受性.横轴:负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例:(1-Specificity):纵轴:真正类率(true postive rate TPR)灵敏度,Sensitivity(正类覆盖率). 2针对一个二分类问题,将实例分成正类(postive)

AUC的计算

AUC指的是Area under roc curve,是roc下的面积 roc指的receiver operating characteristic curve,接受者操作曲线,具体的指的什么呢,是一个二维的曲线,横坐标是假正率,计算公式为:预测为正的负样本/负样本数量.纵坐标是真正率,计算公式为:预测为正的正样本/正样本的数量. 很多地方都有介绍,我们这里直接说下AUC的计算方法吧 1. 直接计算曲线下的面积,这个不介绍了,一般不会使用 2. 正样本M个,负样本N个,做交叉,总共会产生M*N个

AUC(Area Under roc Curve)学习笔记

AUC是一种用来度量分类模型好坏的一个标准. ROC分析是从医疗分析领域引入了一种新的分类模型performance评判方法. ROC的全名叫做Receiver Operating Characteristic,其主要分析工具是一个画在二维平面上的曲线——ROC curve.平面的横坐标是false positive rate(FPR),纵坐标是true positive rate(TPR).对某个分类器而言,我们可以根据其在测试样本上的表现得到一个TPR和FPR点对.这样,此分类器就可以映射成

理解AUC

理解auc 1 ROC曲线和auc 从二分类说起,假设我们的样本全集里,所有样本的真实标签(label)为0或1,其中1表示正样本,0表示负样本,如果我们有一个分类模型,利用它对样本进行了标注,那边我们可以得到下面的划分 truth 1 0 predictor 1 TP FP 0 FN TN TP(true positive):表示正确的肯定 TN( true negative):表示正确的否定 FP(false positive):表示错误的肯定 FN (false negative):表示错

ROC与AUC曲线绘制

由于ROC曲线面积比较难求得,所以判断模型好坏一般使用AUC曲线 关于AUC曲线的绘制,西瓜书上写得比较学术,不太能理解,假设有这么一个样本集: 假设预测样本为20个,预测为正类的概率已经进行了排序,得分递减,画图步骤为: (1) 在所排序的样本最左边,画一条线即  无 | 1 2 3 4 5 …,线左边的认为是正类,右边认为是负类,可以算出,TP(实际为正,预测为正)=0,FN(实际为正,预测为负)=10,TN(实际为负,预测为负)=10,FP(实际为负,预测为正)=0,故而TPR=0,FPR