分类模型评估指标

对于分类模型的评价指标主要有错误率 、准确率、查准率、查全率、混淆矩阵、F1值、AUC和ROC。

1.1 错误率和准确率

错误率(Error rate):通常把分类错误的样本数占总样本总数的比例称为“错误率”。

准确率(Accuracy):是指分类正确的样本数占样本总数的比例,即准确率=1-错误率。

1.2 查准率、查全率、混淆矩阵和F1值

查准率(Precision):又称精确率,预测为正例的样本中,真正为正例的比率。

查全率(Recall):又称召回率,预测为正例的真实正例(TP)占所有真实正例的比例。

对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为以下四种情形:

真正例(true position):将一个正例正确判断为一个正例

假正例(false position):将一个反例错误判断为一个正例

真反例(true negative):将一个反例正确判断为一个反例

假反例(false negative):将一个正例错误判断为一个反例

令TP、FP、TN、FN分别表示其对应的样例数,则显然有TP+FP+TN+FN=样例总数,分类结果的“混淆矩阵”如表1所示。

表1 分类结果混淆矩阵


真实情况


预测结果


正例


反例


正例


TP(真正例)


FN(假反例)


反例


FP(假正例)


TN(真反例)

则查准率P和查全率R分别定义为

查准率和查全率是一对矛盾的度量。一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。

F1值是基于查准率和查全率的调和平均定义的:

度量的一般形式——,是加权调和平均,能表达出对查准率和查全率的不同偏好,它定义为

其中,度量了查全率对查准率的相对重要性;时退化为标准的F1,时查全率有更大影响;时查准率有更大影响。

2.3 AUC和ROC

ROC全称是“受试者工作特征”(Receiver Operating Characteristic)曲线,ROC曲线的横轴为“假正例率”(False Positive Rate,简称FPR),纵轴为“真正例率”(True Positive Rate,简称TPR),基于表2.1中的符号,定义为

AUC(Area Under ROC Curve),AUC可通过对ROC曲线下方的面积求和而得。这个面积通常是大于等于0.5,小于等于1.0的。AUC的值越大越好。AUC用于衡量“二分类问题”机器学习算法性能(泛化能力)。下图为ROC曲线和AUC之间的关系。

接下来我们考虑ROC曲线图中的四个点和一条线。

  第一个点,(0,1),即左上角的点,在这个点意味着FPR=0,TPR=1,即负类样本中被判断为正类的比例为0,说明负类样本都被判断为负类,判断正确,正类样本中被判断为正类的比例为1,说明正类样本都被判断正确,所以这是一个完美的分类器,它将所有的样本都正确分类。

  第二个点,(1,0),即右下角的点,在这个点意味着FPR=1,TPR=0,类似地分析可以发现这是一个最糟糕的分类器,因为它成功避开了所有的正确分类。把该判断为正类的判断为负类,把该判断为负类的判断为正类

  第三个点,(0,0),即左下角的点,在这个点意味着FPR=TPR=0,可以发现该分类器预测所有的样本都为负样本(negative),这种情况说明阈值选得过高。

  第四个点(1,1),即右下角的点,分类器实际上预测所有的样本都为正样本,这种情况说明阈值选得过低。

用以上两个指标来判断模型是否好坏。但是,有时候模型没有单纯的谁比谁好,选择模型还是要结合具体的使用场景。

  比如,地震的预测,我们肯定是希望recall分厂高咯,也就是说我们希望把每次地震都预测出来,这个时候可以牺牲掉查准率,宁愿发出成百上千次警告,也要把10次地震都给预测正确,也不要预测100次对了8次而漏掉两次。

  再比如,嫌疑人定罪,我们基于不要错怪一个好人的原则,因此我们希望对于嫌疑人定罪是非常准确的,即使有些时候放过一些罪犯(recall低),但也是值得的。

原文地址:https://www.cnblogs.com/Amy9/p/8870795.html

时间: 2024-11-09 13:44:22

分类模型评估指标的相关文章

001 分类模型评估指标(二)

二分类问题 多分类问题 连续变量问题 二.简单二分类问题的延伸 如果只是简单的二分类问题,只需要一个二分类的混淆矩阵即可对模型进行评估.但如果问题发生如下变化: 情况1:基于同一组数据集多次训练/测试不同的模型 情况2:基于多个数据集测试评估同一个模型 情况3:执行多分类任务 此时,会产生多个不同的混淆矩阵,则需要引入两个新的概念"宏"与"微". (1)"宏": 当产生n个混淆矩阵时,分别计算每个混淆矩阵的Precision,recall,F-m

机器学习基础 | 分类模型评估指标

目录 成对指标 综合指标 图形指标 在处理机器学习的分类问题中,我们需要评估分类结果的好坏以选择或者优化模型,本文总结二分类任务中常用的评估指标.对于多分类任务的评估指标,可以参考这篇文章 先从我们最熟知的混淆矩阵(confusion matrix)说起. source 鉴于混淆矩阵看着比较抽象,可以参考下图 常用的评估指标可以分为3类: 成对指标,包括正确率(精度)&错误率,Precision&Reall,TPR(Sentitivity)&TNR(Specificity)等; 综

二分类模型评估指标

分类结果混淆矩阵(confusion matrix): 真实\预测 正例 反例 正例 TP FN 反例 FP TN 1.准确率--accuracy 定义:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比.计算方法: 2.精确率--precision(P)定义:被判定为正例(反例)的样本中,真正的正例样本(反例样本)的比例.计算方法: 3.召回率--recall(R)定义:被正确分类的正例(反例)样本,占所有正例(反例)样本的比例.计算方法: 4.F1_score定义:基于精确率和召回率

【深度学习】常用的模型评估指标

"没有测量,就没有科学."这是科学家门捷列夫的名言.在计算机科学中,特别是在机器学习的领域,对模型的测量和评估同样至关重要.只有选择与问题相匹配的评估方法,我们才能够快速的发现在模型选择和训练过程中可能出现的问题,迭代地对模型进行优化.本文将总结机器学习最常见的模型评估指标,其中包括: precision recall F1-score PRC ROC和AUC IOU 从混淆矩阵谈起 看一看下面这个例子:假定瓜农拉来一车西瓜,我们用训练好的模型对这些西瓜进行判别,显然我们可以使用错误率

机器学习算法分类及其评估指标

机器学习的入门,我们需要的一些基本概念: 机器学习的定义 M.Mitchell<机器学习>中的定义是: 对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序从经验E中学习. 算法分类 两张图片很好的总结了(机器学习)的算法分类: 评估指标 分类(Classification)算法指标: Accuracy准确率 Precision精确率 Recall召回率 F1 score 对于分类问题的结果可以用下表表示(说明:True或者False

分类模型评估

一直对于各种分类器评估的指标有点晕,今天决定琢磨下,并且写下来,方便以后回忆. 一.混淆矩阵 来源于信息论,根据上面的混淆矩阵,有3个指标需要搞清楚,我觉得记公式真的很容易搞混,建议大家都直接记文字加上自己理解就好了. 准确率=正确预测正负的个数/总个数(这个指标在python中的交叉验证时可以求准确率) 覆盖率(也叫作召回率)=正确预测正的个数/实际正的个数 (当然也可以是负覆盖率) 命中率=正确预测正的个数/预测正的个数 以上指标,在Python中提供混淆矩阵的报告 二.ROC 之所以又有R

二分类算法评估指标

我们都知道机器学习要建模,但是对于模型性能的好坏我们并不知道是怎样的,很可能这个模型就是一个差的模型,对测试集不能很好的预测.那么如何知道这个模型是好是坏呢?必须有个评判的标准,需要用某个指标来衡量,这就是性能度量的意义.有了一个指标,就可以对比不同模型了,从而知道哪个模型更好,或者通过这个指标来调参优化选用的模型. 对于分类.回归.聚类等,分别有各自的评判标准.本篇主要介绍二分类算法(多分类可以扩展转化成二分类)的相关指标.评估一个二分类的分类器的性能指标有:准确率.查准率.查全率.F1值.A

分类模型评估与选择总结

1.评估分类器性能的度量 当建立好一个分类模型之后,就会考虑这个模型的性能或准确率如何,这里介绍几种分类器评估度量如下表: 假设在有标号的元组组成的训练集上使用分类器.P是正元组数,N是负元组数. 度量 公式 准确率.识别率 (TP+TN)/(P+N) 错误率.误分类率 (FP+FN)/(P+N) 敏感度.真正例率.召回率 TP/P 特效型.真负例率 TN/N 精度 TP/(TP+FP) F.F1.F分数 精度和召回率的调和均值 2*precision*recall/(precision+rec

机器学习模型评估指标汇总

在使用机器学习算法过程中,针对不同的问题需要不用的模型评估标准,这里统一汇总.主要以两大类分类与回归分别阐述. 一.分类问题 1.混淆矩阵 混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息.矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别. 真正(True Positive , TP):被模型预测为正的正样本. 假正(False Positive , FP):被模型预测为正的负样本. 假负(False Negative , FN):被模型预测为负的正样本. 真