001 分类模型评估指标(二)

  • 二分类问题
  • 多分类问题
  • 连续变量问题

二、简单二分类问题的延伸

  如果只是简单的二分类问题,只需要一个二分类的混淆矩阵即可对模型进行评估。但如果问题发生如下变化:

  • 情况1:基于同一组数据集多次训练/测试不同的模型 
  • 情况2:基于多个数据集测试评估同一个模型
  • 情况3:执行多分类任务

  此时,会产生多个不同的混淆矩阵,则需要引入两个新的概念“宏”与“微”。

(1)“宏”:

  当产生n个混淆矩阵时,分别计算每个混淆矩阵的Precision,recall,F-measure,再计算各自的平均值,即产生:宏查准率 macro-P,宏查全率 macro-R,macro-F。

(2)“微”:

  当产生n个混淆矩阵时,先将n个混淆矩阵中的TP,FP,TN,FN对应求平均值。然后按照简单二分类问题中Precision,recall,F1-measure的公式,分别求:微查准率 micro-P,微查全率 micro-R, micro-F。

1 from sklearn.metrics import precision_score
2 y_true = [0, 1, 2, 0, 1, 2]
3 y_pred = [0, 2, 1, 0, 0, 1]
4 p1 = precision_score(y_true, y_pred, average=‘macro‘)
5 p2 = precision_score(y_true, y_pred, average=‘micro‘)
6 p3 = precision_score(y_true, y_pred, average=‘weighted‘)
7 p4 = precision_score(y_true, y_pred, average=None)

 参数:average介绍如下:(precision,recall,f1-score同)

三、多分类问题

(1)一般来说,多分类问题也可以拆分成n个二分类问题,即可产生n个混淆矩阵,使用上述“宏”“微”指标进行模型评估。举例子分析:150个样本数据,分成三类,每类50个样本数据,如下表所示(每行表示真实标签,每列表示预测标签)。

  类1 类2 类3
类1 43 5 2
类2 2 45 3
类3 0 1 49

  从表格数据中可以看出,对于类1,有43个样本数据预测正确,5个样本被错分为类2,2个样本数据被错为分类3。 同理,对于类2,有45个样本数据预测正确,2个样本数据被错分为类1,3个样本数据被错分为类3。对于类3,有49个样本数据预测正确,1个样本数据被错分为类2。之后,可分别计算每个类别precision,recall,F1-score。

(2)汉明损失(hamming loss):其中|D|表示样本总数,|L|表示标签总数,x表示预测标签,yi 表示真实标签,xor表示异或关系,即 预测标签与真实标签的异或关系。从公式上可以看出,汉明损失关注的是被错误分类的标签的个数,所以,汉明损失值越小,模型效果越佳。

1 from sklearn.metrics import hamming_loss
2 y_pred = [1, 2, 3, 4]
3 y_true = [2, 2, 3, 4]
4 hamming_loss(y_true, y_pred)  #输出结果为0.25
5
6 hamming_loss(np.array([[0, 1], [1, 1]]), np.zeros((2, 2)))  #输出结果为0.75

(3)交并比 IOU(intersection over union):交比并

  • 在连续性问题中,IOU表示的面积之比,即预测与真实的交集面积 比上 预测与真实的并集面积。
  • 在分类问题中,IOU可近似用如下公式进行计算(参考百度百科)

          

参考资料:

原文地址:https://www.cnblogs.com/xdliyin/p/10371942.html

时间: 2024-11-05 13:48:16

001 分类模型评估指标(二)的相关文章

机器学习基础 | 分类模型评估指标

目录 成对指标 综合指标 图形指标 在处理机器学习的分类问题中,我们需要评估分类结果的好坏以选择或者优化模型,本文总结二分类任务中常用的评估指标.对于多分类任务的评估指标,可以参考这篇文章 先从我们最熟知的混淆矩阵(confusion matrix)说起. source 鉴于混淆矩阵看着比较抽象,可以参考下图 常用的评估指标可以分为3类: 成对指标,包括正确率(精度)&错误率,Precision&Reall,TPR(Sentitivity)&TNR(Specificity)等; 综

分类模型评估指标

对于分类模型的评价指标主要有错误率 .准确率.查准率.查全率.混淆矩阵.F1值.AUC和ROC. 1.1 错误率和准确率 错误率(Error rate):通常把分类错误的样本数占总样本总数的比例称为"错误率". 准确率(Accuracy):是指分类正确的样本数占样本总数的比例,即准确率=1-错误率. 1.2 查准率.查全率.混淆矩阵和F1值 查准率(Precision):又称精确率,预测为正例的样本中,真正为正例的比率. 查全率(Recall):又称召回率,预测为正例的真实正例(TP)

二分类模型评估指标

分类结果混淆矩阵(confusion matrix): 真实\预测 正例 反例 正例 TP FN 反例 FP TN 1.准确率--accuracy 定义:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比.计算方法: 2.精确率--precision(P)定义:被判定为正例(反例)的样本中,真正的正例样本(反例样本)的比例.计算方法: 3.召回率--recall(R)定义:被正确分类的正例(反例)样本,占所有正例(反例)样本的比例.计算方法: 4.F1_score定义:基于精确率和召回率

【深度学习】常用的模型评估指标

"没有测量,就没有科学."这是科学家门捷列夫的名言.在计算机科学中,特别是在机器学习的领域,对模型的测量和评估同样至关重要.只有选择与问题相匹配的评估方法,我们才能够快速的发现在模型选择和训练过程中可能出现的问题,迭代地对模型进行优化.本文将总结机器学习最常见的模型评估指标,其中包括: precision recall F1-score PRC ROC和AUC IOU 从混淆矩阵谈起 看一看下面这个例子:假定瓜农拉来一车西瓜,我们用训练好的模型对这些西瓜进行判别,显然我们可以使用错误率

机器学习算法分类及其评估指标

机器学习的入门,我们需要的一些基本概念: 机器学习的定义 M.Mitchell<机器学习>中的定义是: 对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序从经验E中学习. 算法分类 两张图片很好的总结了(机器学习)的算法分类: 评估指标 分类(Classification)算法指标: Accuracy准确率 Precision精确率 Recall召回率 F1 score 对于分类问题的结果可以用下表表示(说明:True或者False

二分类算法评估指标

我们都知道机器学习要建模,但是对于模型性能的好坏我们并不知道是怎样的,很可能这个模型就是一个差的模型,对测试集不能很好的预测.那么如何知道这个模型是好是坏呢?必须有个评判的标准,需要用某个指标来衡量,这就是性能度量的意义.有了一个指标,就可以对比不同模型了,从而知道哪个模型更好,或者通过这个指标来调参优化选用的模型. 对于分类.回归.聚类等,分别有各自的评判标准.本篇主要介绍二分类算法(多分类可以扩展转化成二分类)的相关指标.评估一个二分类的分类器的性能指标有:准确率.查准率.查全率.F1值.A

分类模型评估

一直对于各种分类器评估的指标有点晕,今天决定琢磨下,并且写下来,方便以后回忆. 一.混淆矩阵 来源于信息论,根据上面的混淆矩阵,有3个指标需要搞清楚,我觉得记公式真的很容易搞混,建议大家都直接记文字加上自己理解就好了. 准确率=正确预测正负的个数/总个数(这个指标在python中的交叉验证时可以求准确率) 覆盖率(也叫作召回率)=正确预测正的个数/实际正的个数 (当然也可以是负覆盖率) 命中率=正确预测正的个数/预测正的个数 以上指标,在Python中提供混淆矩阵的报告 二.ROC 之所以又有R

分类模型评估与选择总结

1.评估分类器性能的度量 当建立好一个分类模型之后,就会考虑这个模型的性能或准确率如何,这里介绍几种分类器评估度量如下表: 假设在有标号的元组组成的训练集上使用分类器.P是正元组数,N是负元组数. 度量 公式 准确率.识别率 (TP+TN)/(P+N) 错误率.误分类率 (FP+FN)/(P+N) 敏感度.真正例率.召回率 TP/P 特效型.真负例率 TN/N 精度 TP/(TP+FP) F.F1.F分数 精度和召回率的调和均值 2*precision*recall/(precision+rec

机器学习模型评估指标汇总

在使用机器学习算法过程中,针对不同的问题需要不用的模型评估标准,这里统一汇总.主要以两大类分类与回归分别阐述. 一.分类问题 1.混淆矩阵 混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息.矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别. 真正(True Positive , TP):被模型预测为正的正样本. 假正(False Positive , FP):被模型预测为正的负样本. 假负(False Negative , FN):被模型预测为负的正样本. 真