机器学习——非均衡分类问题

在机器学习的分类问题中,我们都假设所有类别的分类代价是一样的。但是事实上,不同分类的代价是不一样的,比如我们通过一个用于检测患病的系统来检测马匹是否能继续存活,如果我们把能存活的马匹检测成患病,那么这匹马可能就会被执行安乐死;如果我们把不能存活的马匹检测成健康,那么就会继续喂养这匹马。一个代价是错杀一只昂贵的动物,一个代价是继续喂养,很明显这两个代价是不一样的

时间: 2024-10-06 12:49:47

机器学习——非均衡分类问题的相关文章

机器学习实战笔记之非均衡分类问题

通常情况下,我们直接使用分类结果的错误率就可以做为该分类器的评判标准了,但是当在分类器训练时正例数目和反例数目不相等时,这种评价标准就会出现问题.这种现象也称为非均衡分类问题.此时有以下几个衡量标准. (1)   正确率<precise>和召回率<Recall> 如下图所示:其中准确率指预测的真实正例占所有真实正例的比例,等于TP/(TP+FP),而召回率指预测的真实正例占所有真实正例的比例,等于TP/(TP+FN).通常我们可以很容易的构照一个高正确率或高召回率的分类器,但是很难

非均衡分类问题的思考与问题与解决思路

前言 在前面的文章中,讨论了一些分类算法.然后,有一点一直忽视了,就是非均衡的分类问题. 分均衡分类有两种情形 情形一:正例和反例数量相差非常大. 比如,分析信用卡信息集里面的正常样本和诈骗样本.正常样本固然比诈骗样本要多的多了. 情形二:分类正确/错误的代价不同. 比如,分析病人的体检数据,我们肯定是希望不漏过任何一个病例.因此,有病诊断为无病的后果要比无病诊断为有病的后果严重的多. 这样的非均衡分类的情形导致了仅仅是使用分类错误率还分析分类质量是不科学的. 本文就将介绍一些新的衡量分类质量的

第十篇:非均衡分类问题的思考与问题与解决思路

前言 在前面的文章中,讨论了一些分类算法.然后,有一点一直忽视了,就是非均衡的分类问题. 分均衡分类有两种情形 情形一:正例和反例数量相差非常大. 比如,分析信用卡信息集里面的正常样本和诈骗样本.正常样本固然比诈骗样本要多的多了. 情形二:分类正确/错误的代价不同. 比如,分析病人的体检数据,我们肯定是希望不漏过任何一个病例.因此,有病诊断为无病的后果要比无病诊断为有病的后果严重的多. 这样的非均衡分类的情形导致了仅仅是使用分类错误率还分析分类质量是不科学的. 本文就将介绍一些新的衡量分类质量的

机器学习中分类与聚类的本质区别

机器学习中分类与聚类的本质区别 机器学习中有两类的大问题,一个是分类,一个是聚类. 在我们的生活中,我们常常没有过多的去区分这两个概念,觉得聚类就是分类,分类也差不多就是聚类,下面,我们就具体来研究下分类与聚类之间在数据挖掘中本质的区别. 分类 分类有如下几种说法,但表达的意思是相同的. 分类(classification):分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y中. 分类是根据一些给定的已知类别标号的样本,训练某种学习机器(即得到某种目标函数),使它

0、机器学习算法分类

1.机器学习算法分类: 监督学习监督学习的训练数据包含了类别信息,在监督学习中,典型的问题是分类(Classification)和回归(Regression),典型的算法有Logistics Regression .BP神经网络算法和相性回归算法. 监督学习流程: 无监督学习 与监督学习不同的是,无监督学习(Unsupervised Learning)的训练数据中不包含任何类别信息.在无监督学习中,其典型的问题为聚类(Clustering)问题,代表的算法有K-Means算法.DBSCAN算法等

非均衡分类问题

非均衡分类问题: 1.样本正反例数量差距大: 2.不同类别的分类代价不相等. 除了分类错误率,还有以下分类性能度量指标:正确率.召回率和ROC曲线 正确率:预测为正例的样本中真正正例的比例. 召回率:预测为正例的真实正例占所有真实正例的比例. 正确率和召回率很难同时达到很高. ROC曲线:横轴为伪正例的比例(假阳率),纵轴为真正例的比例(真阳率). def plotROC(predStrengths,classLabels): import matplotlib.pyplot as plt pl

机器学习基础 | 分类模型评估指标

目录 成对指标 综合指标 图形指标 在处理机器学习的分类问题中,我们需要评估分类结果的好坏以选择或者优化模型,本文总结二分类任务中常用的评估指标.对于多分类任务的评估指标,可以参考这篇文章 先从我们最熟知的混淆矩阵(confusion matrix)说起. source 鉴于混淆矩阵看着比较抽象,可以参考下图 常用的评估指标可以分为3类: 成对指标,包括正确率(精度)&错误率,Precision&Reall,TPR(Sentitivity)&TNR(Specificity)等; 综

机器学习算法分类

转自@王萌,有少许修改. 机器学习起源于人工智能,可以赋予计算机以传统编程所无法实现的能力,比如飞行器的自动驾驶.人脸识别.计算机视觉和数据挖掘等. 机器学习的算法很多.很多时候困惑人们的是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的.这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性. 学习方式 将算法按照学习方式分类可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果. 监督学习  在监督学习中,输入数据被称为"训

机器学习之分类问题实战(基于UCI Bank Marketing Dataset)

导读: 分类问题是机器学习应用中的常见问题,而二分类问题是其中的典型,例如垃圾邮件的识别.本文基于UCI机器学习数据库中的银行营销数据集,从对数据集进行探索,数据预处理和特征工程,到学习模型的评估与选择,较为完整的展示了解决分类问题的大致流程.文中包含了一些常见问题的处理方式,例如缺失值的处理.非数值属性如何编码.如何使用过抽样和欠抽样的方法解决分类问题中正负样本不均衡的问题等等. 作者:llhthinker 欢迎转载,请保留原文链接:http://www.cnblogs.com/llhthin