机器学习-样本不均衡问题处理

在机器学习中,我们获取的数据往往存在一个问题,就是样本不均匀。比如你有一个样本集合,正例有9900个,负例100个,训练的结果往往是很差的,因为这个模型总趋近于是正例的。

就算全是正那么,也有99%的准确率,看起来挺不错的,但是我们要预测的负样本很可能一个都预测不出来。

这种情况,在机器学习中有三个处理办法,过采样、欠采样、再平衡(再缩放)

过采样:增加一些数据数据,使得正反例数量一致,比如这里,我们增加负例9800个,若单纯复制这100个负例,则很可能会导致多重共线性问题,所以实际的处理方法一般根据原始数据进行一些处理。

比如常用的SMOTE算法,通过差值的方法增加样本数量。

欠采样:减少一些样本使得正反例数量一致,比如这里减少9800个正例,但这样一来就损失了很多数据资源,实际常用的做法是将多的样本分成很多份,用N个训练器来训练,最后去平均。

比如这里,我们可以将正例分成99份100个的集合,99份分别和100个负例组合成训练集来进行训练。当然如果正负例的数量差距太大的话可能会有很多个训练器了。

再平衡:一般的分类算法训练出来是一个0-1的值,一般大于等于0.5的就是正,小于0.5的为负例。再平衡的思想就是根据正负样本数量的比例对训练结果判定的调整。

通用的算法是:>=正例数量/总数量,则为正;<正例数量/总数量为负

在这里我们的判定改为9900/(9900+100)=0.99

所以预测结果当大于等于0.99时候我们判定为是正例。

原文地址:https://www.cnblogs.com/yifengjianbai/p/10445924.html

时间: 2024-09-30 03:50:00

机器学习-样本不均衡问题处理的相关文章

机器学习之样本不均衡

以下内容是个人通过查阅网上相关资料总结出的内容 具体说明数据不均衡会带来的问题: 1)在一个二分类问题中,训练集中class 1的样本数比class 2的样本数是60:1.使用逻辑回归进行分类,最后训练出的模型可能会忽略了class 2,即模型可能会将所有的训练样本都分类为class 1. 2)在分类任务的数据集中,有三个类别,分别为A,B,C.在训练集中,A类的样本占70%,B类的样本占25%,C类的样本占5%.最后我的分类器对类A的样本过拟合了,而对其它两个类别的样本欠拟合. 那么该如何解决

处理样本不均衡数据

处理样本不均衡数据一般可以有以下方法: 1.人为将样本变为均衡数据. 上采样:重复采样样本量少的部分,以数据量多的一方的样本数量为标准,把样本数量较少的类的样本数量生成和样本数量多的一方相同. 下采样:减少采样样本量多的部分,以数据量少的一方的样本数量为标准. 2.调节模型参数(class_weigh,sample_weight,这些参数不是对样本进行上采样下采样等处理,而是在损失函数上对不同的样本加上权重) (A)逻辑回归中的参数class_weigh: 在逻辑回归中,参数class_weig

机器学习样本标记 示意代码

目标:根据各个字段数据的分布(例如srcIP和dstIP的top 10)以及其他特征来进行样本标注,最终将几类样本分别标注在black/white/ddos/mddos/cdn/unknown几类. 效果示意: -------------choose one--------------sub domain: DNSQueryName(N)ip: srcip(S) or dstip(D)length: DNSRequestLength(R1) or DNSReplyLength(R2)length

机器学习中的类别不均衡问题

基础概念 类别不均衡是指在分类学习算法中,不同类别样本的比例相差悬殊,它会对算法的学习过程造成重大的干扰.比如在一个二分类的问题上,有1000个样本,其中5个正样本,995个负样本,在这种情况下,算法只需将所有的样本预测为负样本,那么它的精度也可以达到99.5%,虽然结果的精度很高,但它依然没有价值,因为这样的学习算法不能预测出正样本.这里我们可以知道不均衡问题会导致样本较少那一类的高错分率,即较少一类的样本会有较大的比例会被预测成样本数量较多的那一类. 解决方法 1.欠采样,减少数量较多那一类

【转】解决样本类别分布不均衡的问题

3.4 解决样本类别分布不均衡的问题 说明:本文是<Python数据分析与数据化运营>中的“3.4 解决样本类别分布不均衡的问题”. -----------------------------下面是正文内容-------------------------- 所谓的不平衡指的是不同类别的样本量异非常大.样本类别分布不平衡主要出现在分类相关的建模问题上.样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数据分布不均衡两种. 大数据分布不均衡.这种情况下整体数据规模大,只是其中的少样本类的

机器学习之分类问题实战(基于UCI Bank Marketing Dataset)

导读: 分类问题是机器学习应用中的常见问题,而二分类问题是其中的典型,例如垃圾邮件的识别.本文基于UCI机器学习数据库中的银行营销数据集,从对数据集进行探索,数据预处理和特征工程,到学习模型的评估与选择,较为完整的展示了解决分类问题的大致流程.文中包含了一些常见问题的处理方式,例如缺失值的处理.非数值属性如何编码.如何使用过抽样和欠抽样的方法解决分类问题中正负样本不均衡的问题等等. 作者:llhthinker 欢迎转载,请保留原文链接:http://www.cnblogs.com/llhthin

机器学习中特征的处理及选择

基础概念 特征工程是通过对原始数据的处理和加工,将原始数据属性通过处理转换为数据特征的过程,属性是数据本身具有的维度,特征是数据中所呈现出来的某一种重要的特性,通常是通过属性的计算,组合或转换得到的.比如主成分分析就是将大量的数据属性转换为少数几个特征的过程.某种程度而言,好的数据以及特征往往是一个性能优秀模型的基础. 既然叫特征工程,自然涵盖了很多内容,而其中涉及到的比较重要的部分是特征的处理及选择. 特征处理包含: 数据清洗 数据规范化 特征构造与衍生 特征选择包含: 特征过滤 wrappe

高端实战 Python数据分析与机器学习实战 Numpy/Pandas/Matplotlib等常用库

课程简介:? ? 课程风格通俗易懂,真实案例实战.精心挑选真实的数据集为案例,通过Python数据科学库numpy,pandas,matplot结合机器学习库scikit-learn完成一些列的机器学习案例.课程以实战为基础,所有课时都结合代码演示如何使用这些python库来完成一个真实的数据案例.算法与项目相结合,选择经典kaggle项目,从数据预处理开始一步步代码实战带大家快速入门机器学习.旨在帮助同学们快速上手如何使用python库来完整机器学习案例. ------------------

机器学习面试常见问题

(1) 无监督和有监督算法的区别? 有监督学习: 对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测.这里,所有的标记(分类)是已知的.因此,训练样本的岐义性低. 无监督学习: 对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识.这里,所有的标记(分类)是未知的.因此,训练样本的岐义性高.聚类就是典型的无监督学习. (2) SVM 的推导,特性?多分类怎么处理? SVM是最大间隔分类器,几何间隔和样本的误分次数之间存在关系,,其中 从