[模型优化]模型欠拟合及过拟合判断、优化方法

[模型优化]模型欠拟合及过拟合判断、优化方法

一、模型欠拟合及过拟合简介

模型应用时发现效果不理想,有多种优化方法,包含:

    • 添加新特征
    • 增加模型复杂度
    • 减小正则项权重
    • 获取更多训练样本
    • 减少特征数目
    • 增加正则项权重

具体采用哪种方法,才能够有效地提高模型精度,我们需要先判断模型是欠拟合,还是过拟合,才能确定下一步优化方向。

图1

模型欠拟合,即高偏差(high bias),是指模型未训练出数据集的特征,导致模型在训练集、测试集上的精度都很低。如图1左图所示。

模型过拟合,即高方差(high variance),是指模型训练出包含噪点在内的所有特征,导致模型在训练集的精度很高,但是应用到新数据集时,精度很低。如图1右图所示。

二、模型欠拟合及过拟合判断

1、数据集划分

数据集划分为训练集(Training set 80%)、测试集集(Test set 20%),损失函数定义为:

2、绘制损失函数随数据集增加的学习曲线

随着训练集样本的增加(m=1,2,3,....),训练集和测试集的损失函数变化趋势,如下图2所示:

图2

模型欠拟合(高偏差),如图2左图所示,拥有足够的训练样本时,训练误差和测试误差都很高,并且训练误差约等于测试误差。

模型过拟合(高方差),如图2右图所示,随着训练样本的增加,训练误差在增加,测试误差在减少,但训练误差远远小于测试误差,J(train)<< J(test)。

注:准备几个不同时间窗口、不同范围的训练集和测试集,然后在不同数据集里分别对模型进行交叉验证,这是工业界判断模型欠拟合或过拟合的最常用方法。

三、模型欠拟合与过拟合的优化方法

1、模型欠拟合

1)添加新特征

从业务思路上构造新特征是最重要的优化措施!!这个思路对于模型效用的提升是根本性的,是源头上的突破。衍生变量的构建,可以从以下两个方面考虑:

有没有更加明显且直观的规则、指标可以代替复杂的建模;

有没有一些明显的业务逻辑在前期的建模阶段被忽视。

2)模型优化:提升模型复杂度

模型算法,不同的建模算法针对不同的业务场景有不同的表现,尝试不同的建模算法,从中比较,择优者而用之。

细分群体,建立多个模型,一一对应不同的核心客户群体。

3)减少正则项权重

2、模型过拟合

1)重新清洗数据,导致过拟合的一个原因也有可能是数据不纯导致的,如果出现了过拟合就需要我们重新清洗数据。

2)获取更多的训练样本,

由于模型训练了包含噪音在内的所有特征,导致模型过拟合,通过获取更多的训练样本,可以衰减噪音权重。

3)减少特征数目

特征共线性检查,利用Pearson相关系数计算变量之间的线性相关性,如果自变量中属于中度以上线性相关的多个变量,只需要保留一个就可以。

重要特征筛选,利用决策树模型,筛选出重要特征。

数据降维,主成分分析,保留特征变量重要差异。

4)增加正则项权重

参考资料:

1、斯坦福大学,machie learning课程

https://www.coursera.org/learn/machine-learning/resources/LIZza

2、《数据挖掘与数据化运营实战》,第8章,常见的数据处理技巧

http://www.chforce.com/books/datamining-om-by-data/di_8_zhang_chang_jian_de_shu_ju_chu_li_ji_qiao/86shai_xuan_you_xiao_de_shu_ru_bian_liang.html

原文地址:https://www.cnblogs.com/ljt1412451704/p/9652288.html

时间: 2024-10-07 15:25:33

[模型优化]模型欠拟合及过拟合判断、优化方法的相关文章

MXNET:欠拟合、过拟合和模型选择

当模型在训练数据集上更准确时,在测试数据集上的准确率既可能上升又可能下降.这是为什么呢? 训练误差和泛化误差 在解释上面提到的现象之前,我们需要区分训练误差(training error)和泛化误差(generalization error):前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望. 假设训练数据集和测试数据集里的每一个样本都是从同一个概率分布中相互独立地生成的.基于该独立同分布假设,给定任意一个机器学习模型及其参数和超参数,它的训练误差的期望

机器学习(ML)七之模型选择、欠拟合和过拟合

训练误差和泛化误差 需要区分训练误差(training error)和泛化误差(generalization error).前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似.计算训练误差和泛化误差可以使用之前介绍过的损失函数,例如线性回归用到的平方损失函数和softmax回归用到的交叉熵损失函数. 直观地解释训练误差和泛化误差这两个概念.训练误差可以认为是做往年高考试题(训练题)时的错误率,泛化误差则可以通过真正参加高

【转】欠拟合、过拟合及其解决方法

在我们机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题,但是,一开始我们的模型往往是欠拟合的,也正是因为如此才有了优化的空间,我们需要不断的调整算法来使得模型的表达能拿更强.但是优化到了一定程度就需要解决过拟合的问题了,这个问题也在学术界讨论的比较多.(之前搜了很多有的博客,讲的都不太全,因此我重新整理总结了一遍,同时加入了自己的理解,方便自己和后来人查阅) 首先就是我们在进行模型训练的时候会出现模型不能够很好地拟合数据的情况,这个时候就需要我们来判断究竟现在的模型是欠拟合还

容量、欠拟合、过拟合和正则化

1.训练误差和泛化误差 机器学习的主要挑战是我们的模型要在未观测数据上表现良好,而不仅仅是在训练数据上表现良好.在未观测数据上表现良好称为泛化(generalization). 通常情况下,我们在训练数据上训练模型时会计算一些被称为训练误差(training error)的误差度量,目标是降低训练误差.由于模型要投入到实际使用,所以我们希望泛化误差(generalization,或者被称为测试误差)也尽可能的小.泛化误差被定义为新输入的误差期望. 如果训练数据和测试数据是同分布的,我们将这个共享

1. 欠拟合与过拟合概念

欠拟合与过拟合概念 欠拟合与过拟合概念 图3-1 欠拟合与过拟合概念演示 通常,你选择让交给学习算法处理的特征的方式对算法的工作过程有很大影响.如图3-1中左图所示,采用了y = θ0 + θ1x的假设来建立模型,我们发现较少的特征并不能很好的拟合数据,这种情况称之为欠拟合(underfitting).而如果我们采用了y = θ0 + θ1x+ θ2x2的假设来建立模型,发现能够非常好的拟合数据(如中图所示):此外,如果我们采用了y = θ0 + θ1x+ θ2x2+ θ3x3 + θ4x4 +

Stanford机器学习[第三课]-欠拟合与过拟合

1.本次课程大纲 局部加权回归: 线性回归的变化版本 Probability interpretation:另一种可能的对于线性回归的解释 Logistic回归: 基于2的一个分类算法 感知器算法: 对于3的延伸,简要讲 牛顿方法(用来对logistic进行拟合的算法,这节课没讲) 2.过拟合与欠拟合的距离 评估房子的价格,假设三种拟合算法: (1)X1=size, 拟合出一条线性曲线: (2)x1=size,x2=(size)2,拟合出一条二次曲线: (3)训练集共有7个数据,建立六个特征,拟

局部加权回归、欠拟合、过拟合 - Andrew Ng机器学习公开课笔记1.3

本文主要讲解局部加权(线性)回归.在讲解局部加权线性回归之前,先讲解两个概念:欠拟合.过拟合,由此引出局部加权线性回归算法. 欠拟合.过拟合 如下图中三个拟合模型.第一个是一个线性模型,对训练数据拟合不够好,损失函数取值较大.如图中第二个模型,如果我们在线性模型上加一个新特征项,拟合结果就会好一些.图中第三个是一个包含5阶多项式的模型,对训练数据几乎完美拟合. 模型一没有很好的拟合训练数据,在训练数据以及在测试数据上都存在较大误差,这种情况称之为欠拟合(underfitting). 模型三对训练

局部加权回归、欠拟合、过拟合-Andrew Ng机器学习公开课笔记1.3

本文主要讲解局部加权(线性)回归.在讲解局部加权线性回归之前,先讲解两个概念:欠拟合.过拟合,由此引出局部加权线性回归算法. 欠拟合.过拟合 如下图中三个拟合模型.第一个是一个线性模型,对训练数据拟合不够好,损失函数取值较大.如图中第二个模型,如果我们在线性模型上加一个新特征项,拟合结果就会好一些.图中第三个是一个包含5阶多项式的模型,对训练数据几乎完美拟合. 模型一没有很好的拟合训练数据,在训练数据以及在测试数据上都存在较大误差,这种情况称之为欠拟合(underfitting). 模型三对训练

【机器学习-斯坦福】学习笔记3 - 欠拟合与过拟合概念

原文  http://blog.csdn.net/maverick1990/article/details/11721453 欠拟合与过拟合概念 本次课程大纲: 1.   局部加权回归 :线性回归的变化版本 2.   概率解释 :另一种可能的对于线性回归的解释 3.   Logistic 回归 :基于 2 的一个分类算法 4.   感知器算法 :对于 3 的延伸,简要讲 复习:   – 第 i 个训练样本 令  ,以参数向量  为条件,对于输入 x ,输出为: n 为特征数量 定义成本函数 J