【机器学习基础】过拟合

泛化能力差和过拟合问题

以一维的回归分析为例,输出为目标函数加上一点噪声yn=fn(xn)+noise。如果用高阶多项式去拟合数据的话(比如有五个数据点,用四次多项式去拟合的话,如果让该多项式曲线均通过这几个数据点的话,则只有唯一解),这种情况可能使得训练误差Ein很小,但是实际的真实误差就可能很大,这说明我们求解的模型的泛化能力很差(bad generalization),这在训练误差很小的情况下推论到未知的数据的话预测结果就会很糟。

VC bound告诉我们,当vc维很高的时候,就会发生Ein很低,但Eout很高的情形。

从上面这个图可以看出,真实误差Eout有一个先降后升的趋势,如果定义Eout这个曲线的最低点为dvc star为最好的vc维的地方,如果横坐标向右移,这时候Ein下降,但是Eout上升,这种情况我们把fitting做的很好,不过做的太过头了,就产生了过拟合的现象(over fitting);而如果从dvc star向左移,这样造成了欠拟合(under fitting)。

这里过拟合是很常见,而且很不容易解决的问题。

造成过拟合的原因

过拟合其中一个可能的成因就是模型的vc维过高,使用了过强的模型复杂度(model complexity)的能力。

还有一个原因是数据中的噪声,造成了如果完全拟合的话,也许与真实情景的偏差更大。

最后还有一个原因是数据量有限,这使得模型无法真正了解整个数据的真实分布。

学习曲线(Learning curves)

我们以二次多项式和十次多项式的曲线来对比,由之前了解的学习曲线(learning curves)显示随着数据量的增加,误差是如何变化的。

如果是二次多项式的学习曲线,Ein会比期望误差(expected error)效果好一点,因为我们可以在已知的数据上做优化,Eout要比期望误差高一点,因为有噪声的印象,有可能是两倍噪声的效果。

如果是十次多项式的学习曲线,由于模型复杂度增大(vc维变大),在数据量很小的情况下该假设集合的泛化误差较大。

如果两张图比较,我们可以看出在数据量较小的情况下,H10的图形有较高的Eout,即出现过拟合。

这里告诉我们,在数据量不太多的情况下,比较简单的模型(含有较少的假设)也许不太完美,但泛化效果可能会更好一点。

随机性噪声和决定性噪声(stochastic noise and deterministic noise)

我们把数据分成两个部分,一部分是目标函数,另一部分是高斯噪声。构造数据的影响因素有噪声的强度、目标函数的复杂度、数据量。我们要探讨这三个变量对过拟合有什么影响?

下图中,左图是固定的模型复杂度情况下,噪声和数据量的关系,这里表示的是随机性噪声(stochastic noise)的影响。图形中红色区域是过拟合情况比较严重的,蓝色区域是拟合情况比较好的。图形红色区域集中在左上角,噪声很大且数据量很少的情况;而图形蓝色区域集中在右下角,是数据很多且噪声很小的情况。

右图是固定噪声的影响,横轴是数据量,纵轴是目标函数的复杂度,颜色的表示意义同左图一样,在数据量少且模型更复杂的情况容易出现过拟合的现象,在数据量足够且目标函数不太复杂的话拟合效果会比较好,这里表示的是决定性噪声(deterministic noise)的影响。

从以下这两个图可以看出,在数据量较小、随机性噪声太高、决定性噪声太多(目标函数很复杂)、dv维太高(例如目标函数是低次多项式,而假设是高次多项式,用这种高次多项式去拟合低次多项式,在有噪声的情况下,高次多项式有可能去拟合这些噪声,从而造成过拟合现象,这解释了下图右图中左下角的红色区域的过拟合的成因)都会造成过拟合现象。

对付过拟合

为了避免过拟合现象有以下几种可能的解决方式:

  • start form simple model,使用简单一点的模型
  • data clearning/pruning,做数据的情形和修整,确保数据准确
  • data hinting,从现有的数据中获取更多的数据或者提示
  • regularization,规则化
  • validation,检验

补充:

关于数据的提示(data hinting)的解释,比如手写识别中,可以通过将原来的数据图片做一点旋转,再进行训练来规避数据不够多的情况,但这里要注意的是这里的数据不是独立同分布于一个原始的分布的。

转载请注明作者Jason Ding及其出处

Github博客主页(http://jasonding1354.github.io/)

CSDN博客(http://blog.csdn.net/jasonding1354)

简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)

时间: 2024-08-06 02:49:59

【机器学习基础】过拟合的相关文章

【机器学习基础】混合和装袋

融合模型(Aggregation Model) 如果我们已经得到了一些特征或者假设,它们和我们做机器学习的目标有若干的一致性的话,我们可以将这些假设综合起来,让预测效果变得更好,这样的模型被称为融合模型. 融合模型是通过混合(mix)和组合(combine)一些假设的方式,得到更好的预测结果. 下面列举了四种不同的混合组合方式,并给出了数学表示形式: 当有多个假设时,我们选择检验误差最小的假设作为我们最信任的目标函数: 我们现在有多个假设,我们可以给每个假设一个投票的权利,综合所有假设的投票结果

【机器学习实战】第1章 机器学习基础

第1章 机器学习基础 机器学习 概述 机器学习就是把无序的数据转换成有用的信息. 获取海量的数据 从海量数据中获取有用的信息 我们会利用计算机来彰显数据背后的真实含义,这才是机器学习的意义. 机器学习 场景 例如:识别动物猫 模式识别(官方标准):人们通过大量的经验,得到结论,从而判断它就是猫. 机器学习(数据学习):人们通过阅读进行学习,观察它会叫.小眼睛.两只耳朵.四条腿.一条尾巴,得到结论,从而判断它就是猫. 深度学习(深入数据):人们通过深入了解它,发现它会'喵喵'的叫.与同类的猫科动物

机器学习实战之第一章 机器学习基础

第1章 机器学习基础 机器学习 概述 机器学习就是把无序的数据转换成有用的信息. 获取海量的数据 从海量数据中获取有用的信息 我们会利用计算机来彰显数据背后的真实含义,这才是机器学习的意义. 机器学习 场景 例如:识别动物猫 模式识别(官方标准):人们通过大量的经验,得到结论,从而判断它就是猫. 机器学习(数据学习):人们通过阅读进行学习,观察它会叫.小眼睛.两只耳朵.四条腿.一条尾巴,得到结论,从而判断它就是猫. 深度学习(深入数据):人们通过深入了解它,发现它会'喵喵'的叫.与同类的猫科动物

机器学习基础2--评价回归模型

再次回到上一节的13次模型. 这个疯狂的曲线造成了一种现象过拟合. 很明显,你的房子不可能只值这么点价钱,所以看上去,这个13次模型甚至还不如一开始的二次模型. 那么现在有个疑问,我们应该怎样去选择最合适的模型? 我们想要准确预测,但是我们无法观测未来. 下面我们模拟一次预测过程: 1.我们随机将一些房子数据排除在外. 2.然后拟合剩下的数据 3.最后进行预测和推断. 术语: 训练集(training set):用来拟合模型的数据. 测试集(test set):排除出去的数据. 训练损失(tra

《Python机器学习基础教程》高清版免费PDF下载

Python机器学习基础教程-[德] 安德里亚斯·穆勒(Andreas C.Müller)[美]莎拉·吉多(Sarah Guido) 著,张亮(hysic) 译 下载地址1:网盘下载 下载地址2:网盘下载 内容简介本书是机器学习入门书,以Python语言介绍.主要内容包括:机器学习的基本概念及其应用:实践中常用的机器学习算法以及这些算法的优缺点:在机器学习中待处理数据的呈现方式的重要性,以及应重点关注数据的哪些方面:模型评估和调参的方法,重点讲解交叉验证和网格搜索:管道的概念:如何将前面各章的方

算法工程师<机器学习基础>

<机器学习基础> 逻辑回归,SVM,决策树 1.逻辑回归和SVM的区别是什么?各适用于解决什么问题? https://www.zhihu.com/question/24904422 2.Linear SVM 和 线性回归 有什么异同? 答案:https://www.zhihu.com/question/26768865 基础知识:https://blog.csdn.net/ChangHengyi/article/details/80577318 3.支持向量机属于神经网络范畴吗? https:

《机器学习实战》-机器学习基础

目录 机器学习基础 什么是机器学习 机器学习 应用场景 海量数据 机器学习的重要性 机器学习的基本术语 监督学习和非监督学习 监督学习:supervised learning 非监督学习:unsupervised learning 机器学习工具介绍 Python 非 Python NumPy 函数库基础 测试 Numpy 库 测试 NumPy 库代码整合 总结 机器学习基础 什么是机器学习 机器学习的基本术语 监督学习和非监督学习 机器学习工具介绍 总结 人工智能的核心是机器学习,机器学习的本质

机器学习基础系列--先验概率 后验概率 似然函数 最大似然估计(MLE) 最大后验概率(MAE) 以及贝叶斯公式的理解

目录 机器学习基础 1. 概率和统计 2. 先验概率 3. 后验概率 4. 似然函数 5. 有趣的野史--贝叶斯和似然之争-最大似然概率(MLE)-最大后验概率(MAE)-贝叶斯公式 总结:先验概率 后验概率以及似然函数的关系 机器学习基础 1. 概率和统计 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反. 顾名思义: 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等). 统计研究的问题则相

机器学习基础概论

本文将是一篇长文,是关于机器学习相关内容的一个总体叙述,会总结之前三个例子中的一些关键问题,读完此文将对机器学习有一个更加深刻和全面的认识,那么让我们开始吧. 我们前面三篇文章分别介绍了 二分类问题.多分类问题 和 标量回归问题,这三类问题都是要将输入数据与目标结果之间建立联系.同时,这三类问题都属于监督学习的范畴,监督学习是机器学习的一个分支,还包括三个其他的主要分支:无监督学习.自监督学习 和 强化学习. 监督学习 这是目前最常见的机器学习类型,除了上面提到的分类和回归问题,还包括一些其他的

机器学习基础——详解自然语言处理之tf-idf

本文始发于个人公众号:TechFlow,原创不易,求个关注 今天的文章和大家聊聊文本分析当中的一个简单但又大名鼎鼎的算法--TF-idf.说起来这个算法是自然语言处理领域的重要算法,但是因为它太有名了,以至于虽然我不是从事NLP领域的,但在面试的时候仍然被问过好几次,可见这个算法的重要性. 好在算法本身并不困难,虽然从名字上看疑惑重重,但是一旦理解了其中的原理,一切都水到渠成,再也不怕面试的时候想不起来了.废话不多说,我们进入正题. 算法原理 TF-idf名字的中间用分隔号进行了分割,并且TF和