机器学习基石(13)--Hazard of Overfitting

本节课程主要讲述过拟合。

VC Dimension过大的时候会发生Bad Generalization,也就是Ein很低,但是Eout很高的情况。没有办法做举一反三的学习。

Ein越做越好,但是Eout却上升了。这种情况叫做过拟合。

欠拟合就是做的不好的情况,通过增加VC Dimension可以解决。

假设已知两种10次多项式和50次多项式产生的数据,我们用2次多项式和10次多项式进行拟合,看看Ein和Eout的结果分别是什么样子的。

由上图来看,两边都发生了过拟合的情况。

即便我们已知了该数据是由10次多项式产生的,我们再用10次多项式去拟合它的时候也会发生过拟合。并且,2次多项式的Eout也比10次多项式要小。

为什么会这样呢?我们去看一下Learning curve

在10次多项式中,当N比较小的时候,generalization的效果不好。所以,当输入数据不够多的时候,还是简单的模型要好一点。

以上都是没有噪声的情况。如果有噪声的时候:

简单的模型依然能够胜出,为什么呢?因为当要学习的事情很复杂的时候,高复杂度本身带来了和有噪声数据一模一样的效果,不管是2次还是10次的多项式都没有办法完美的拟合这些复杂的点,而这些点起到的作用就等同于noise所起到的作用。

什么时候需要小心过拟合的发生呢?

现在假设有一个数据集由正常数据和一部分高斯分布的噪声组成,我们想要看看当噪声的level(记为σ2),模型复杂度(Qf)和f(x)的分布会对整个机器学习的过程有什么影响。

还是以2次多项式和10次多项式为例,两个多项式Eout的差可以用来衡量过拟合的程度:

由上图可以得出结论:

stochastic noise:当样本总量很小的时候,会带来实实在在的过拟合。

deterministic noise:如果目标函数太复杂的时候,例如由50次多项式产生的数据集,我们无论怎样拟合都无法完全cover到,复杂数据集中的点就扮演了噪声的角色。

既然过拟合是经常发生的,那我们怎么样才能避免或者解决这个问题呢?

1. 从简单的模型开始着手。

2. 做一些数据的清洗工作。

3. 增加更多的feature进来。

4. 正则化(下一讲)

5. 做验证。

总结:

时间: 2024-10-07 09:36:03

机器学习基石(13)--Hazard of Overfitting的相关文章

13 Hazard of Overfitting

泛化能力差和过拟合 引起过拟合的原因: 1)过度VC维(模型复杂度高) 2)噪声 3)有限的样本数量N 一个具体实验来看模型复杂度/确定性噪声.随机噪声.样本数量对过拟合的影响 关于确定性噪声 尽量避免过拟合: 1)从简单模型开始:降低模型复杂度 2)data cleaning/data pruning:去noise 3)data hinting(线索):增加样本数量 4)regularization 5)validation

机器学习基石——第13-14讲.Hazard of Overfitting

本栏目(机器学习)下机器学习基石专题是个人对Coursera公开课机器学习基石(2014)的学习心得与笔记.所有内容均来自Coursera公开课Machine Learning Foundations中Hsuan-Tien Lin林轩田老师的讲解.(https://class.coursera.org/ntumlone-002/lecture) 第13讲-------Hazard of Overfitting 从这一节开始,我们开始探讨How Can Machines Learn Better的

NTU-Coursera机器学习:机器学习基石 (Machine Learning Foundations)

课讲内容 这门课以8周设计,分成 4个核心问题,每个核心问题约需2周的时间来探讨.每个约2个小时的录影中,每个小时为一个主题,以会各分成4到5个小段落,每个段落里会有一个后多个随堂的练习.我们在探讨每个核心问题的第二周.依上所述,課程的規畫如下: When Can Machines Learn? [何时可以使用机器学习] 第一周:(NTU-Coursera机器学习:机器学习问题与二元分类) 第一讲:The Learning Problem [机器学习问题]第二讲:Learning to Answ

台大林轩田·机器学习基石记要

台大林轩田·机器学习基石记要 昨天开始看林轩田的机器学习基石,从今天起开始去粗取精 第一讲比较基础,一些概念自己早已经理解了,所以不再做笔记,有点印象的是讲到了ML.DL.AI的一些联系与区别,ML主要是想从数据中学习/逼近一个理想的函数f(x) 第二讲讲到了PLA,感知器学习算法,并且证明了线性可分时感知器收敛定理(与Haykin的Neural Networks and Learning Machines证明相同,另外补充的是学习速率不一定为1,只要非负即可,但是这个地方还有一些疑问,在Hay

林轩田《机器学习基石》 简介

转:https://blog.csdn.net/red_stone1/article/details/80517672 课程介绍 台湾大学林轩田老师曾在coursera上开设了两门机器学习经典课程:<机器学习基石>和<机器学习技法>.<机器学习基石>课程由浅入深.内容全面,基本涵盖了机器学习领域的很多方面.其作为机器学习的入门和进阶资料非常适合.<机器学习技法>课程主要介绍了机器学习领域经典的一些算法,包括支持向量机.决策树.随机森林.神经网络等等.林老师的

机器学习基石笔记6——为什么机器可以学习(2)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录 机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习(4) 机器学习基石笔记5——为什么机器可以学习(1) 机器学习基石笔记6——为什么机器可以学习(2) 机器学习基石笔记7——为什么机器可以学习(3) 机器学习基石笔记8

机器学习基石笔记15——机器可以怎样学得更好(3)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录 机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习(4) 机器学习基石笔记5——为什么机器可以学习(1) 机器学习基石笔记6——为什么机器可以学习(2) 机器学习基石笔记7——为什么机器可以学习(3) 机器学习基石笔记8

机器学习基石笔记9——机器可以怎样学习(1)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录 机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习(4) 机器学习基石笔记5——为什么机器可以学习(1) 机器学习基石笔记6——为什么机器可以学习(2) 机器学习基石笔记7——为什么机器可以学习(3) 机器学习基石笔记8

机器学习基石笔记7——为什么机器可以学习(3)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html 目录 机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习(4) 机器学习基石笔记5——为什么机器可以学习(1) 机器学习基石笔记6——为什么机器可以学习(2) 机器学习基石笔记7——为什么机器可以学习(3) 机器学习基石笔记8