13 Hazard of Overfitting

泛化能力差和过拟合

引起过拟合的原因:

1)过度VC维(模型复杂度高)

2)噪声

3)有限的样本数量N

一个具体实验来看模型复杂度/确定性噪声、随机噪声、样本数量对过拟合的影响

关于确定性噪声

尽量避免过拟合:

1)从简单模型开始:降低模型复杂度

2)data cleaning/data pruning:去noise

3)data hinting(线索):增加样本数量

4)regularization

5)validation

时间: 2024-10-09 20:45:26

13 Hazard of Overfitting的相关文章

机器学习基石(13)--Hazard of Overfitting

本节课程主要讲述过拟合. VC Dimension过大的时候会发生Bad Generalization,也就是Ein很低,但是Eout很高的情况.没有办法做举一反三的学习. Ein越做越好,但是Eout却上升了.这种情况叫做过拟合. 欠拟合就是做的不好的情况,通过增加VC Dimension可以解决. 假设已知两种10次多项式和50次多项式产生的数据,我们用2次多项式和10次多项式进行拟合,看看Ein和Eout的结果分别是什么样子的. 由上图来看,两边都发生了过拟合的情况. 即便我们已知了该数据

机器学习基石——第13-14讲.Hazard of Overfitting

本栏目(机器学习)下机器学习基石专题是个人对Coursera公开课机器学习基石(2014)的学习心得与笔记.所有内容均来自Coursera公开课Machine Learning Foundations中Hsuan-Tien Lin林轩田老师的讲解.(https://class.coursera.org/ntumlone-002/lecture) 第13讲-------Hazard of Overfitting 从这一节开始,我们开始探讨How Can Machines Learn Better的

【Hazard of Overfitting】林轩田机器学习基石

首先明确了什么是Overfitting 随后,用开车的例子给出了Overfitting的出现原因 出现原因有三个: (1)dvc太高,模型过于复杂(开车开太快) (2)data中噪声太大(路面太颠簸) (3)数据量N太小(知道的路线太少) 这里(1)是前提,模型太复杂: (1)模型越复杂,就会捕获train data中越多的点(这当中当然包括更多的噪声点) (2)数据量N太小,根据VC Dimension理论,Eout会增大 这里的noise包括两类: 1. stochoastic noise:

Coursera台大机器学习课程笔记12 -- Hazard of Overfitting

这一节讲的是overfitting,听完对overfitting的理解比以前深刻多了. 先介绍了过拟合,后果就是Ein很小,而Eout很大.然后分别分析了造成过拟合的原因. 首先是对横型复杂度对过拟合的探讨.模型越复杂,越可能产生过拟合.然后给出了造成这一结果的原因:样本数量太小.这是在有noise的情况下, 那么假如没有noise呢? 用下面两幅图来表明各个参数的影响: 从图中可看出,noise和模型复杂度都会对过拟合产生影响.其中需要注意的是右图左下角的那块区域.采用了复杂的模型 就相当于产

机器学习入门资源--汇总

机器学习入门资源--汇总 基本概念 机器学习 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法.机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法.因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论.算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法. 下面从微观到宏观试着梳理一下机器学习的范畴:

NTU-Coursera机器学习:机器学习基石 (Machine Learning Foundations)

课讲内容 这门课以8周设计,分成 4个核心问题,每个核心问题约需2周的时间来探讨.每个约2个小时的录影中,每个小时为一个主题,以会各分成4到5个小段落,每个段落里会有一个后多个随堂的练习.我们在探讨每个核心问题的第二周.依上所述,課程的規畫如下: When Can Machines Learn? [何时可以使用机器学习] 第一周:(NTU-Coursera机器学习:机器学习问题与二元分类) 第一讲:The Learning Problem [机器学习问题]第二讲:Learning to Answ

台大林轩田·机器学习基石记要

台大林轩田·机器学习基石记要 昨天开始看林轩田的机器学习基石,从今天起开始去粗取精 第一讲比较基础,一些概念自己早已经理解了,所以不再做笔记,有点印象的是讲到了ML.DL.AI的一些联系与区别,ML主要是想从数据中学习/逼近一个理想的函数f(x) 第二讲讲到了PLA,感知器学习算法,并且证明了线性可分时感知器收敛定理(与Haykin的Neural Networks and Learning Machines证明相同,另外补充的是学习速率不一定为1,只要非负即可,但是这个地方还有一些疑问,在Hay

林轩田《机器学习基石》 简介

转:https://blog.csdn.net/red_stone1/article/details/80517672 课程介绍 台湾大学林轩田老师曾在coursera上开设了两门机器学习经典课程:<机器学习基石>和<机器学习技法>.<机器学习基石>课程由浅入深.内容全面,基本涵盖了机器学习领域的很多方面.其作为机器学习的入门和进阶资料非常适合.<机器学习技法>课程主要介绍了机器学习领域经典的一些算法,包括支持向量机.决策树.随机森林.神经网络等等.林老师的

python 各模块

01 关于本书 02 代码约定 03 关于例子 04 如何联系我们 1 核心模块 11 介绍 111 内建函数和异常 112 操作系统接口模块 113 类型支持模块 114 正则表达式 115 语言支持模块 12 _ _builtin_ _ 模块 121 使用元组或字典中的参数调用函数 1211 Example 1-1 使用 apply 函数 1212 Example 1-2 使用 apply 函数传递关键字参数 1213 Example 1-3 使用 apply 函数调用基类的构造函数 122