Machine Learning — 关于过度拟合(Overfitting)

机器学习是在模型空间中选择最优模型的过程,所谓最优模型,及可以很好地拟合已有数据集,并且正确预测未知数据。

那么如何评价一个模型的优劣的,用代价函数(Cost function)来度量预测错误的程度。代价函数有很多中,在Ng的视频中,Linear Regression用的是平方代价函数:

Logistic Regression 用的是对数似然代价函数:

对于给定的含m个样本的数据集,其平均损失称为经验风险。

损失函数越小,模型就越好。

我们来分析那个房价预测问题,假设房价面积A,楼层L,房间数N相关,那我们的目标就是要通过机器学习得到一个关于A,L,N的模型,这个模型可以预测房价,但问题是我们输入是应该用A呢?还是A的平方,或者A 的三次方?(同样对L和N提问)这是个无穷尽的问题,理论上,次数越高,对于已有测试数据能拟合地越好,但是次数越高,就会使模型越复杂,这时就会出现过拟合的问题,例如下图中的第四张小图,用9次方去预测,模型能拟合每个点,但是这种模型往往对已知参数预测地很好,未知数据预测能力很差。

当模型复杂度增加时,训练误差会越来越小,以至于能拟合样本中的绝大部分点,但是测试误差却随着复杂度的增加先减小后增加,存在一个极小值。

为了解决过拟合的问题,我们引入“正则化项”,它的作用是选择经验风险和模型复杂度同时小。这样问题就转化为求经验风险和正则化项之和的最小值

正则化项可以采取不同的形式,有L2范数,L1范数:

时间: 2024-10-12 23:21:24

Machine Learning — 关于过度拟合(Overfitting)的相关文章

过度拟合(overfitting)

我们之前解决过一个理论问题:机器学习能不能起作用?现在来解决另一个理论问题:过度拟合. 正如之前我们看到的,很多时候我们必须进行nonlinear transform.但是我们又无法确定Q的值.Q过小,那么Ein会很大:Q过大,就会出现过度拟合问题.如下图所示: 那么overfitting具体受什么因素影响呢? 现在我们又两个例子: 第一个例子的数据来源是:一个10-th的目标函数+noise:第二个例子的数据来源是:一个50-th的目标函数.现在我们用2-th函数(H2)和10-th函数(H1

overfitting(过度拟合)的概念

来自:http://blog.csdn.net/fengzhe0411/article/details/7165549 最近几天在看模式识别方面的资料,多次遇到“overfitting”这个概念,最终觉得以下解释比较容易接受,就拿出来分享下. overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据.此时我们就叫这个假设出现了overfitting的现象.出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少.而

Machine Learning Algorithms Study Notes(2)--Supervised Learning

Machine Learning Algorithms Study Notes 高雪松 @雪松Cedro Microsoft MVP 2    Supervised Learning    3 2.1    Perceptron Learning Algorithm (PLA)    3 2.1.1    PLA -- "知错能改"演算法    4 2.2    Linear Regression    6 2.2.1    线性回归模型    6 2.2.2    最小二乘法( le

【coursera笔记】Machine Learning(Week6)

发现自己不写总结真是件很恶劣的事情,好多学的东西没有自己总结都忘记了.所以决定从今天开始,学东西的时候一定跟上总结. 我写的东西大多数是自己通俗的总结,不太喜欢写严格的定义或者证明,写了也记不住,欢迎指正. 1. High Bias vs. High Variance High Bias:通常是因为模型过于简单,使得不能成功拟合数据.比如说一些有二次曲线特性的数据,如果用一次直线去拟合就会出现这个问题,所以它对应了Underfitting问题.另外,从泛化角度来说,这样的模型泛化程度更高. Hi

Andrew Ng Machine Learning - Week 3:Logistic Regression & Regularization

此文是斯坦福大学,机器学习界 superstar - Andrew Ng 所开设的 Coursera 课程:Machine Learning 的课程笔记.力求简洁,仅代表本人观点,不足之处希望大家探讨. 课程网址:https://www.coursera.org/learn/machine-learning/home/welcome Week 1: Introduction 笔记:http://blog.csdn.net/ironyoung/article/details/46845233 We

Machine Learning:Linear Regression With Multiple Variables

Machine Learning:Linear Regression With Multiple Variables 接着上次预测房子售价的例子,引出多变量的线性回归. 在这里我们用向量的表示方法使表达式更加简洁. 变量梯度下降跟单变量一样需同步更新所有的theta值. 进行feature scaling的原因是为了使gradient descent算法收敛速度加快.如下图所示,左图theta2与theta1的量级相差太大,这样导致Cost Function的等高图为一个细高的椭圆形状,可以看到

CS281: Advanced Machine Learning 第一节

接触机器学习领域有一段时间了,跟过不少基础的课程,也看过一些入门的书籍和论文,现在想通过一门公开课系统的进入机器学习的领域,所以选择了advanced Machine Learning,这是哈佛大学的一门高级机器学习公开课,主要教材选用的是kevin Murphy Machine Learning: A Probabilistic Perspective, MIT Press 以及Christopher M. Bishop, Pattern Recognition and Machine Lea

Machine Learning Algorithms Study Notes(3)--Learning Theory

Machine Learning Algorithms Study Notes 高雪松 @雪松Cedro Microsoft MVP 本系列文章是Andrew Ng 在斯坦福的机器学习课程 CS 229 的学习笔记. Machine Learning Algorithms Study Notes 系列文章介绍 3 Learning Theory 3.1 Regularization and model selection 模型选择问题:对于一个学习问题,可以有多种模型选择.比如要拟合一组样本点,

Machine Learning - 第7周

SVMs are considered by many to be the most powerful 'black box' learning algorithm, and by posing a cleverly-chosen optimization objective, one of the most widely used learning algorithms today. Support Vector Machines Large Margin Classification Opt