overfitting(过度拟合)的概念

来自:http://blog.csdn.net/fengzhe0411/article/details/7165549

最近几天在看模式识别方面的资料,多次遇到“overfitting”这个概念,最终觉得以下解释比较容易接受,就拿出来分享下。

overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfitting的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。而解决overfit的方法主要有两种:提前停止树的增长或者对已经生成的树按照一定的规则进行后剪枝。

百度中关于overfitting的标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。

..........................

以下概念由本人摘自《数据挖掘-概念与技术》

P186 过分拟合 即在机器学习期间,它可能并入了训练数据中的某些特殊的异常点,这些异常不在一般数据集中出现。

P212 由于规则可能过分拟合这些数据,因此这种评论是乐观的。也就是说,规则可能在训练数据上行能很好,但是在以后的数据上九不那么好。

............................

补充c4.5算法中的介绍 这个通俗易懂

决策树为什么要剪枝?原因就是避免决策树“过拟合”样本。前面的算法生成的决策树非常的详细而庞大,每个属性都被详细地加以考虑,决策树的树叶节点所覆盖的训练样本都是“纯”的。因此用这个决策树来对训练样本进行分类的话,你会发现对于训练样本而言,这个树表现堪称完美,它可以100%完美正确得对训练样本集中的样本进行分类(因为决策树本身就是100%完美拟合训练样本的产物)。但是,这会带来一个问题,如果训练样本中包含了一些错误,按照前面的算法,这些错误也会100%一点不留得被决策树学习了,这就是“过拟合”。C4.5的缔造者昆兰教授很早就发现了这个问题,他作过一个试验,在某一个数据集中,过拟合的决策树的错误率比一个经过简化了的决策树的错误率要高。那么现在的问题就来了,如何在原生的过拟合决策树的基础上,通过剪枝生成一个简化了的决策树?

最近在看TLD中的2bitBP特征,其中一个就提到了2bitBP能够防止过拟合的特点,除此之外这种特征在跟踪过程中还可以克服光照的影响,而且输出只有4中编码。属于轻量级别的。

随机森林的好处就是计算量很小,并且很精确。

时间: 2024-08-13 13:05:59

overfitting(过度拟合)的概念的相关文章

过度拟合(overfitting)

我们之前解决过一个理论问题:机器学习能不能起作用?现在来解决另一个理论问题:过度拟合. 正如之前我们看到的,很多时候我们必须进行nonlinear transform.但是我们又无法确定Q的值.Q过小,那么Ein会很大:Q过大,就会出现过度拟合问题.如下图所示: 那么overfitting具体受什么因素影响呢? 现在我们又两个例子: 第一个例子的数据来源是:一个10-th的目标函数+noise:第二个例子的数据来源是:一个50-th的目标函数.现在我们用2-th函数(H2)和10-th函数(H1

避免过度拟合之正则化(转)

避免过度拟合之正则化 “越少的假设,越好的结果” 商业情景: 当我们选择一种模式去拟合数据时,过度拟合是常见问题.一般化的模型往往能够避免过度拟合,但在有些情况下需要手动降低模型的复杂度,缩减模型相关属性. 让我们来考虑这样一个模型.在课堂中有10个学生.我们试图通过他们过去的成绩预测他们未来的成绩.共有5个男生和5个女生.女生的平均成绩为60而男生的平均成绩为80.全部学生的平均成绩为70. 现在有如下几种预测方法: 1 用70分作为全班成绩的预测 2 预测男生的成绩为80分,而女生的成绩为6

避免过度拟合之正则化

避免过度拟合之正则化 “越少的假设,越好的结果” 商业情景: 当我们选择一种模式去拟合数据时,过度拟合是常见问题.一般化的模型往往能够避免过度拟合,但在有些情况下需要手动降低模型的复杂度,缩减模型相关属性. 让我们来考虑这样一个模型.在课堂中有10个学生.我们试图通过他们过去的成绩预测他们未来的成绩.共有5个男生和5个女生.女生的平均成绩为60而男生的平均成绩为80.全部学生的平均成绩为70. 现在有如下几种预测方法: 1 用70分作为全班成绩的预测 2 预测男生的成绩为80分,而女生的成绩为6

机器学习--过度拟合

过度拟合(overfitting)是指数据模型在训练集里表现非常满意,但是一旦应用到真实业务实践时,效果大打折扣:换成学术化语言描述,就是模型对样本数据拟合非常好,但是对于样本数据外的应用数据,拟合效果非常差.在我们数据分析挖掘业务实践中,就是"模型搭建时表现看上去非常好,但是应用到具体业务实践时,模型效果显著下降,包括准确率.精度.效果等等显著下降". 过拟合的第一个原因,就是建模样本抽取错误,包括(但不限于)样本数量太少,抽样方法错误,抽样时没有足够正确考虑业务场景或业务特点,等等

过度拟合问题

Underfitting (欠拟合) Overfitting (过拟合) 解决拟合的方法 线性回归正则化 欠拟合/高偏差(high bias) 过拟合/高方差(high variance) 过拟合与欠拟合也可以用 Bias 与 Variance 的角度来解释,欠拟合会导致高 Bias ,过拟合会导致高 Variance ,所以模型需要在 Bias 与 Variance 之间做出一个权衡. 特征过多但是训练集很小,就和容易出现过度拟合的问题. 过拟合的缺点就是不能够很好地泛化到新样本. 解决欠拟合

Machine Learning — 关于过度拟合(Overfitting)

机器学习是在模型空间中选择最优模型的过程,所谓最优模型,及可以很好地拟合已有数据集,并且正确预测未知数据. 那么如何评价一个模型的优劣的,用代价函数(Cost function)来度量预测错误的程度.代价函数有很多中,在Ng的视频中,Linear Regression用的是平方代价函数: Logistic Regression 用的是对数似然代价函数: 对于给定的含m个样本的数据集,其平均损失称为经验风险. 损失函数越小,模型就越好. 我们来分析那个房价预测问题,假设房价面积A,楼层L,房间数N

23-过犹不及:正则化方法防止过度拟合

有时我想:如果我能复制好几份,每个自己都活在不同的平行宇宙多好.人都有永恒不朽的愿望,也有尽善尽美的追求.我们的征途是星辰大海,然而现实中常在泥潭里打滚--想起了一个笑话:Arguing with an Engineer is a lot like wrestling in the mud with a pig, after a couple of hours your realize the pig likes it.很好的自我写照.现实让人焦头烂额,但一味地苛求自己并不是办法,往往还会事倍功

过度拟合(overfilting)

过拟合概念:是指分类器能够百分之百的正确分类样本数据(训练集中的样本数据),对训练集以外的数据却不能够正确分类. 原因:1:模型(算法)太过复杂,比如神经网络,算法太过精细复杂,规则太过严格,以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别,即在训练样本中拟合的很好,在训练样本外拟合的很差,过拟合最早就是从神经网络中发现出来的.策略树深度过深.回归参数过多,都会造成过拟合. 2:训练集中存在噪音,为了拟合异常点,偏离了正常分布. 3:训练集太小或不具有代表性 训练集与测试集互不相交,前

adaboost原理与理论

Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器).其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值.将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器.对adaBoost算法的研究以及应用大多集中于分类问题,同时也出现了一些在回归问题上的应用.就其应用ad