Bagging and Boosting

  Bagging 和 Boosting 都是一种将几个弱分类器(可以理解为分类或者回归能力不好的分类器)按照一定规则组合在一起从而变成一个强分类器。但二者的组合方式有所区别。

  一、Bagging

  Bagging的思想很简单,我选取一堆弱分类器用于分类,然后最终结果投票决定,哪个票数多就属于哪一类。不过Bagging的一个重要步骤就是在训练每一个弱分类器的时候不是用整个样本来做分类,而是在样本中随机抽取一系列的样本集,可以重复也可以数目少于原样本,这就是Bootstraping。Bagging的思想简单,应用很广泛,最出名的应用就是Random Forest。

  二、Boosting

  Booting的思想与Bagging有所不同。第一个不同,在输入样本的选取上,Bagging是随机抽取样本,而Boosting则是按照前一个分类器的错误率来抽取样本。好比前一个分类器在样本A,B,F上出错了,那么我们会提升抽取这三个样本的概率来帮助我们训练分类器。第二个不同,在弱分类器组合上,Bagging就是投票就好啦,但是Boosting确实不是这样,Boosting主要是将分类器线性组合起来,以为着分类器前面带着个权重,错误率高的分类器的权重会低一些,正确率高的则高一些,这样线性组合起来就是最终的结果。当然也有非线性组合的权重,但在这里就不赘述了。Boosting最出名的应用就是Gradient Boosting Decision Tree,我们会在一篇文章中介绍。

时间: 2024-10-08 22:41:01

Bagging and Boosting的相关文章

Bootstrap(自助法),Bagging,Boosting(提升)

Bootstrap(自助法),Bagging,Boosting(提升): 通俗易懂:http://www.jianshu.com/p/708dff71df3a Bootstrap:就是一个在自身样本重采样的方法来估计真实分布的问题 集成学习(ensemble learning):结合后能得到更合理的边界,减少整体错误,实现更好的分类效果. bagging和boosting都是集成学习(ensemble learning)领域的基本算法. Bagging代表算法-RF(随机森林)  RF:Rand

[Algorithm] 集成学习方法——Bagging和 Boosting

使用机器学习方法解决问题时,有较多模型可供选择. 一般的思路是先根据数据的特点,快速尝试某种模型,选定某种模型后, 再进行模型参数的选择(当然时间允许的话,可以对模型和参数进行双向选择) 因为不同的模型具有不同的特点, 所以有时也会将多个模型进行组合,以发挥"三个臭皮匠顶一个诸葛亮的作用", 这样的思路, 反应在模型中,主要有两种思路:Bagging和Boosting 1. Bagging Bagging 可以看成是一种圆桌会议, 或是投票选举的形式,其中的思想是:"群众的眼

Bagging和Boosting 概念及区别

Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法.即将弱分类器组装成强分类器的方法. 首先介绍Bootstraping,即自助法:它是一种有放回的抽样方法(可能抽到重复的样本). 1.Bagging (bootstrap aggregating) Bagging即套袋法,其算法过程如下: A)从原始样本集中抽取训练集.每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中,

xgboost原理,怎么防止过拟合。随机森林,GBDT,Xgoost的区别,bagging和boosting

一.bagging和boosting的区别 参考:https://blog.csdn.net/blank_tj/article/details/82229322 简单总结Bagging:对数据集进行多次有放回抽样,每次的抽样进行分类计算生成弱分类器,分类问题就是把每一次的计算结果进行投票,看哪一种情况票数多即为最后结果.回归问题就是把所有生成的弱分类器结果进行取平均. 简单总结Boosting:初始对每个样本分配相同的权重,每次经过分类,把对的结果的权重降低,错的结果权重增高,如此往复,直到阈值

笔记︱集成学习Ensemble Learning与树模型、Bagging 和 Boosting

本杂记摘录自文章<开发 | 为什么说集成学习模型是金融风控新的杀手锏?> 基本内容与分类见上述思维导图. . . 一.机器学习元算法 随机森林:决策树+bagging=随机森林 梯度提升树:决策树Boosting=GBDT  . 1.随机森林 博客: R语言︱决策树族--随机森林算法 随机森林的原理是基于原始样本随机抽样获取子集,在此之上训练基于决策树的基学习器,然后对基学习器的结果求平均值,最终得到预测值.随机抽样的方法常用的有放回抽样的booststrap,也有不放回的抽样.RF的基学习器

coursera机器学习技法笔记(7-8)——blending and bagging &amp; Adaptive Boosting

7 Blending and Bagging 7.1 Motivation of Affregation 之前都是通过特征转换达到更好的分类目的,而有另一种思路就是将多个模型的分数线性组合起来以期得到更好的效果.它们的权重应为x的函数,这样能包含投票.取最大等多种情况. 7.2 Uniform Blending 本节从理论上探讨了blend的可行性: G(x)=1T∑Tt=1gt(x) 则: avg((gt?f)2)=avg((gt?G2))+(G?f)2 可以看出,任选一个g_t其误差期望是大

【机器学习】Bagging与Boosting算法原理小结

集成学习(Ensemble Larning)本身不是一个单独的机器学习算法,是通过构建并结合多个机器学习器来完成学习任务的思想.通常的集成学习的方法指的是同质个体学习器.同质个体学习器使用最多的模型是CART决策树和神经网络.按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之间存在强依赖关系,一系列个体学习器基本都需要串行生成,代表算法是Boosting系列算法:第二个是个体学习器之间不存在强依赖关系,一系列个体学习器可以并行生成,代表算法是Bagging和随机森林(Rando

[Machine Learning for Trading] {ud501} Lesson 23: 03-03 Assessing a learning algorithm | Lesson 24: 03-04 Ensemble learners, bagging and boosting

A closer look at KNN solutions What happens as K varies What happens as D varies Metric 1 RMS Error In Sample vs out of sample Which is worse? Cross validation 5-fold cross validation Roll forward cross validation Metric 2: correlation Correlation an

bootstrap, boosting, bagging 几种方法的联系

http://blog.csdn.net/jlei_apple/article/details/8168856 这两天在看关于boosting算法时,看到一篇不错的文章讲bootstrap, jackknife, bagging, boosting, random forest 都有介绍,以下是搜索得到的原文,没找到博客作者的地址, 在这里致谢作者的研究. 一并列出一些找到的介绍boosting算法的资源: (1)视频讲义,介绍boosting算法,主要介绍AdaBoosing    http: