Bagging,Boosting,Stacking

　　本文主要总结Bagging 和 Boosting 和 Stacking思想的异同点。这三种算法都可以称作为“meta-algorithms”，就是将多个机器学习方法集成到一个模型里面去降低方差，偏差，或者改善模型预测能力。通常bagging可以降低variance，boosting可以降低bias，stacking可以改善模型预测能力。

　　这三种算法都包含以下两个步骤：

在原始数据的子集样例上产生一个简单的ML模型分布。
将这个分布的模型集成到一个模型当中。

在多分类问题当中，常用到两大类的方法：Ensemble methods 和 Hybrid methods。Ensemble methods:主要是指将多个相同的学习模型集成到一起。最常见的方法里面有Bagging 和 Boosting，它们可以使弱分类器组成强分类器。Hybrid methods:主要是指将不同的学习模型集成到一起组成一个新的学习模型。最常见的方法里面有Stacking (or stacked generation)

下面着重总结bagging 和 boosting 的异同点。

1.Bagging (booststrap aggregating)

具体算法过程如下：

a> 先从原始样本集中抽取训练集。有放回的抽样n个训练样本，其中某些样本可能被多次抽到，而有些样本也可能一次没有抽到。共进行k轮抽取，得到k个训练集。（大约有1/3不会被抽到）　　

b>每次使用一个训练集得到一个模型，k个训练集共得到k个模型。

c>对于分类模型：最后结果采取k个模型投票的方式得到分类结果；对于回归问题：计算上述模型的均值得到最好的结果。（所有模型的重要性相同）

>>bagging只是通过增大训练集合的个数来降低预测的方差。（仅仅改变训练数据，不改变模型）

2.Boosting

最主要的思想是将弱分类器组装成一个强分类器，在PCA(概率近似正确)框架下，则一定可以将弱分类器组成一个强分类器。

boosting两个核心问题：

a>在每一轮如何改变训练数据的权值或概率分布？

boosting中每个模型的更新都是和上一个模型相关的。通过提高那些在前一轮被弱分类器分错样例的权值，来使分类器对误分的数据有较好的效果。

b>通过什么方式来组合弱分类器？

通过加法模型使弱分类器线性组合。增大错误率小的分类器的权值，同时减小错误率较大的分类器的权值。

>>每一个新的训练子集合包含着上一个模型误分类的数据。

Stacking：

stacking类似于boosting。

3.Bagging 和 Boosting二者之间的区别

a>在样本选择上：

Bagging:训练集是在原始集中有放回的选取，从原始数据集中选出的各轮训练集之间是相互独立的。

Boosting:每一轮的训练集不变，只是训练集中每个样例在分类器中的权值发生变化。而权值是根据上一轮的分类结果进行调整。

b>样例权重：

Bagging:使用均匀抽样，每个样例的权重相等。

Boosting:根据错误率不断调整样例的权值，错误率越大则权重越大。

c>预测函数：

Bagging:所以预测函数的权重相等。

Boosting:每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。

d>并行计算：

Bagging:各预测函数可以并行生成。

Boosting:各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。

e>作用和目标：

Bagging:目标是降低variance，而不是bias。适合高方差低偏差模型，也就是复杂模型。

Boosting:目标是降低bias，而不是variacne，适合低方差高偏差模型。

4.总结

Bagging 和Boosting 方法都是将多个分类器集成到一个分类器，只是集成的方法不一样。最后集成模型提高了单一分类器的效果，同时增大了计算量。

常用的算法组合：

Bagging +决策树=随机森林

AdaBoost+决策树=提升树

Gradient Boosting+决策树=GBDT

5.reference

1. http://www.cnblogs.com/liuwu265/p/4690486.html

2.https://stats.stackexchange.com/questions/18891/bagging-boosting-and-stacking-in-machine-learning

3.https://people.cs.pitt.edu/~milos/courses/cs2750-Spring04/lectures/class23.pdf

4.http://quantdare.com/dream-team-combining-classifiers-2/

5.https://quantdare.com/what-is-the-difference-between-bagging-and-boosting/

原文地址：https://www.cnblogs.com/makino/p/9670216.html

时间： 2024-11-05 22:54:39

Bagging,Boosting,Stacking

Bagging,Boosting,Stacking的相关文章

机器学习入门-集成算法(bagging, boosting, stacking)

Jackknife，Bootstraping, bagging, boosting, AdaBoosting, Rand forest 和 gradient boosting的区别

快速理解bootstrap,bagging,boosting，gradient boost-三个概念

Bootstrap aggregating (Bagging) & Boosting

集成学习:随机森林.GBDT

机器学习高阶训练营知识点一览

bootstrap, boosting, bagging 几种方法的联系

转载：bootstrap, boosting, bagging 几种方法的联系

集成学习算法总结----Boosting和Bagging（转）