6.集成算法boosting----AdaBoost算法

1.提升算法

　　提升算法实为将一系列单一算法（如决策树，SVM等）单一算法组合在一起使得模型的准确率更高。这里先介绍两种Bagging(代表算法随机森林），Boosting（代表算法AdaBoost-即本篇核心）

　　Bagging思想：以随机森林为例

　　　　假设样本集的总样本量为100个，每个样本有10个特征（也就是维度是10）；随机取样的比例一般为（60%-80%）

　　　　步骤1 ：我们随机从中拿出60个数据（注意这里是有放回的取样）用于建立决策树，这样随机取50次，最终将会形成60棵决策树。

　　　　步骤2：我们在构建决策树时对于每个决策树的特征也采用随机取样（有放回），随机选6个特征。

　　　　步骤3：利用上述步骤1，步骤2构建的60个不同的决策树模型，最终结果用这60棵综合区评判，如下图（图片来此网络）：

　　Boosting思想：在分类问题中，通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能（后文以AdaBoost进行说明）。

　　Bagging与Boosting的异同点：

　　　　同：两者都是集成算法，即综合考虑更过的分类器，提高分类的准确性

　　　　异：分类器层面：比如一个20人的工作小组，现在要对某一问题达成一项决议。现在开会讨论，Bagging是一视同仁的，即不论工作经验多少，能力怎样，我看多数，后者取平均。而Boosting会根据能力或者说经验的多少综合评定给每个工程师一个权重，也就说能力强的，有经验的权重就大一些，他们的意见就重要一些。在这个基础上再去决策（注意这此示例只针对分类器层面）。

　　　　　　样本层面：Boosting也会给予样本一定的权重。如果从结构层面。

　　　　　　模型结构层面：Bagging是并行决策的（可类比并联电路），而Boosting是串行决策的。

2.AdaBoost算法

　　2.1 AdaBoost原理以及形成过程

　　AdaBoost算法的感悟，我在整理时，想采用一种倒立的方式去记录和解读，因为我自己在学习的过程中直接从数学表达式去学习，总是感觉有诸多的疑问，以至于接受此算法所用的时间稍微长了一些，下面正式开始整理自己理解AdaBoost的过程

　　AdaBoost算法是boosting算法中的一种，它的作用就是将一系列弱分类器线性组合在一起形成一个强分类器，可以这样理解AdaBoost就像一个领导，那些弱分类器算法（如：单层决策树等）就像员工，每个员工均有自己的特征，而AdaBoost做为老板的作用就是将这些员工通过某种方式组合在一起将事情做得更好，放在机器学习中就是将分类任务或者说回归任务能做得更好，也就是所说的提升方法。AdaBoost是通过什么样的方式来完成这个任务的呢？

　　在《李航-统计学习方法中》关于提升方法提出两个问题，而AdaBoost的原理就是如何解决这两个问题

　　问题1：每一轮如何改变训练数据的权值或概率分布？

　　AdaBoost：提高那些被前一轮分类器错误分类样本的权值，而降低那些被分类正确样本的权值。这样一来，那些没有得到正确分类的的数据，由于其权值加大而受到后一轮若分类器更大的关注。

　　问题2：如何将若分类器组合成一个强分类器？

　　AdaBoost：采用加权多数表决的方法，即加大分类误差小的弱分类器的权值，使其在表决中起较大的作用，减小分类吴超率大的弱分类器的权值，使其在表决中起较小的作用

　　理解AdaBoost即就是理解上述两个问题的数学表达：

　　AdaBoost最终的数学表达式为：

　　　　其中m表示：第m个分类器，M表示总共有M个分类器

　　　　x：表示样本集合

　　　　上式（1）的形成过程如下：

　　　　输入：训练数据集，其中;弱学习算法；

　　　　输出：最终分类器G(x)

　　2.2 分步骤理解上述AdaBoost算法

　　　　m = 1 时，即利用第一个分类器开始学习训练数据集时

　　　　*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-

　　　　第一步：对于第一个分类器，我们假设每个样本的权值是相同的。引用《李航-统计学习方法》中的案例来理解第一步：

　　　　　　例：对于如下数据集，假设弱分类器由x<ν或想x>v产生，其中阀值ν使得该分类器在训练数据集上分类误差率最低，试用AdaBoost算法学习一个强分类器；

　　　　第二步：确定基本分类器G

　　　　　　此处样本量并不大，我们可以手动计算一下，例如阀值分别取1.5,2.5,3.5，...，9.5时的分类误差率，就能得到当v=2.5是分类误差率最小即：

　　　　第三步：计算在分类器上的训练误差率

　　　　第四步：计算分类器的权值（注意这里是以e为底进行计算的）

　　　　第六步：确定最终分类器

　　　　　　利用上述G(x)对训练数据集进行分类，仍有3个数据被分类错误

　　　　第七步：计算下一次循环的样本集的权重

　　　　　　D₂=(0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.0715,0.1666, 0.1666, 0.1666, 0.0715)

　　　　m = 2 ，组合第二个弱分类器

　　　　*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-　

　　　　重复上述第二步到第七步

　　　　　　分类误差率最小的阀值为8.5

　　　　　　此时利用上述G(x)对训练数据集进行分类，仍有3个点被误分类

　　　　m = 3 ，组合第三个弱分类器

　　　　*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-　

　　　　再次重复上述第二步到第七步

　　　　　　分类误差最小的阀值为5.5

　　　　　　此时利用上述的G(x)在对样本集进行分类，上述训练数据集上有0个误分类点，即误分率为0，此时即可停止，上述G(x)即可作此数据的强分类器

　　1.3 总结

　　　　通过对上述案例的认识，我们可量化的指标所表现的规律再从定性的角度理解

　　　　（1）被前一个分类器分错得样本，下一个分类器再对其进行分类时一定不会被分错，为什么？

　　　　　　我们通过数值观察，被分错的样本，在下一次分类时样本权值被增大如（m=2时样本权值为0.1666的样本），而我们在流程图中第二步提到，在选择分类器时，要求选择分类误差率最低的分类器（为甚要这么选的原理见下文式（11）），显然如果将权值大的样本分类错时根本达不到第二步的要求。

　　　　（2）m=3时为什么误分率为0，从定性的角度如何理解？

　　　　　　m=3时的组合分类器的权值alpha逐渐增大，即我们给予分类误差率低的样本给予了高的权值，而从数值上去判断，最终f(x)>0亦或是f(x)<0是由三个分类器所共同决定的，假如说第一个分类器将某一样本原本是1类别，分成了-1类别，那么其对最终分类器来说，会提供一个负的贡献，而后边的分类器总会将这个负的贡献抵消掉，使得最终结果还是1类别。