统计学习方法 李航---第8章 提升方法

第8章提升方法

提升(boosting)方法是一种常用的统计学习方法,应用广泛且有效。在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。

基本思想:对于分类问题而言,给定一个训练样本集,求比较粗糙的分类规则(弱分类器)要比求精确的分类规则(强分类器)容易得多。提升方法就是从弱学习算法出发,反复学习,得到一系列弱分类器(又称为基本分类器),然后组合这些弱分类器,构成一个强分类器。大多数的提升方法都是改变训练数据的概率分布(训练数据的权值分布),针对不同的训练数据分布调用弱学习算法学习一系列弱分类器。

8.1 提升方法AdaBoost(AdaptiveBoosting)算法

对提升方法来说,有两个问题需要回答:一是在每一轮如何改变训练数据的权值或概率分布;二是如何将弱分类器组合成一个强分类器。

关于第1个问题,AdaBoost的做法是,提高那些被前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值。这样一来,那些没有得到正确分类的数据,由于其权值的加大而受到后轮的弱分类器的更大关注。于是,分类问题被一系列的弱分类器“分而治之”

至于第2个问题,即弱分类器的组合,AdaBoost采取加权多数表决的方法。具体地,加大分类误差率小的弱分类器的权值,使其在表决中起较大的作用,减小分类误差率大的弱分类器的权值,使其在表决中起较小的作用。

算法步骤说明:

步骤2 (b) 表明Gm(x)在加权的训练数据集上的分类误差率是被Gm(x)误分类样本的权值之和,由此可以看出数据权值分布Dm与基本分类器Gm(x)的分类误差率的关系。

步骤2 (c)可知,当em<=1/2时,am>=0,并且am随着em的减小而增大,所以分类误差率越小的基本分类器在最终分类器中的作用越大。

(d) 更新训练数据的权值分布为下一轮作准备,式(8.4}可以写成

由此可知,被基本分类器Gm(x)误分类样本的权值得以扩大,而被正确分类样本的权值却得以缩小。.两相比较,误分类样本的权值被放大。

不改变所给的训练数据,而不断改变训练数据权值的分布,使得训练数据在基本分类器的学习中起不同的作用,这是AdaBoost的一个特点.

步骤(3)  所有系数am之和并不为1。利用基本分类器的线性组合构建最终分类器是AdaBoost的另一特点。

8.2  AdaBoost算法的训练误差分析

定理8.1 (AdaBoost的训练误差界) AdaBoost算法最终分类器的训练误差界为

这一定理说明,可以在每一轮选取适当的Gm使得Zm最小,从而使训练误差下降最快。对二类分类问题,有如下结果:

定理8.2(二类分类问题AdaBoost的练误差界)

这里,rm=1/2 - em

推论8.1 如果存在r>0,对所有m有rm>=r,则

这表明在此条件下AdaBoost的训练误差是以指数速率下降的。

注意,AdaBoost算法不需要知道下界r。AdaBoost具有适应性,即它能适应弱分类器各自的训练误差率。

AdaBoost的训练误差分析表明,AdaBoost的每次迭代可以减少它在训练数据集上的分类误差率,这说明了它作为提升方法的有效性。

8.3  AdaBoost算法的解释

AdaBoost算法还有另一个解释,即可以认为AdaBoost算法是模型为加法模型、损失函数为指数函数、学习算法为前向分步算法时的二类分类学习方法。

前向分步算法(forward stagewise algorithm)

加法模型:

其中,b为基函数,r为基函数的参数,beta为基函数的系数。

前向分步算法同时求解从m=1到M所有参数的优化问题简化为逐次求解各个参数的优化问题.

前向分步算法与AdaBoost是等价的。

定理8.3  AdaBoost算法是前向分步加法算法的特例。这时,模型是由基本分类器组成的加法模型,损失函数是指数函数。

8.4 提升树

提升树是以分类树或回归树为基本分类器的提升方法。提升树被认为是统计学习中性能最好的方法之一。

提升树模型

提升方法实际采用加法模型(即基函数的线性组合)与前向分步算法。以决策树为基函数的提升方法称为提升树(boosting tree)。对分类问题决策树是二叉分类树,对回归问题决策树是二叉回归树。

基本分类器x<v或x>v,可以看作是由一个根结点直接连接两个叶结点的简单决策树,即所谓的策树桩(decision stump)。

提升树模型可以表示为决策树的加法模型:

其中,T表示决策树,theta为决策树的参数,M为树的个数。

提升树算法

提升树算法采用前向分步算法。首先确定初始提升树f0(x)=0,第m步的模型是

其中,fm-1(x)为当前模型,通过经验风险极小化确定下一棵决策树的参数。

不同问题的提升树学习算法主要区别在于使用的损失函数不同。包括用平方误差损失函数的回归问题,用指数损失函数的分类问题,以及用一般损失函数的一般决策问题。

对于二类分类问题,提升树算法只需将AdaBoost算法8.1中的基本分类器限制为二类分类树即可,是AdaBoost算法的特殊情况。

回归问题的提升树算法

当采用平方误差损失函数时,

在前向分步算法的第m步,损失变为,

其中是当前模型拟合数据的残差(residual)。

所以对回归问题的提升树算法来说,求解经验风险极小化的问题只需简单地拟合当前模型的残差。

梯度提升算法

提升树利用加法模型与前向分步算法实现学习的优化过程。当损失函数是平方损失和指数损失函数时。每一步优化是很简单的。但对一般损失函数而言,往往每一步优化并不那么容易。针对这一问题,Freidmao提出了梯度提升(gradient boosting)算法。这是利用最速下降法的近似方法,其关键是利用损失函数的负梯度在当前模型的值

作为回归问题提升树算法中的残差的近似值,拟合一个回归树。

算法第1步初始化,估计使损失函数极小化的常数值,它是只有一个根结点的树,即 x>c 和 x<c;

第2 (a)步计算损失函数的负梯度在当前模型的值,将它作为残差的估计。对于平方损失函数,它就是通常所说的残差;对于一般损失函数,它就是残差的近似值。

第2 (b)步估计回归树叶结点区域,以拟合残差的近似值

第2 (c)步利用线性搜索估计叶结点区域的值,使损失函数极小化

第2 (d)步更新回归树。

第3步得到输出的最终模型。

来自为知笔记(Wiz)

时间: 2024-12-27 18:29:11

统计学习方法 李航---第8章 提升方法的相关文章

统计学习方法 李航---第12章 统计学习方法总结

第12章 统计学习方法总结 1 适用问题 分类问题是从实例的特征向量到类标记的预测问题:标注问题是从观测序列到标记序列(或状态序列)的预测问题.可以认为分类问题是标注问题的特殊情况. 分类问题中可能的预测结果是二类或多类:而标注问题中可能的预测结果是所有的标记序列,其数目是指数级的. 感知机.k近邻法.朴素贝叶斯法.决策树是简单的分类方法,具有模型直观.方法简单.实现容易等特点: 逻辑斯谛回归与最大熵模型.支持向量机.提升方法是更复杂但更有效的分类方法,往往分类准确率更高: 隐马尔可夫模型.条件

统计学习方法 李航---第1章 统计学习方法概论

第一章 统计学习方法概论 统计学习的主要特点是: (1)统计学习以计算机及网络为平台,是建立在计算机及网络之上的; (2)统计学习以数据为研究对象,是数据驱动的学科: (3)统计学习的目的是对数据进行预测与分析: (4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析; (5)统计学习是概率论.统计学.信息论.计算理论.最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论. 统计学习的对象是数据Cdata) 统计学习的目的是对数据进行预铡与分析

统计学习方法 李航---第6章 逻辑回归与最大熵模型

第6章 逻辑回归与最大熵模型 逻辑回归(logistic regression)是统计学习中的经典分类方法.最大嫡是概率模型学习的一个准则将其推广到分类问题得到最大熵模型(maximum entropy model).逻辑回归模型与最大熵模型都属于对数线性模型. 6.1 逻辑回归模型 定义6.1(逻辑分布):设X是连续随机变量,X服从逻辑斯谛分布是指 X具有下列分布函数和密度函数 式中,u为位置参数,r>0为形状参数. 逻辑分布的密度函数f(x)和分布函数F(x)的图形如图所示.分布函数属于逻辑

统计学习方法 李航---第11章 条件随机场

第11章 条件随机场 条件随机场(conditional random field, CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场.条件随机场可以用于不同的预测问题,本章主要讲述线性链(linear chain)条件随机场在标注问题的应用,这时问题变成了由输入序列对输出序列预测的判别模型,形式为对数线性模型,其学习方法通常是极大似然估计或正则化的极大似然估计. 11.1 概率无向图模型 概率无向图模型(probabilist

统计学习方法 李航---第10章 隐马尔可夫模型

第10章隐马尔可夫模型 隐马尔可夫模型(hidden Markov model, HMM)是可用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型. 10.1 隐马尔可夫模型的基本概念 定义10.1 (隐马尔可夫模型) 隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程.隐藏的马尔可夫链随机生成的状态的序列,称为状态序列(state sequence):每个状态生成一个观

统计学习方法 李航---第7章 支持向量机

第7章 支持向量机 支持向量机(support vector machines, SVM)是一种二类分类模型.它的基本模型是定义在特征空间上的间隔最大的线性分类器:支持向量机还包括核技巧,这使它成为实质上的非线性分类器.支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划(convex quadratic programming)的问题,也等价于正则化的合页损失函数的最小化问.支持向量机的学习算法是求解凸二次规划的最优化算法. 支持向量机学习模型:线性可分支持向量机(linear s

统计学习方法 李航---第5章 决策树

第5章 决策树 决策树(decision tree)是一种基本的分类与回归方法.本章主要讨论用于分类的决策树.决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程.它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布.其主要优点是模型具有可读性,分类速度快.学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型.预测时,对新的数据,利用决策树模型进行分类.决策树学习通常包括3个步骤:特征选择.决策树的生成和决策树的修剪. 5.1 决策树模

统计学习方法 李航---第2章 感知机

第2章 感知机 感知机(perceptron)是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值.感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型. 感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度 下降法对损失函数进行极小化求得感知机模型. 2.1 感知机模型 定义(感知机):假设输入空间(特征空间)是X--Rn,输出空间是 Y={+1,-1}.输入x属于X表示实例的特征向量,对应于

统计学习方法 李航---第4章 朴素贝叶斯法

第4章 朴素贝叶斯法 朴素贝叶斯 (naive Bayes) 法是基于贝叶斯定理与特征条件独立假设的分类方法.对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布:然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出Y. 4.1 朴素贝叶斯法的学习与分类 基本方法 朴素贝叶斯法通过训练数据集学习X和Y的联合概率分布 P(X,Y). 具体地,学习以 下先验概率分布及条件概率分布. 先验概率分布 条件概率分布 条件概率分布有指数级数量的参数,其估计实际是不可行的