统计学习方法笔记 -- Boosting方法

AdaBoost算法

基本思想是,对于一个复杂的问题,单独用一个分类算法判断比较困难,那么我们就用一组分类器来进行综合判断,得到结果,“三个臭皮匠顶一个诸葛亮”

专业的说法,

强可学习(strongly learnable),存在一个多项式算法可以学习,并且准确率很高
弱可学习(weakly learnable),存在一个多项式算法可以学习,但准确率略高于随机猜测

并且可以证明强可学习和弱可学习是等价的

那么发现一个弱可学习算法是很容易的,如果将弱可学习算法boosting到强可学习算法?

AdaBoost就是这样的算法,通过反复学习,得到一组弱分类器,通过组合这些弱分类器得到强分类器

问题就是如果得到一组弱分类器?

当然你可以用不同的分类算法来训练
也可以用不同的训练集,比如bagging,对训练集进行m次随机抽样,得到m个新的训练集

AdaBoost采用的方法是,用相同的算法和训练集,但改变每个训练样本的weight,因为在求解分类器时的目标函数是,加权误差最小,所以不同的权值会得到不同的分类器参数
具体的规则,是每轮分类后, 增大分错的样本的权值,减小分对样本的权值,所有样本权值和为1
这样下一轮分类器求解,就会更关注上一轮分错的这样样本点,达到分而治之的目的

需要注意,可以想到,这个算法对离群值比较敏感,容易overfitting

并且每个弱分类器也有个weight,代表该分类器的误差率,最终用加权多数表决的方式来得到最终结果

具体算法,

对于 训练集

1. 初始化训练样本的权值,平均分布,每个样本的概率相同

2. 反复迭代学习得到m个弱分类器,对于第m个弱分类器,

2.1 对于训练集,以加权误差最小为目标,求出分类器,Gm

2.2 算出,该弱分类器的加权误差

2.3 算出该弱分类器的权值,log函数,可见误差越小,权值越高,即在最终强分类器中的作用越大

2.4 关键的一步,更新训练样本的权值

其中,第一个式子其实是,

指数分布,小于0,取值在(0,1),大于0,取值大于1
所以意思就是,当Gm(x)=y的时候,即判断正确的样本,减小权值
判断错误的样本,增加权值
之所以要除以Zm,是因为所有权值的和要为1,用Zm来进行规范化

3. 上面我们就得到m个弱分类器,如何组合出强分类器,

很简单的,加权多数表决
其中sign函数,取值-1(x<0),0,1(x>0)

时间: 2024-11-02 13:45:52

统计学习方法笔记 -- Boosting方法的相关文章

统计学习方法笔记--监督学习

监督学习(supervised learning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测,计算机的基本操作就是给定一个输入产生一个输出. 基本概念:输入空间.特征空间与输出空间 在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间(input space)与输出空间(output space). 每个具体的输入是一个实例(instance),通常有特征向量(feature vector)表示.这时,所有特征向量存在的空间称为特征空间(featur

统计学习方法笔记(1)——统计学习方法概论

1.统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习.统计学习是数据驱动的学科.统计学习是一门概率论.统计学.信息论.计算理论.最优化理论及计算机科学等多个领域的交叉学科. 统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去.统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提. 统计学习的目的就是考虑学习什么样的模型和如何学习模型. 统计学习

统计学习方法 笔记&lt;第一章&gt;

第一章 统计学习方法概述 1.1 统计学习 统计学习(statistical learning)是关于计算机基于数据概率模型并运用模型进行预测和分析的学科.统计学习也称为统计机器学习,现在人们提及的机器学习一般都是指统计机器学习. 统计学习的对象是数据(data),关于数据的基本假设是同类数据具有一定的统计规律性(前提):比如可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律等. 统计学习的目的:对现有的数据进行分析,构建概率统计模型,分析和预测未知新数据,同时也需要考虑模型的复杂度以

统计学习方法笔记 提升树

提升树是以分类树或回归树为基本分类器的提升方法 提升树被认为是统计学习中性能最好的方法之一 提升方法实际采用加法模型(基函数的线性组合)与前向分步算法 以决策树为基函数的提升方法称为提升树 ? 对分类问题决策树是二叉分类树 对回归问题决策树是二叉回归树 ? 提升树模型可以表示为决策树的加法模型: T(x;Θm)表示决策树: Θm为决策树的参数: M为树的个数. 提升树算法采用前向分步算法. 首先确定初始提升树f0(x)=0,第m歩的模型是 fm-1(x)为当前模型,通过经验风险极小化确定下一棵决

统计学习方法笔记 -- 隐马尔可夫模型

参考,隐马尔可夫模型(HMM)攻略 首先看看确定的状态序列,这种状态序列中状态的变化是确定的,比如 红绿灯,一定是绿灯->红灯->黄灯,这样的状态序列 当然也有些不确定状态序列,比如 天气,今天是晴天,你不能确定明天也一定是晴天或雨天 于是我们用概率来表示这种不确定性,称为马尔可夫过程 (Markov Process),马尔可夫过程的阶数表示当前状态依赖于过去几个状态,出于简单考虑往往用一阶马尔可夫过程,即当前状态仅仅取决于前一个状态. 马尔可夫过程,由状态集合,初始状态和状态转移矩阵组成,

统计学习方法笔记 决策树

决策树(decision tree)是一种基本的分类与回归方法. 决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程. 它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布.其 主要优点是模型具有可读性,分类速度快.学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型. 预测时,对新的数据,利用决策树模型进行分类. 决策树学习通常包括3个步骤:特征选择.决策树的生成和决策树的修剪. 这些决策树学习的思想主要来源于由Quinlan在19

统计学习方法笔记 Logistic regression

logistic distribution 设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数: 式中,μ为位置参数,γ>0为形状参数. 密度函数是脉冲函数 分布函数是一条Sigmoid曲线(sigmoid curve)即为阶跃函数 ? ? 二项逻辑斯谛回归模型 二项逻辑斯谛回归模型是如下的条件概率分布 x?Rn是输入,Y?{0,1}是输出,w?Rn和b?R是参数, w称为权值向量,b称为偏置,w·x为w和x的内积. 可以求得P(Y=1|x)和P(Y=0|x). 逻辑斯谛回归

统计学习方法笔记(KNN)

k近邻法(k-nearest neighbor,k-NN) 输入:实例的特征向量,对应于特征空间的点:输出:实例的类别,可以取多类. 分类时,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测. 实例类别已定,不具有显式的学习过程.k近邻法实际上利用训练数据集对特征 向量空间进行划分,并作为其分类的"模型". 三个基本要素:k值的选择.距离度量及分类决策规则. ? KDtree 实现k近邻法时,主要考虑的问题是如何对训练数据进行快速k近邻搜索. k近邻法最简单的实现方法是线性

统计学习方法笔记2:感知机

1.感知机:二类分类的线性模型,输入为实例的特征向量,输出为某类别,取+1和-1.目的在求出将训练数据进行线性划分的分离超平面,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化求得感知机模型. 2.感知机模型: ,sign为符号函数,w为权值或权向量,b为偏置. 其几何解释:对应一个越平面,w为法向量,b截距. 3.感知机学习策略 1)数据集的线性可分性: 数据集,存在一个超平面S将数据集正实例和负实例完全分布在平面两侧. 2)策略: 任意点到超平面的距离:或 总距离:,在不考虑1/