Boosting理解

俗话说的好,三个臭皮匠顶个诸葛亮。Boosting大概就是做这种事情,也可以理解是一个很牛的企业管理者,充分的利用底下员工的各种优点,合理发挥每个人的能量。

简单的理解boosting就是把很多个不同的classifiers使用不同的权重组合起来成一个新的strong classifier进行分类工作。

把我的学习笔记记录一下吧,以供以后使用这个算法的时候参考。

How to obtain the rough rule of thumb?

How to combine this rule of thumbs to get a good thumb?

What is the procedure to choose examples in each of rounds?

a)What is the
procedure to choose examples in each of rounds?

We‘ll focus on the
hardest examples so that we will choose the examples that the
previous thumb misclassified.

b)How to combine
this rule of thumbs to get a good thumb?

To take a majority
vote or weighted majority vote.

Change a subset of examples to construct distribution D_t

That‘s the same thing.

The weight of D_t stands for how we concentrate on a particular round of boosting.

Combine all of h_t into a H_final classifier.

Q:

1.how do you construct the distribution D_t

2.how do we combine all of h_t into a H_final classifier?

AdaBoosting can solve this two questions.

A:

1.At the very first round, we don‘t have any information. We use uniform distribution weight.

At the following rounds, we try to focus on incorrectly classified examples. We cut the weight of the examples that are correctly classified.

2.

This formular is the weight vote of weak thumbs.

There‘s ten samples and three samples are misclassified.

So epsilon_1 = 3 / 10 = 0.30.

The alpha_t may
bigger if one classifier has less error rate.

The classifier is a
black box, so that you can choose whatever method that sitting
around.

最后附上我自己使用Python实现的adaboosting的一个package或者说class供参考。如有错误请多不吝指正。

https://gitcafe.com/NeighborhoodGuo/Ada_boosting.git

Reference:

1.Adaboost Matlab Code

2.Boosting resources collected by Lyon

3.Boosting.org

4.MIT: Simple object detector with boosting

5.Boosting_VideoLectures.NET

6.Boosting算法简介-百度技术博客

时间: 2024-10-14 03:02:36

Boosting理解的相关文章

boosting与bagging理解

作为集成学习的二个方法,其实bagging和boosting的实现比较容易理解,但是理论证明比较费力.下面首先介绍这两种方法. 所谓的集成学习,就是用多重或多个弱分类器结合为一个强分类器,从而达到提升分类方法效果.严格来说,集成学习并不算是一种分类器,而是一种分类器结合的方法. 1.bagging bagging算是很基础的集成学习的方法,他的提出是为了增强分类器效果,但是在处理不平衡问题上却有很好的效果. 如上图,原始数据集通过T次随机采样,得到T个与原始数据集相同大小的子数据集,分别训练得到

快速理解bootstrap,bagging,boosting,gradient boost-三个概念

1 booststraping:意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法. 其核心思想和基本步骤如下: (1)采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样. (2)根据抽出的样本计算统计量T. (3)重复上述N次(一般大于1000),得到统计量T. (4)计算上述N个统计量T的样本方差,得到统计量的方差. 应该说是Bootstrap是现代统计学较为流行的方法,小样本效果好,通过

机器学习系列(11)_Python中Gradient Boosting Machine(GBM)调参方法详解

原文地址:Complete Guide to Parameter Tuning in Gradient Boosting (GBM) in Python by Aarshay Jain 原文翻译与校对:@酒酒Angie && 寒小阳([email protected]) 时间:2016年9月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/52663170 声明:版权所有,转载请联系作者并注明出 1.前言 如果一直以来你只把GBM

机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting

版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系[email protected] 前言: 本来上一章的结尾提到,准备写写线性分类的问题,文章都已经写得差不多了,但是突然听说最近Team准备做一套分布式的分类器,可能会使用Random Forest来做,下了几篇论文看了看,简单的random forest还比较容易弄懂,复杂一点的还会与boosting等算法结合(参见i

GBDT(Gradient Boosting Decision Tree)算法&协同过滤算法

GBDT(Gradient Boosting Decision Tree)算法参考:http://blog.csdn.net/dark_scope/article/details/24863289 理解机器学习算法:http://blog.csdn.net/dark_scope/article/details/25485893 协同过滤算法:http://blog.csdn.net/dark_scope/article/details/17228643

bootstrap, boosting, bagging 几种方法的联系

http://blog.csdn.net/jlei_apple/article/details/8168856 这两天在看关于boosting算法时,看到一篇不错的文章讲bootstrap, jackknife, bagging, boosting, random forest 都有介绍,以下是搜索得到的原文,没找到博客作者的地址, 在这里致谢作者的研究. 一并列出一些找到的介绍boosting算法的资源: (1)视频讲义,介绍boosting算法,主要介绍AdaBoosing    http:

转载:bootstrap, boosting, bagging 几种方法的联系

转:http://blog.csdn.net/jlei_apple/article/details/8168856 这两天在看关于boosting算法时,看到一篇不错的文章讲bootstrap, jackknife, bagging, boosting, random forest 都有介绍,以下是搜索得到的原文,没找到博客作者的地址, 在这里致谢作者的研究. 一并列出一些找到的介绍boosting算法的资源: (1)视频讲义,介绍boosting算法,主要介绍AdaBoosing    htt

浅谈我对机器学习的理解

算算时间,从开始到现在,做机器学习算法也将近八个月了.虽然还没有达到融会贯通的地步,但至少在熟悉了算法的流程后,我在算法的选择和创造能力上有了不小的提升.实话说,机器学习很难,非常难,要做到完全了解算法的流程.特点.实现方法,并在正确的数据面前选择正确的方法再进行优化得到最优效果,我觉得没有个八年十年的刻苦钻研是不可能的事情.其实整个人工智能范畴都属于科研难题,包括模式识别.机器学习.搜索.规划等问题,都是可以作为独立科目存在的.我不认为有谁可以把人工智能的各个方面都做到极致,但如果能掌握其中的

支持向量机通俗导论(理解SVM的三层境界)

作者:July.pluskid :致谢:白石.JerryLead 出处:结构之法算法之道blog. 前言 动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因很简单,一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲清楚,尽管网上已经有朋友写得不错了(见文末参考链接),但在描述数学公式的时候还是显得不够.得益于同学白石的数学证明,我还是想尝试写一下,希望本文在兼顾通俗易懂的基础上,真真正正能足以成为一篇完整概括和介