复习机器学习算法:Boosting

Boosting的思想是集成学习,把许多个弱分类器结合起来,构成一个强分类器。

首先输入原始的训练样本,得到一个弱分类器,可以知道它的正确率和错误率。计算该弱分类器的权重,如下:

然后提高错误分类样本的权重,让后面的分类器focus它们,调整样本的权重:

如果原本分类正确:

如果样本分类错误:

把新的样本输入到后面学习,重复这个过程,得到许多个弱分类器,及其分类器的权重。

注意,Boosting算法中有两个权重,一个是分类器的权重,一个是样本的权重。

Boosting算法的优点:性能好,可以防止过拟合,可以综合多个分类器的优势。

缺点:对离群点比较敏感。

时间: 2024-10-07 03:02:36

复习机器学习算法:Boosting的相关文章

复习机器学习算法:贝叶斯分类器

朴素贝叶斯算法是寻找一个极大后验假设(MAP),即候选假设的最大后验概率. 如下: 在朴素贝叶斯分类器中,假设样本特征之间是独立的,则有: 计算每个假设的后验概率,选出最大的概率,对应的类别就是样本的分类结果. 优缺点: 对小规模的数据表现很好,适合多分类任务,适合增量式训练.当时,需要样本的特征之间独立性较高,不能有太多的相关性.对输入数据的表达形式很敏感. 还有,当样本中某个特征在该类别中出现次数为0,即P(ai |vj)=0, 导致上式的分子全部为0. 这个时候需要使用m-估计和贝叶斯结合

复习机器学习算法:Logistic 回归

区别于线性回归,不是把每个特征直接乘以系数,而是用一个S型函数(Logistic函数).如下: 使用这种形式函数的原因(概率.求导). 代价函数,也不是线性回归中的误差平方和,而是基于对数似然函数,如下: 单个样本的后验概率为:(y = 0, 1) 类似于二项分布的概率密度函数. 整个样本集的后验概率: 对数似然函数对于代价函数,如下: 梯度下降法求解,对上面的代价函数求导,如下: 误差乘以对应的属性值,再求和.形式和线性回归一致,解释了为何设计这样的S型函数和代价函数.这样的梯度下降法的计算量

复习机器学习算法:SVM

SVM的本质是寻找最大间隔的分割超平面. SVM的假设也是在样本的每个属性前面乘以一个系数,代价函数是基于LR演化而来的.LR中是S型函数的假设,SVM中是分段函数cost的形式,再包括正则项,最后SVM的代价函数为: 当C一般要设置地很大,这样子的SVM才能够找到最大间隔的超平面,thetaT*x>=1或者thetaT*x<=-1的时候,我们可以把第一项忽略.这样,转换之后的SVM的目标函数就是我们熟悉的: 我们构建拉格朗日函数: 分别对w和b求偏导,令偏导等于0,回代,可以得到w和b的最优

复习机器学习算法:决策树

决策树就是不断选择信息增益最大的属性,进行分类. 核心部分是使用信息增益判断属性的分类性能.信息增益计算如下: 信息熵: 允许有多个类别. 计算所有属性的信息增益,选择最大的作为决策树的根节点.然后,样本分枝,继续判断剩余的属性的信息增益. 信息增益有缺点:信息增益偏袒具有较多值的属性.分裂信息,用增益比率作为衡量标准,如下: 决策树的优点:对于有缺省特征的样本,也能够分类:允许样本特征有一定的错误,鲁棒性好. 缺点:容易过拟合,生成的树太大.(可以使用提前停止树的生长:剪枝:随机森林等方法避免

复习机器学习算法:线性回归

Logistic回归用来分类,线性回归用来回归. 线性回归是把让样本的属性前面加系数,相加.代价函数是误差平方和形式.所以,在最小化代价函数的时候,可以直接求导,令导数等于0,如下: 也可以使用梯度下降法,学习的梯度和Logistic回归形式一样. 线性回归的优点:计算简单. 缺点:不好处理非线性数据.

机器学习系列(9)_机器学习算法一览(附Python和R代码)

本文资源翻译@酒酒Angie:伊利诺伊大学香槟分校统计学同学,大四在读,即将开始计算机的研究生学习.希望认识更多喜欢大数据和机器学习的朋友,互相交流学习. 内容校正调整:寒小阳 && 龙心尘 时间:2016年4月 出处:http://blog.csdn.net/han_xiaoyang/article/details/51191386 http://blog.csdn.net/longxinchen_ml/article/details/51192086 声明:版权所有,转载请联系作者并注

简单易学的机器学习算法——AdaBoost

一.集成方法(Ensemble Method) 集成方法主要包括Bagging和Boosting两种方法,随机森林算法是基于Bagging思想的机器学习算法,在Bagging方法中,主要通过对训练数据集进行随机采样,以重新组合成不同的数据集,利用弱学习算法对不同的新数据集进行学习,得到一系列的预测结果,对这些预测结果做平均或者投票做出最终的预测.AdaBoost算法和GBDT(Gradient Boost Decision Tree,梯度提升决策树)算法是基于Boosting思想的机器学习算法.

机器学习算法之旅

在理解了我们须要解决的机器学习问题之后,我们能够思考一下我们须要收集什么数据以及我们能够用什么算法.本文我们会过一遍最流行的机器学习算法,大致了解哪些方法可用,非常有帮助. 机器学习领域有非常多算法,然后每种算法又有非常多延伸,所以对于一个特定问题,怎样确定一个正确的算法是非常困难的.本文中我想给你们两种方法来归纳在现实中会遇到的算法. 学习方式 依据怎样处理经验.环境或者不论什么我们称之为输入的数据,算法分为不同种类.机器学习和人工智能课本通常先考虑算法能够适应的学习方式. 这里仅仅讨论几个基

【转】常见面试之机器学习算法思想简单梳理

转:http://www.chinakdd.com/article-oyU85v018dQL0Iu.html 前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大. 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺少的,国内