机器学习经典算法详解及Python实现--元算法、AdaBoost

第一节,元算法略述

遇到罕见病例时,医院会组织专家团进行临床会诊共同分析病例以判定结果。如同专家团临床会诊一样,重大决定汇总多个人的意见往往胜过一个人的决定。机器学习中也吸取了‘三个臭皮匠顶个诸葛亮’(实质上是由三个裨将顶个诸葛亮口误演化而来)的思想,这就是元算法的思想。元算法(meta-algorithm)也叫集成方法(ensemble method),通过将其他算法进行组合而形成更优的算法,组合方式包括:不同算法的集成,数据集不同部分采用不同算法分类后的集成或者同一算法在不同设置下的集成。

有了元算法的思想,PAC((Probably Approximately Correct)学习模型中就有了弱学习算法和强学习算法的等价性问题--即组合任意给定的弱学习算法 ,是否可以将其提升为强学习算法 ? 如果二者等价 ,那么只需将弱学习算法提升为强学习算法就行,而不必寻找很难获得的强学习算法。理论证明,实际上只要弱分类器个数趋向于无穷个时,其组合而成的强分类器的错误率将趋向于零。

弱学习算法---识别错误率小于1/2(即准确率仅比随机猜测略高的学习算法)

强学习算法---识别准确率很高并能在可接受时间内完成的学习算法

介绍几种比较重要的将多个分类器整合为一个分类器的方法--boostrapping方法、bagging方法和Boosting算法。

1)Bootstrapping:

i)重复地从一个样本集合D中采样n个样本,新样本中可能存在重复的值或者丢失原样本集合的一些值。

ii)针对每次采样的子样本集,进行统计学习,获得假设Hi

iii)将若干个假设进行组合,形成最终的假设Hfinal

iv)将最终的假设用于具体的分类任务

2)Bagging方法

i)训练分类器-从整体样本集合中,抽样n* < N个样本, 针对抽样的集合训练分类器Ci,抽取方法有很多种

ii)分类器进行投票,最终的结果是分类器投票的优胜结果,每个分类器权重是相等的

3)Boosting

Boosting是一种与Bagging很类似的技术,两者所使用的多个分类器的类型都是一致的。但是在前者当中,不同的分类器是通过串行训练而获得的,每个新分类器都在已训练出的分类器的性能基础上再进行训练,通过集中关注被已有分类器错分的些数据来获得新的分类器。Boosting分类的结果是基于所有分类器的加权求和结果的,分类器权重并不相等,每个权重代表的是其对应分类器在上一轮迭代中的成功度。Boosting算法有很多种,AdaBoost(Adaptive
Boost)就是其中最流行的,与SVM分类并称机器学习中最强大的学习算法。

AdaBoost 是一种迭代算法,其核心思想是针对同一个训练集训练M个弱分类器,每个弱分类器赋予不同的权重,然后把这些弱分类器集合起来而构造一个更强的最终分类器,本文就详解AdaBoost算法的详细过程。

第二节,AdaBoost算法

(一)认识AdaBoost

AdaBoost算法有AdaBoost.M1和AdaBoost.M2两种算法,AdaBoost.M1是我们通常所说的Discrete AdaBoost,而AdaBoost.M2是M1的泛化形式。关于AdaBoost算法的一个结论是:当弱分类器算法使用简单的分类方法时,boosting的效果明显地统一地比bagging要好.当弱分类器算法使用C4.5时,boosting比bagging较好,但是没有前者明显。后来又有学者提出了解决多标签问题的AdaBoost.MH和AdaBoost.MR算法,其中AdaBoost.MH算法的一种形式又被称为Real
Boost算法---弱分类器输出一个可能度,该值的范围是整个R, 和与之相应的权值调整,强分类器生成的AdaBoost算法。

事实上:Discrete AdaBoost是指,弱分类器的输出值限定在{-1,+1},和与之相应的权值调整,强分类器生成的AdaBoost算法。本文就详解该二分类的AdaBoost算法,其他请参考‘Adaboost原理、算法以及应用’。

假设是二值分类问题,X表示样本空间,Y={-1,+1}表示样本分类。令S={(Xi,yi)|i=1,2,…,m}为样本训练集,其中Xi∈X,yi∈Y。再次重申,我们假设统计样本的分布式是均匀分布的,如此在两分类分类中(类别-1或者1)可以将阈值设为0。实际训练数据中,样本往往是不均衡的,需要算法来选择最优阈值(如ROC曲线)。AdaBoost算法就是学习出一个分类器YM(x)
--由M个弱分类器构成。在进行分类的时候,将新的数据点x代入,如果YM(x)小于0则将x的类别赋为-1,如果YM(x)大于0则将x的类别赋为1。均匀分布中阈值就是0,非均衡分布则还要根据ROC曲线等方法确定一个分类的最优阈值。

 

基本过程:针对不同的训练集训练一个个基本分类器(弱分类器),然后集成而构成一个更强的最终的分类器(强分类器)。不同的训练集是通过调整训练数据中每个样本对应的权重实现的。每次训练后根据此次训练集中的每个样本是否被分类正确以及上次的总体分类的准确率,来确定每个样本的权值。将修改权值的新数据送给下层分类器进行训练,然后将每次训练得到的分类器融合起来,作为最后的决策分类器。

每个弱分类器可以是机器学习算法中的任何一个,如logistic回归,SVM,决策树等。

Adaboost有很多优点:

1)adaboost是一种有很高精度的分类器

2)可以使用各种方法构建子分类器,adaboost算法提供的是框架

3)当使用简单分类器时,计算出的结果是可以理解的,而且弱分类器构造极其简单

4)简单,不用做特征筛选

5)不用担心overfitting

(二)AdaBoost算法过程

完整的adaboost算法如下(训练样本样本总数是N个,M是迭代停止后(积累错误率为0或者达到最大迭代次数)得到弱分类器数目)。

给定一个训练数据集T={(x1,y1), (x2,y2)…(xN,yN)},其中实例,而实例空间,yi属于标记集合{-1,+1},Adaboost的目的就是从训练数据中学习一系列弱分类器或基本分类器,然后将这些弱分类器组合成一个强分类器,流程如下:

最开始的时候,每个样本对应的权重是相同的(1/m),在此样本分布下训练出一个基本分类器h1(x)。对于h1(x)错分的样本,则增加其对应样本的权重;而对于正确分类的样本,则降低其权重。这样可以使得错分的样本突出出来,并得到一个新的样本分布。同时,根据错分的情况赋予h1(x)一个权重,表示该基本分类器的重要程度,错分得越少权重越大。在新的样本分布下,再次对基本分类器进行训练,得到基本分类器h2(x)及其权重。依次类推,经过M次这样的循环,就得到了M个基本分类器及对应权重。最后把这M个基本分类器按一定权重累加起来,就得到了最终所期望的强分类器YM(x)。迭代的停止条件就是达到了训练样本累加分类错误率为0.0或者达到了最大迭代次数。

(i)初始化训练数据的权值分布,每一个训练样本最开始时被赋予相同的权值:1/N。

(ii)进行多轮迭代,迭代的停止条件就是达到了训练样本累加分类错误率为0.0或者达到了最大迭代次数L。用m = 1,2, ..., M表示迭代的第多少轮,也就是得到了多少个弱分类器,M<=L。

a.使用具有权值分布Dm的训练数据集学习,得到基本分类器:

         

b.计算Gm(x)在训练数据集上的分类误差率

         

由上述式子可知,Gm(x)在训练数据集上的误差率em就是被弱分类器Gm(x)分类错误样本的权值之和。就是在这里,训练样本权重因子发生了作用,所有的一切都指向了当前弱分类器的误差。提高分类错误样本的权值,下一个分类器学习中其“地位”就提高了(以单层决策树为例,因为每次都要得到当前训练样本中em最小的决策桩);同时若这次的弱分类器再次分错了这些点,那么其错误率em也就更大,最终导致这个分类器在整个混合分类器的权值am变低---让优秀的分类器占整体的权值更高,而挫的分类器权值更低。

c. 计算Gm(x)的权值系数,am表示Gm(x)在最终分类器中的重要程度(目的:得到基本分类器在最终分类器中所占的权重):

           

可知:em <= 1/2时(两分类Adaboost算法em不可能大于1/2),am >= 0;am随着em的减小而增大,意味着分类误差率越小的本分类器在最终分类器中的作用越大。

另外,若某一个若分类器分类错误率为0计算am将会发生除数为0的异常,这属于边界处理。此时可以根据数据集的具体情况设定错误率为一个很小的数值,例如1e-16。观察样本权重更新就可以知道:没有错分,所有样本的权重就不会进一步调整,样本权重相当于没有改变。当然,该弱分类器权重alpha将较大,但是因为算法并不因此停止,如果后面还有其他弱分类器也能达到训练错误率为0,也同样会有较大的权重,从而避免由单个弱分类器完全决定强分类器的情况。当然,如果第一个弱分类器错误率就为0,那么整个分类就完成了,它有再大的权重alpha也无妨。采用下述修正方案:

alpha = float(0.5*log((1.0-error)/max(error,1e-16) ))

d. 更新训练数据集的权值分布(目的:得到样本的新的权值分布),用于下一轮迭代。这使得被基本分类器Gm(x)分类错误的样本的权值增大,而被正确分类样本的权值减小。通过这样的方式,AdaBoost算法提高了较难分类的样本的‘地位’。

        

Zm的意义在于让权重因子之和为1.0,使向量D是一个概率分布向量。其定义是

               

(iii) 组合各个弱分类器得到最终分类器,如下:

              

(三)Python实现单决策树AdaBoost算法

单层决策树(decision stump,也叫决策树桩)是一种简单的决策树,决策树中只有一个树桩,也就是仅基于样本单个特征来做决策分类。单层决策树是AdaBoost算法中最流行的弱分类器。

AdaBoost把多个不同的决策树用一种非随机的方式组合起来,表现出惊人的性能。第一,把决策树的准确率大大提高,可以与SVM媲美。第二,速度快,且基本不用调参数。第三,几乎不Overfitting。本节就以多个单层决策树做基本分类器实现AdaBoost算法,值得注意的是每个基本分类器单层决策树决策用分类使用的特征都是在样本N个特征中做最优选择的(也就是说在分类特征选择这个层面,每个单层决策树彼此之间是完全独立的,可能若干个单层决策树都是基于同一个样本特征),而非样本特征的串联。

该版本的AdaBoost分类算法包含decisionstump.py(decisionstump对象,其属性是包含dim, thresh, ineqtype三个域的决策树桩,方法有buildstump()、stumpClassify()等。),adaboost.py, object_json.py, test.py,其中adaboot.py实现分类算法,对象adaBoost包含属性分类器词典adaboostClassifierDict和adaboost
train&classify方法等。为了存储和传输更少的字节数,也可以在adaboost模块增加一个新类adaboostClassifier只用来存储分类词典和分类算法(本包中没有这么做)。test模块则包含了一个使用adaboost分类器进行分类的示例。

由于adaboost算法每一个基本分类器都可以采用任何一种分类算法,因此通用的方案是采用dict来存储学习到的AdaBoost分类器,结构如下图:

adaboost对象可以针对决策树、SVM等定义私有的各种弱分类算法,train和classifier方法则会根据当前的弱分类器类型创建响应的弱分类器实例并调用私有弱分类train\classifer方法完成train\classify。需要记住的是,adaboost train方法创建的弱分类器对象只用来调用相应的弱分类器方法,而该弱分类实例所有的属性则存储在adaboostClassifierDict中,这样可以减少弱分类器实例数目。另外,方法jsonDumpsTransfer()和jsonLoadTransfer()则要根据adaboostClassifierDict中支持的弱分类器类型删除\创建相应实例,从而支持JSON存储和解析。

采取上图中的分类器存储方案及相应的分类函数,AdaBoost支持每一个基本分类器在决策树、贝叶斯、SVM等监督学习算法中做最优选择。分类其中adaboostClassifierDict中的classifierType用户可以自己指定,从而在上述分类存储结构的基础上做一些利于分类器程序编写的调整。我实现的单层决策树Adaboost指定classifierType为desicionstump,即基本分类器采用desicionstump,每一个弱分类器都是一个DS对象。所以存储结构可以调整为下图所示(利于分类函数实现):

通过调整adaboost算法弱分类器的数目,会得到分类错误率不同的adaboost分类器。测试证明,numIt=50时错误率最低。

AdaBoost分类算法学习包的下载地址是:

machine learning adaboost

(四)Adaboost应用

由于adaboost算法是一种实现简单、应用也很简单的算法,应该说是一种很适合于在各种分类场景下应用的算法。adaboost算法的一些实际可以使用的场景:

1)用于二分类或多分类的应用场景

2)用于做分类任务的baseline--无脑化,简单,不会overfitting,不用调分类器

3)用于特征选择(feature selection)

4)Boosting框架用于对badcase的修正--只需要增加新的分类器,不需要变动原有分类器

时间: 2024-10-11 01:47:00

机器学习经典算法详解及Python实现--元算法、AdaBoost的相关文章

机器学习经典算法详解及Python实现---朴素贝叶斯分类及其在文本分类、垃圾邮件检测中的应用

摘要: 朴素贝叶斯分类是贝叶斯分类器的一种,贝叶斯分类算法是统计学的一种分类方法,利用概率统计知识进行分类,其分类原理就是利用贝叶斯公式根据某对象的先验概率计算出其后验概率(即该对象属于某一类的概率),然后选择具有最大后验概率的类作为该对象所属的类.总的来说:当样本特征个数较多或者特征之间相关性较大时,朴素贝叶斯分类效率比不上决策树模型:当各特征相关性较小时,朴素贝叶斯分类性能最为良好.另外朴素贝叶斯的计算过程类条件概率等计算彼此是独立的,因此特别适于分布式计算.本文详述了朴素贝叶斯分类的统计学

机器学习经典算法详解及Python实现--基于SMO的SVM分类器

原文:http://blog.csdn.net/suipingsp/article/details/41645779 支持向量机基本上是最好的有监督学习算法,因其英文名为support vector machine,简称SVM.通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解. (一)理解SVM基本原理 1,SVM的本质--分类 给定一些数据点,它们分别属于两个不同的类,现在要找到一个线性分类器把这些

机器学习经典算法详解及Python实现--聚类及K均值、二分K-均值聚类算法

摘要 聚类是一种无监督的学习(无监督学习不依赖预先定义的类或带类标记的训练实例),它将相似的对象归到同一个簇中,它是观察式学习,而非示例式的学习,有点像全自动分类.说白了,聚类(clustering)是完全可以按字面意思来理解的--将相同.相似.相近.相关的对象实例聚成一类的过程.机器学习中常见的聚类算法包括 k-Means算法.期望最大化算法(Expectation Maximization,EM,参考"EM算法原理").谱聚类算法(参考机器学习算法复习-谱聚类)以及人工神经网络算法

机器学习经典算法详解及Python实现--CART分类决策树、回归树和模型树

摘要: Classification And Regression Tree(CART)是一种很重要的机器学习算法,既可以用于创建分类树(Classification Tree),也可以用于创建回归树(Regression Tree),本文介绍了CART用于离散标签分类决策和连续特征回归时的原理.决策树创建过程分析了信息混乱度度量Gini指数.连续和离散特征的特殊处理.连续和离散特征共存时函数的特殊处理和后剪枝:用于回归时则介绍了回归树和模型树的原理.适用场景和创建过程.个人认为,回归树和模型树

机器学习经典算法详解及Python实现--线性回归(Linear Regression)算法

(一)认识回归 回归是统计学中最有力的工具之一.机器学习监督学习算法分为分类算法和回归算法两种,其实就是根据类别标签分布类型为离散型.连续性而定义的.顾名思义,分类算法用于离散型分布预测,如前面讲过的KNN.决策树.朴素贝叶斯.adaboost.SVM.Logistic回归都是分类算法:回归算法用于连续型分布预测,针对的是数值型的样本,使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签. 回归的目的就是建立一个回归方程用来预测目

机器学习经典算法详解及Python实现--K近邻(KNN)算法

(一)KNN依然是一种监督学习算法 KNN(K Nearest Neighbors,K近邻 )算法是机器学习所有算法中理论最简单,最好理解的.KNN是一种基于实例的学习,通过计算新数据与训练数据特征值之间的距离,然后选取K(K>=1)个距离最近的邻居进行分类判断(投票法)或者回归.如果K=1,那么新数据被简单分配给其近邻的类.KNN算法算是监督学习还是无监督学习呢?首先来看一下监督学习和无监督学习的定义.对于监督学习,数据都有明确的label(分类针对离散分布,回归针对连续分布),根据机器学习产

机器学习经典算法详解及Python实现--决策树(Decision Tree)

(一)认识决策树 1,决策树分类原理 近来的调查表明决策树也是最经常使用的数据挖掘算法,它的概念非常简单.决策树算法之所以如此流行,一个很重要的原因就是使用者基本上不用了解机器学习算法,也不用深究它是如何工作的.直观看上去,决策树分类器就像判断模块和终止块组成的流程图,终止块表示分类结果(也就是树的叶子).判断模块表示对一个特征取值的判断(该特征有几个值,判断模块就有几个分支). 如果不考虑效率等,那么样本所有特征的判断级联起来终会将某一个样本分到一个类终止块上.实际上,样本所有特征中有一些特征

机器学习经典算法详解及Python实现---Logistic回归(LR)分类器

(一)认识Logistic回归(LR)分类器 首先,Logistic回归虽然名字里带"回归",但是它实际上是一种分类方法,主要用于两分类问题,利用Logistic函数(或称为Sigmoid函数),自变量取值范围为(-INF, INF),自变量的取值范围为(0,1),函数形式为: 由于sigmoid函数的定义域是(-INF, +INF),而值域为(0, 1).因此最基本的LR分类器适合于对两分类(类0,类1)目标进行分类.Sigmoid 函数是个很漂亮的"S"形,如下

sip鉴权认证算法详解及python加密

1. 认证和加密    认证(Authorization)的作用在于表明自己是谁,即向别人证明自己是谁.而相关的概念是MD5,用于认证安全.注意MD5仅仅是个hash函数而已,并不是用于加密.因为hash函数处理后的数据没法进行反向恢复,这样子的话别人没法盗取你认证身份的口令.    加密(Encryption)的作用在于对想传输的数据进行处理,在网络中即使被窃取也难以破解.加密的信息可以被破解,这需要一把钥匙--"密钥".通过密钥,我们可以对数据进行加密和解密.最有名的专用密钥加密系