元算法(集成方法)是对其他算法进行组合的一种方式。
优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整。
缺点:对离群点敏感
适用数据:数值型、标称型
AdaBoost算法的具体步骤如下:
1. 给定训练样本集S,其中X和Y分别对应于正例样本和负例样本; T为训练的最大循环次数;
2. 初始化样本权重为1/n ,即为训练样本的初始概率分布;
3. 第一次迭代:
(1) 训练样本的概率分布相当下,训练弱分类器;
(2) 计算弱分类器的错误率;
(3) 选取合适阈值,使得误差最小;
(4) 更新样本权重;
经T次循环后,得到T个弱分类器,按更新的权重叠加,最终得到的强分类器。
更新的规则是:减小弱分类器分类效果较好的数据的概率,增大弱分类器分类效果较差的数据的概率。最终的分类器是个弱分类器的加权平均。
1、基于数据集多重抽样的分类器
bagging和boosting的区别
2、训练算法:基于错误提升分类器的性能
Adaboost是adaptive boosting(自适应boosting)的缩写,为了从所有弱分类器中得到最终的分类结果,Adaboost为每个分类器分配了一个权重值alpha,这些alpha值是基于每个弱分类器的错误率进行计算的。
错误率ε=未正确分类的样本数目/所有样本数目
alpha的计算公式:α=1/2ln((1-ε)/ε)
权重向量D的更新:
如果样本正确分类,其权重更改为Di(t+1)=Di(t)e-α/Sum(D)
如果样本被错分,其权重更改为Di(t+1)=Di(t)eα/Sum(D)
3、基于单层决策树构建分类器
单层决策树,也称决策树桩,是一种简单的决策树,仅基于单个特征来做决策。
程序实现可见:
https://www.cnblogs.com/zy230530/p/6909288.html
4、分类算法中的非均衡问题
https://www.cnblogs.com/zy230530/p/6909320.html
原文地址:https://www.cnblogs.com/zhenpengwang/p/10890997.html