Coursera台大机器学习技法课程笔记08-Adaptive Boosting

将分类器组合的过程中，将重点逐渐聚焦于那些被错分的样本点，这种做法背后的数学原因，就是这讲的内容。

在用bootstraping生成g的过程中，由于抽样对不同的g就生成了不同的u，接下来就是不断的调整u，使得Ein最小。

g越不同，通过aggregation，越能得到更好的结果。通过调整u来得到不同的g。如果某个gt,在ut+1时表现的不好，那么gt或与gt很像的hypothesis就

可能不会被选到。因此，可通过调整ut+1来使g不同。那么如何定义g的表现不好呢？如果错误率与丢硬币没什么两样（即二分之一），那就是表现差

下面讲了如何调整犯错和没有犯错的u，来使得错误率为二分之一。

更近一步，定义一个scaling factor：

那么就可以得到一个基本的算法。第一轮的u可以相等，但组成G的各个g的权值不应相等。

接下来是详细算法的过程，包括g的权值的选取。整个AdaBoost算法包括三个部分：基本的算法A+优化的g+权值

接下来是理论的保证：只要基本算法A的错误率小于二分之一，就能通过这个算法得到性能很好的算法。

接下来给了个例子，将AdaBoost与decision stump（弱分类器，每次利用单一的feature，二维平面上就是一条条垂直或水平的线，因为它只在一个维度下进行分割）结合

可以参考这位博主的笔记：http://blog.csdn.net/lg1259156776/article/details/46831191

时间： 2025-01-12 05:16:32

Coursera台大机器学习技法课程笔记08-Adaptive Boosting的相关文章

Coursera台大机器学习技法课程笔记01-linear hard SVM

极其淡腾的一学期终于过去了,暑假打算学下台大的这门机器学习技法. 第一课是对SVM的介绍,虽然之前也学过,但听了一次感觉还是很有收获的.这位博主总结了个大概,具体细节还是要听课:http://www.cnblogs.com/bourneli/p/4198839.html 这位博主总结的很详细:http://www.cnblogs.com/xbf9xbf/p/4617120.html

Coursera台大机器学习技法课程笔记11-Gradient Boosted Decision Tree

将Adaboost和decision tree相结合,需要注意的地主是,训练时adaboost需要改变资料的权重,如何将有权重的资料和decision tree相结合呢?方法很类似于前面讲过的bagging,通过采样资料来使资料获得不同的权重. 一棵完全的树的权值会无限大,可能出现过拟合.因此需要得到一棵弱分类的树,方法如下: 接下来比较深入的分析adaboost.经过代换,出现了如下惊人的结果: 某个资料的权重正比于投票分数联系到之前学习的SVM,发现了一个秘密:投票的分数就是某个点到分隔

Coursera台大机器学习技法课程笔记03-Kernel Support Vector Machine

这一节讲的是核化的SVM,Andrew Ng的那篇讲义也讲过,讲的也不错. 首先讲的是kernel trick,为了简化将低维特征映射高维特征后的计算,使用了核技巧.讲义中还讲了核函数的判定,即什么样的函数K能使用kernel trick. 此外,核函数还可以衡量两个特征的相似度,值越大,越相似. 接着讲的是Polynomial Kernel,需要注意的是核函数的系数和常量,这会影响到最终的margin. 再接着讲了高斯Kernel,它能将原始数据映射到无限维!但是如果参数选的不好就会出现过拟合

Coursera台大机器学习技法课程笔记14-Radial Basis Function Network

将Radial Basis Function与Network相结合.实际上衡量两个点的相似性:距离越近,值越大. 将神经元换为与距离有关的函数,就是RBF Network: 可以用kernel和RBF来衡量相似性: 那么如何选中心点呢,一种方法是把所有看过的资料都当做中心点,这就是 FULL NETWORK: 用所有的点作中心太麻烦,可以选择某几个点来投票,这就是KNN: 之前投票的y就是资料的标签,如果每笔资料都不同的话,可以得到一个简洁的贝塔: 减少中心点(相当于选了几个代表)可以做regu

Coursera台大机器学习技法课程笔记09-Decision Tree

这是我们已经学到的(除Decision Tree外) 下面是一个典型的decision tree算法,有四个地方需要我们选择: 接着介绍了一个CART算法:通过decision stump分成两类,衡量子树的标准是,将数据分成两类后,这两类数据的纯度(purifying). 下面是不纯度的衡量: 最后是什么时候停下来: decision tree可能overfitting,需减小Ein和叶子的数目(表示树的复杂度) 如果缺少某一特征的话,可找一替代特征: 将CART和Adaboost进行对比:A

Coursera台大机器学习技法课程笔记13-Deep Learning

深度学习面临的问题和现在解决的办法: 简要来说,分两步使用DL:初始化时一层一层的选择权重,而后再进行训练: 那么怎么做pre-training,即怎么选择权重呢?好的权重能够不改变原有资料的信息,即编码过后信息够解码过后仍能保持用类神经网络做如下: 这样做的原因就是,能找到一个好的特征转换:找到隐藏的资料结构,学到数据典型的表现形式在层与层的autoencoder过程中,不需要标签信息: 下面介绍了一个regularization方法:在资料中加入artifical noise(很疯狂的想

Coursera台大机器学习技法课程笔记02-Dual Support Vector Machine

这节课讲的是SVM的对偶问题,比较精彩的部分:为何要使用拉格朗日乘子以及如何进行对偶变换. 参考:http://www.cnblogs.com/bourneli/p/4199990.html http://www.cnblogs.com/xbf9xbf/p/4619866.html

Coursera台大机器学习技法课程笔记12-Neural Network

由perceptron线性组成的一个神经网络: 通过赋予g不同的权值,来实现不同的切分功能: 但有的切分只通过一次特征转换是不够的,需要多次转换,如下: Neural Network Hypothesis:为了便于优化,将sign(离散)变成tanh,这个函数相当于regression的拉伸与平移: 然后给了一个物理解释:衡量x与权值向量在模式上的的相似程度那么怎么得到权值w呢:可以在最后的错误上对各个权值求偏微分,得到权值变化的方向: 直接求微分不好求,可先求最后一个: 给了一个算法: 这样

Coursera台大机器学习技法课程笔记07-Blending and Bagging

这一节讲如何将得到的feature或hypothesis组合起来用于预测. 1. 林老师给出了几种方法在选择g时,需要选择一个很强的g来确保Eval最小,但如果每个g都很弱该怎么办呢这个时候可以选择Aggregation的方式将这些若g组合起来,组合起来的G,既能feature transform又能regularization这一对矛盾的性质. 2.接着讲了用uniform blending的方式来classification或regression,并推导了使用uniform blendi