【Adaptive Boosting】林轩田机器学习技法

首先用一个形象的例子来说明AdaBoost的过程：

1. 每次产生一个弱的分类器，把本轮错的样本增加权重丢入下一轮

2. 下一轮对上一轮分错的样本再加重学习，获得另一个弱分类器

经过T轮之后，学得了T个弱分类器，再将这T个弱分类器组合在一起，形成了一个强分类器。

由于每一轮样本的权重都在变化，因此分类器学习的目标函数也产生了变化：

无论是SVM还是Logistic Regression都可以用这种方式学习，给每个样本增加不同的权重。

接下来问题就变成了，如何调整样本的权重？目的是什么？

林介绍了一个原则：

目的：如果想要多个分类器的组合效果好，多个分类器之间的差异就要大一些

方法：上一轮分对的样本在下一轮权重降低，上一轮分错的样本在下一轮提高，这样gt和gt+1的对不同样本的分类能力就有区别了

林接着介绍了一种有实际操作可行性的re-weighting方法。

分对样本权重乘以错误率，分对样本权重乘以（1-错误率）：上张PPT提到了，这样做的结果就是ut+1对于gt分类器来说是random的；但是，本轮对ut+1的学习结果gt+1分类器（如果真的学的靠谱）肯定要优于random的，；这样一来，既保证了差异性，又不至于调整的太过分。

每一轮分类器怎么学习解决了，但是分类器怎么组合还没有提到。

林介绍了一种Linear Aggregation on the Fly的方法：

这种方法每一轮学完分类器，分类器前面的权重也就有了：

对scaling factor取一个ln当成分类器权重

1）系数为正，表示分类器能起到一定的正确分类作用

2）系数为0，表示分类器跟随机的效果一样

3）系数为负，表示分类器判断结果与真实结果更可能是相反的

如果是工程化编程，这里需要考虑如果error rate=0的情况，做一个特殊的处理。

最后林从理论上讲了AdaBoost的依据：

这种方法为什么能行呢？

1）每次前进一小步，Ein可能会越来越小

2）样本量足够多，VC bound可以保证Ein与Eout接近（泛化性好）

林接着介绍了一个AdaBoost的经典例子：

要想找一个弱分类器，那没有比one-dimension stump更弱的了，但就是这么弱的分类器，经过组合也产生了伟大的工作。

工作就是实时人脸识别。

时间： 2024-10-12 22:33:37

【Adaptive Boosting】林轩田机器学习技法的相关文章

【作业四】林轩田机器学习技法 + 机器学习公开新课学习个人体会

这次作业的coding任务量比较大,总的来说需要实现neural network, knn, kmeans三种模型. Q11~Q14为Neural Network的题目,我用单线程实现的,运行的时间比较长,因此把这几道题的正确答案记录如下: Q11: 6 Q12: 0.001 Q13: 0.01 Q14: 0.02 ≤ Eout ≤ 0.04 其中Q11和Q14的答案比较明显,Q12和Q13有两个答案比较接近(参考了讨论区的内容,最终也调出来了) neural network的代码实现思路如下:

【Matrix Factorization】林轩田机器学习技法

在NNet这个系列中讲了Matrix Factorization感觉上怪怪的,但是听完第一小节课程就明白了. 林首先介绍了机器学习里面比较困难的一种问题:categorical features 这种问题的特征就是一些ID编号这类的,不是numerical的. 如果要处理这种情况,需要encoding from categorical to numerical 最常用的一种encoding方法就是binary vector encoding(也是实习工作中用过的路子),将binary vecto

【Neural Network】林轩田机器学习技法

首先从单层神经网络开始介绍最简单的单层神经网络可以看成是多个Perception的线性组合,这种简单的组合可以达到一些复杂的boundary. 比如,最简单的逻辑运算AND OR NOT都可以由多个perception构成的单层神经网络模拟. 但是,单层感知器神经网络能力再强也是有限的,有些逻辑也无法完成.比如,XOR异或运算. 这个时候,就很自然地引出了多层神经网络. 通过这个例子,可以看到多层的神经网络的表达能力要比单层的要强. 上面给出了看待神经网络的一种方式: 1)从原始输入开始一直

【Deep Learning】林轩田机器学习技法

这节课的题目是Deep learning,个人以为说的跟Deep learning比较浅,跟autoencoder和PCA这块内容比较紧密. 林介绍了deep learning近年来受到了很大的关注:deep NNet概念很早就有,只是受限于硬件的计算能力和参数学习方法. 近年来深度学习长足进步的原因有两个: 1)pre-training技术获得了发展 2)regularization的技术获得了发展接下来,林开始介绍autoencoder的motivation. 每过一个隐层,可以看做是做了

【Linear Support Vector Machine】林轩田机器学习技法

首先从介绍了Large_margin Separating Hyperplane的概念. (在linear separable的前提下)找到largest-margin的分界面,即最胖的那条分界线.下面开始一步步说怎么找到largest-margin separating hyperplane. 接下来,林特意强调了变量表示符号的变化,原来的W0换成了b(这样的表示利于推导:觉得这种强调非常负责任,利于学生听懂,要不然符号换来换去的,谁知道你说的是啥) 既然目标是找larger-margin s

【Random Forest】林轩田机器学习技法

总体来说,林对于random forest的讲解主要是算法概况上的:某种程度上说,更注重insights. 林分别列举了Bagging和Decision Tree的各自特点: Random Forest就是这二者的结合体. 1)便于并行化 2)保留了C&RT的优势 3)通过bagging的方法削弱了fully-grown tree的缺点这里提到一个insights:如果各个分类器的diversity越大,aggregation之后的效果可能就越好. 因此,Random Forest不仅样本是b

【Dual Support Vector Machine】林轩田机器学习技法

这节课内容介绍了SVM的核心. 首先,既然SVM都可以转化为二次规划问题了,为啥还有有Dual啥的呢?原因如下: 如果x进行non-linear transform后,二次规划算法需要面对的是d`+1维度的N个变量,以及N个约束如果d`的维度超大,那么二次规划解起来的代价就太大了.因此,SVM的精髓就在于做了如下的问题转化: 不需要问太深奥的数学,知道为啥要dual的motivation就可以了. 这里再次搬出前人的智慧:Lagrange Multipliers 但是这里跟ridge regr

【作业三】林轩田机器学习技法

这次关注的作业题目是Q13~Q20,主要是实现basic C&RT分类树,以及由其构成的Random Forest. 其中basic C&RT分类树的实现思路如下: (一)先抽象出来几个功能: 1)从local file读数据并转化成numpy.array的形式(考虑空行容错)(def read_input_data(path)) 2)如何根据某个维度的feature,计算这个feature产生的branch criteria(此题中为decision stump)(def learn_d

【Support Vector Regression】林轩田机器学习技法

上节课讲了Kernel的技巧如何应用到Logistic Regression中.核心是L2 regularized的error形式的linear model是可以应用Kernel技巧的. 这一节,继续沿用representer theorem,延伸到一般的regression问题. 首先想到的就是ridge regression,它的cost函数本身就是符合representer theorem的形式. 由于optimal solution一定可以表示成输入数据的线性组合,再配合Kernel T