【Deep Learning】林轩田机器学习技法

这节课的题目是Deep learning，个人以为说的跟Deep learning比较浅，跟autoencoder和PCA这块内容比较紧密。

林介绍了deep learning近年来受到了很大的关注：deep NNet概念很早就有，只是受限于硬件的计算能力和参数学习方法。

近年来深度学习长足进步的原因有两个：

1）pre-training技术获得了发展

2）regularization的技术获得了发展

接下来，林开始介绍autoencoder的motivation。

每过一个隐层，可以看做是做了一次对原始输入信息的转换。

什么是一个好的转换呢？就是因为这种转换而丢失较多的信息：即encoding之后，甚至可以用decoding的过程复原。

因此，在考虑deep NNet的参数学习的时候，如果在pre-training阶段采用类似autoencoding的方式，似乎是一个不错的选择。

如下，就是autoencoder的一个示例。简单来说，就是经过如下的单层神经网络结构后，输出跟输出十分接近。

这种autoencoder对于机器学习来说有什么作用呢？

1）对于supervised learning来说：这种information-preserving NN的隐层结构+权重是一种对原始输入合理的转换，相当于在结构中学习了data的表达方式

2）对于unsupervised learning来说：可以作为density estimation或outlier detection。这个地方没太理解清，可能还是缺少例子。

autoencoder可以看成是单层的NN，可以用backprop求解；这里需要多加入一个正则化条件，wij(1)=wji(2)

采用上述的basic autoencoder，可以作为Deep NNet的pre-training方式。

接下来，林开始关注Deep NNet的regularization的问题。

之前提到过的几种regularization方式都可以用（structural constraints、weight decay/elimination regularizers、early stopping），下面介绍一种新的regularization technique。

这种方式是：adding noise to data

简单来说，在训练autoencoder的时候加入高斯噪声，喂进去的输出端还是没有加入噪声的data；这样学出来的autoencoder就具备了抵抗noise的能力。

接下来，开始引入PCA相关的内容。

之前陈述的autoencoder可以归类到nonliner autoencoder（因为隐层输出需要经过tanh的操作，所以是nonlinear的）。

那么如果是linear autoencoder呢？(这里把隐层的bias单元去掉)

最后得到的linear autoencoder的表达式就是：h(x)=WW‘x

由此，可以写出来error function

这是一个关于W的4阶的多项式，analytic solution不太好整。

于是林给出了下面的一种求解思路：

上述的核心在于：WW‘是实对称阵。

实对称阵有如下的性质：(http://wenku.baidu.com/view/1470f0e8856a561252d36f5d.html)

我们注意一下W这个矩阵：W是d×d‘维度的矩阵；WW‘是d×d维度的矩阵。

这里回顾一下矩阵的秩的性质：

因此，WW‘的秩最大就是d‘了（d代表数据的原始维度，d‘代表隐层神经元的个数，一般d‘＜d）

WW‘的秩最大是d‘能得到这样的结论：WW‘至多有d‘个非零特征值→对角阵gamma对角线上最多有d‘个非零元素。

这里需要复习线性代数一个概念：

　　如果矩阵可以对角化，那么非零特征值的个数就等于矩阵的秩；如果矩阵不可以对角化，那么这个结论就不一定成立了。

　　这里我们说的WW‘是实对称阵，又因为实对称阵一定可以对角化，因此WW‘的非零特征值特殊就等于矩阵的秩。

通过上述的内容，WW‘x又可以看成是VgammaV‘x:

1）V‘x 可以看成是对原始输入rotate

2）gamma 可以看成是将0特征值的component的部分设成0，并且scale其余的部分

3）再转回来

因此，优化目标函数就出来了

这里可以不用管前面的V（这是正交变换的一个性质，正交变换不改变两个向量的内积，详情见https://zh.wikipedia.org/wiki/正交）

这样一来，问题就简化了：令I-gamma生出很多0，利用gamma对角线元素的自由度，往gamma里面塞1，最多塞d‘个1。剩下的事情交给V来搞定。

1）先把最小化转化为等价的最大化问题

2）用只有一个非零特征值的情况来考虑，Σv‘xx‘v s.t. v‘v=1

3）在上述最优化问题中，最好的v要满足error function和constraints在最优解的时候，他们的微分要平行。

4）再仔细观察下形式 Σxx‘v = lambdav 这里的v不就是XX‘的特征向量么

因此，最优化的v就是特征值最大的XX‘的特征向量。需要降到多少维的，就取前多少个特征向量。

林最后提了一句PCA，其实就是在进行上述步骤之前先对各个维度的向量均值化：

下面说一下PCA。

http://blog.codinglabs.org/articles/pca-tutorial.html

上面这篇日志非常好，基本完全解释了PCA的来龙去脉。

1）PCA的目的是对数据降维之后，还能尽量保持数据原有的信息（分得开。。。方差大。。。）

2）如果对原始数据各个维度做均值化的操作之后，方差&协方差，只用一个矩阵就表示出来了。

上述这段话看明白了，PCA的核心就有了：巧妙地把原始输入数据各个维度均值化之后，方差和协方差都放到一个矩阵里了。

优化的目标是：方差要大，协方差要小；这样的优化目标就等价于把协方差矩阵对角化。

实对称阵对角化是线性代数的基础知识：http://wenku.baidu.com/view/1470f0e8856a561252d36f5d.html

OK，PCA就大体上搞定了。

中途还看了stanford的http://ufldl.stanford.edu/wiki/index.php/PCA

脑子里冒出来一个想法：如果协方差矩阵是满秩的，并且不对数据降维，原来是多少维，还是多少维，那么变换前和变换后有啥区别呢？

从式子上看，这种变化相当于把变换后的协方差矩阵搞成对角阵了。如果从几何上来看，比较下面两个图：

变换前：

变换后：

直观上看就是整体给“放平”了。

变化前：x1越大 x2也越大，反之亦然

变换后：由于给放平了，x1的大小与x2的大小没关系了

因此，变换后这种放平就消除了x1和x2的相关性了，也就是协方差矩阵的非对角元素给搞成0的效果。

时间： 2024-12-15 05:07:22

【Deep Learning】林轩田机器学习技法的相关文章

【作业四】林轩田机器学习技法 + 机器学习公开新课学习个人体会

这次作业的coding任务量比较大,总的来说需要实现neural network, knn, kmeans三种模型. Q11~Q14为Neural Network的题目,我用单线程实现的,运行的时间比较长,因此把这几道题的正确答案记录如下: Q11: 6 Q12: 0.001 Q13: 0.01 Q14: 0.02 ≤ Eout ≤ 0.04 其中Q11和Q14的答案比较明显,Q12和Q13有两个答案比较接近(参考了讨论区的内容,最终也调出来了) neural network的代码实现思路如下:

【Matrix Factorization】林轩田机器学习技法

在NNet这个系列中讲了Matrix Factorization感觉上怪怪的,但是听完第一小节课程就明白了. 林首先介绍了机器学习里面比较困难的一种问题:categorical features 这种问题的特征就是一些ID编号这类的,不是numerical的. 如果要处理这种情况,需要encoding from categorical to numerical 最常用的一种encoding方法就是binary vector encoding(也是实习工作中用过的路子),将binary vecto

【Linear Support Vector Machine】林轩田机器学习技法

首先从介绍了Large_margin Separating Hyperplane的概念. (在linear separable的前提下)找到largest-margin的分界面,即最胖的那条分界线.下面开始一步步说怎么找到largest-margin separating hyperplane. 接下来,林特意强调了变量表示符号的变化,原来的W0换成了b(这样的表示利于推导:觉得这种强调非常负责任,利于学生听懂,要不然符号换来换去的,谁知道你说的是啥) 既然目标是找larger-margin s

【Random Forest】林轩田机器学习技法

总体来说,林对于random forest的讲解主要是算法概况上的:某种程度上说,更注重insights. 林分别列举了Bagging和Decision Tree的各自特点: Random Forest就是这二者的结合体. 1)便于并行化 2)保留了C&RT的优势 3)通过bagging的方法削弱了fully-grown tree的缺点这里提到一个insights:如果各个分类器的diversity越大,aggregation之后的效果可能就越好. 因此,Random Forest不仅样本是b

【作业三】林轩田机器学习技法

这次关注的作业题目是Q13~Q20,主要是实现basic C&RT分类树,以及由其构成的Random Forest. 其中basic C&RT分类树的实现思路如下: (一)先抽象出来几个功能: 1)从local file读数据并转化成numpy.array的形式(考虑空行容错)(def read_input_data(path)) 2)如何根据某个维度的feature,计算这个feature产生的branch criteria(此题中为decision stump)(def learn_d

【Neural Network】林轩田机器学习技法

首先从单层神经网络开始介绍最简单的单层神经网络可以看成是多个Perception的线性组合,这种简单的组合可以达到一些复杂的boundary. 比如,最简单的逻辑运算AND OR NOT都可以由多个perception构成的单层神经网络模拟. 但是,单层感知器神经网络能力再强也是有限的,有些逻辑也无法完成.比如,XOR异或运算. 这个时候,就很自然地引出了多层神经网络. 通过这个例子,可以看到多层的神经网络的表达能力要比单层的要强. 上面给出了看待神经网络的一种方式: 1)从原始输入开始一直

【Adaptive Boosting】林轩田机器学习技法

首先用一个形象的例子来说明AdaBoost的过程: 1. 每次产生一个弱的分类器,把本轮错的样本增加权重丢入下一轮 2. 下一轮对上一轮分错的样本再加重学习,获得另一个弱分类器经过T轮之后,学得了T个弱分类器,再将这T个弱分类器组合在一起,形成了一个强分类器. 由于每一轮样本的权重都在变化,因此分类器学习的目标函数也产生了变化: 无论是SVM还是Logistic Regression都可以用这种方式学习,给每个样本增加不同的权重. 接下来问题就变成了,如何调整样本的权重?目的是什么? 林介绍了

【Dual Support Vector Machine】林轩田机器学习技法

这节课内容介绍了SVM的核心. 首先,既然SVM都可以转化为二次规划问题了,为啥还有有Dual啥的呢?原因如下: 如果x进行non-linear transform后,二次规划算法需要面对的是d`+1维度的N个变量,以及N个约束如果d`的维度超大,那么二次规划解起来的代价就太大了.因此,SVM的精髓就在于做了如下的问题转化: 不需要问太深奥的数学,知道为啥要dual的motivation就可以了. 这里再次搬出前人的智慧:Lagrange Multipliers 但是这里跟ridge regr

【Support Vector Regression】林轩田机器学习技法

上节课讲了Kernel的技巧如何应用到Logistic Regression中.核心是L2 regularized的error形式的linear model是可以应用Kernel技巧的. 这一节,继续沿用representer theorem,延伸到一般的regression问题. 首先想到的就是ridge regression,它的cost函数本身就是符合representer theorem的形式. 由于optimal solution一定可以表示成输入数据的线性组合,再配合Kernel T