机器学习技法笔记-Lecture 13 Deep learning

一些挑战:

网络结构的选择。CNN的想法是对邻近的输入,有着相同的weight。

模型复杂度。

最优化的初始点选择。pre-training

计算复杂度。

包含pre-training的DL框架

如何做pre-training? 下面介绍了一种方式。

weight可以看做是对x做特征转换,那么希望在第一次转换后(从0层到1层)仍然能保持足够多的原来的信息,那么再从1层回到0层,应该得到近似的结果。

这种NN叫做autoencoder,两层分别是编码和解码的操作,来逼近 identity function。

通过逼近 identity function的方式,能够学习到数据中隐藏的结构,当做一种变换。

对监督学习:有信息价值的表示

对无监督学习:对典型数据的表示

autoencoder的损失函数用平方误差表示,因为只用到了x,可以看做是无监督学习。

一般限制编码的权重等于解码的权重,减少变量的个数,降低复杂度。

deep learning中的正则化

对noise的处理?

加入一些人为噪音,使得autoencoder的pre-training更健壮。

linear autoencoder

这里用到了对称矩阵的特征值分解。V是正交矩阵。

对有两个变量的问题求解,首先固定V,求解beta.

非常巧,这里的结果和pca的结论是一样的。因为它们本质上都是找到一个变换使得数据保持最多的信息(也就是方差最大,同时也等价于残差最小)

标准的PCA首先需要对数据去均值,后续对其他x的变换也需要先减去均值。

时间: 2024-11-09 03:52:41

机器学习技法笔记-Lecture 13 Deep learning的相关文章

机器学习技法笔记-Lecture 12 Neural network

介绍神经网络的基本概念以及Backprop的推导. 输入为x, 首先对x做一个线性变换到s,然后对s做(通常是非线性的)变换,作为下一层的输入.如果对s也是线性的,那整个网络就是线性的,就不需要那么多层了. 对 s 经常使用的一个是双曲余弦的变换tanh 在离原点比较远的地方,它比较像阶梯函数,在接近原点的地方,接近线性函数. 网络的计算过程 可以分两步看,一个是算score,一个是做transform. 如何学习网络中的权重呢? 学习的最终目标仍然是让Ein最小,Ein可以看做是关于全部的w_

coursera机器学习技法笔记(13-14)——deep learning & RBFNetwork

13 Deep Learning 13.1 Deep Neural Network 将神经网络的层数增大,即称为深度学习.深度学习一般在输入数据为row data的时候使用,因为这些数据很难人为构造出合适的特征.深度学习一般面临如下挑战: (1)神经网络结构的决定:一般只能通过人的主观领域知识来决定神经网络结构,例如图像识别中的convolutional NNet,即认为相邻的像素才有必要连接到下一层的同一神经元. (2)模型复杂度:由于高层神经网络会有很多变量,因此显然会提高模型复杂度.但是一

机器学习基石笔记-Lecture 3 Types of learning

介绍了机器学习中的几类问题划分. 半监督学习能够避免标记成本昂贵的问题. 强化学习,可以看做是从反馈机制中来学习. 在线学习,数据一个接一个地产生并交给算法模型线上迭代. 主动学习,机器能针对自己没有信心的数据提问,得到答案后再学习. 针对特征空间也有分类,比如具体的特征.原始的(个人理解是人为可提取的)特征和抽象的(个人理解是难以提炼的)特征.

机器学习基石笔记-Lecture 4 Learning is possible

hoeffding 不等式 说明了在样本量足够大时,抽样估计能够接近真实值. 类比到ml中,对给定的一个假设空间中的h, 它在整个样本空间中的表现可以由在部分样本点上的表现来近似.也就是说样本足够多的时候,Ein与Eout近似相等. 现在已经知道对任意给定的h,在N足够大时,Ein近似于Eout,如果 Ein 非常小,那么Eout也就小,就说明这个 h 和 真实的 f 在很大概率上是很接近的. 现在的一个问题是,如果在多个假设中,其中一个假设h针对训练数据的输出都是正确的,也就是Ein为0,是不

机器学习基石笔记-chapter 1 The learning problem

什么时候适合用机器学习来解决问题? 存在潜在的规律用于学习 但是使用编程定义这种规律困难 存在包含这些规律的数据 机器学习的一种描述: 通过数据D,一个假设的集合H以及一种演算法A,找到集合H中的某个假设g,来逼近真实函数f. A takes D and H to get g.

机器学习基石笔记-Lecture 9 Linear regression

线性回归的任务是对于一个输入,给出输出的实数,保证和真实输出相差越小越好.因为假设空间是线性的,所以最后的g会是直线或者平面. 通常的误差衡量方法是使用平方误差 接下来的问题是如何最小化 Ein 将Ein写成矩阵形式, 注意到Ein是w的函数,是连续的.可微的.凸函数. 对w求偏导使之为0则可以求出最优点.  这是一个关于w的一次方程. 在  不可逆时,它的 pseudo-inverse仍然存在,只是会有多个,选取其中一个去得到w即可. 线性回归是一个学习算法吗? 先来看一看它的Ein H也可以

coursera机器学习技法笔记(15)——Matrix Factorization

15 Matrix Factorization 15.1 Linear Network Hypothesis 将类别数据转换成向量数据,然后以每个样本的向量数据作为输入,评分数据作为输出,利用3层神经网络进行特征萃取. 由于向量特征数据大量稀疏,因此中间层的tanh函数并不会起什么作用,可以直接换成线性模型,即Linear Network. 将第1/2层网络的权重设为VT,第2/3层网络权重设为W,则该模型可以表述为: h(x)=WTVx 如果x是一个只有1个元素为1的向量,则该式可以写成: h

coursera机器学习技法笔记(12)——Neural Network

12 Neural Network 12.1 Motivation 在神经网络的节点上使用感知机,那我们可以把神经网络看作是通过不同感知机以及常数的线性组合得到一个新的特征,将新的特征加上一个常数再进行线性组合得到结果.其原理和aggregation类似,但是在神经网络中进行了多层级的aggregation. 从生物的角度来说神经网络模拟了人脑神经网络. 12.2 Neural Network Hypothesis 如果神经元节点都用线性回归的话,那么无论怎么组合最终都是个线性回归,模型的能力没

机器学习技法 笔记六 Support Vector Regressssion

今天要说的是SVR 上一次提到了kernel logistic rgeression 1.kernel ridge regression 同时也提到了,对于任何的L2-regularized linear model,它的w都可以用资料的线性组合来表示 对于以前学的linear regression ,我们的error,是用的squared error,即差值的平方来达到regression 如果把这个regression配合上regularization的话,那么就是ridge regress