coursera机器学习技法笔记(13-14)——deep learning & RBFNetwork

13 Deep Learning

13.1 Deep Neural Network

  将神经网络的层数增大,即称为深度学习。深度学习一般在输入数据为row data的时候使用,因为这些数据很难人为构造出合适的特征。深度学习一般面临如下挑战:

  (1)神经网络结构的决定:一般只能通过人的主观领域知识来决定神经网络结构,例如图像识别中的convolutional NNet,即认为相邻的像素才有必要连接到下一层的同一神经元。

  (2)模型复杂度:由于高层神经网络会有很多变量,因此显然会提高模型复杂度。但是一般情况下row data的数据集都很大,因此这个问题不算太严峻。

  (3)优化问题:由于神经网络是一个容易陷入局部最优解的模型,因此应当谨慎选择初始值,目前寻找初始值的方法被称为pre-training。

  (4)计算复杂度:由于数据量很大,因此计算复杂度很高。现在采用先进的硬件架构来缓解这一问题,例如GPU计算。

13.2 Autoencoder

  本节讲述了一种叫Autoencoder的pre-trainning方式。构建一个三层网络,其中前两层是深度网络中相邻的两层,第三层输出层的神经元数量与第一层相同。训练时使输入和输出相同,最终得到1/2层和2/3层之间的权重,1/2层之间的权重即为预训练的权重。

  这么做的理由是,使得特征在经过转换之后有足够的信息可以转换回来,即在转换过程中尽量少地丢失信息。Autoencoder的中间层神经元一般比输入/输出层少,并且可以将其看做是输入数据经过萃取之后的模式特征。

  可以看到,这是一个非监督的方法,对于最终转换后输入与输出相似的特征而言,提取的模式能很好地解释它们,反之则不能,这可以看做是密度估计(解释得好的特征聚集在一起形成高密度)或者离群点检测(解释得不好的特征是离群点)。

  另外,称#1/2#层的权重是编码权重,另外一层权重为解码权重,有时候让两边的权重差作为惩罚项。

13.3 Denoising Autoencoder

  在上一节的基础上,将输入的值加上一些噪音,输出值不变,这样就相当于教算法如何从噪音数据中得到正确结论。由于过拟合可以看做是对噪音做了拟合,因此这样的方法也可以看做是避免过拟合的一种方式。

13.4 Principal Component Analysis

  在上两节中讲述了Autoencode的非线性模式,本小结讲述了其线性模式:

hk(x)=∑d?j=0wkj(∑di=1wijxi)

写成矩阵形式:

hk(x)=WWTx

将WWT进行特征值分解,并构造成损失函数:

Ein=|x?VΓVTx|2

  这样问题就变成了优化V与Γ的问题。很显然,Γ与单位矩阵越相似越好,但由于其秩为d?,因此令其为前d?个对角线元素为1,其余元素为0的矩阵。改写原损失函数:

argmax|CVTx|2

  其中,C矩阵是前d?d?个对角线元素为1,其余元素为0的矩阵,这里原本是后面的元素为1,前面的元素为0,但是将argmin的目标转换为了argmax,因此得到C矩阵。这里有约束条件VVT=E,因此将其作为限制条件,利用拉格朗日乘子带入原目标函数,并对V求导,得到:

XXTv=λv

可以看到,v的求解即矩阵XXT的特征向量,同时将v带入原目标函数中,其求解结果是λ,因此应选择最大特征值对应的特征向量作为V的解。

  可以看到,这个方法和PCA有相似之处,不同点在于,PCA中使用了协方差矩阵。

14 Radial Basis Function Network

14.1 RBF Network Hypothesis

  在带高斯核函数的SVM中,可以把高斯核看做是所有样本对于支持向量的相似度,那么SVM就可以看做是将样本与支持向量的相似度进行线性组合,再取符号。将这种思想反应成神经网络的样子,就是将中间的隐藏层换成与支持向量的相似度。

  由于这种相似度需要基于路径(Racial),即两个样本在高维空间中的距离越近,相似度越高,因此并不是所有的核函数都能替代高斯核。

14.2 RBF Network Learning

  回忆一下高斯核作为相似度的RBF网络:

h(x)=output(∑Mm=1βmRBF(x,μm))

还有另一种方法,令zn=[RBF(xn,μ1),…,RBF(xn,μm)],则该问题可以看做是线性回归问题,βm是待求解权重。在线性回归的解析解中,权重如下求解:

βm=(ZTZ)?1Zym

如果x是各不相同的,则Z是可逆的,即:

βm=Z?1ym

  由于得到的解是解析解,我们可以发现当输入的样本是训练样本时,得到的结果一定是正确的,因此可能会带来过拟合问题,以下介绍一些避免过拟合方法:

  一种方法是加上正则化:

βm=(ZTZ+λI)?1Zym

另一种方法是不要对所有样本求相似度,只是对其中几个求。

14.3 K-means Algorithm

  接上节,可以用k-means的方法求出部分代表来使用到RBF中。K-means保证收敛,因为每一次迭代都会导致损失函数降低。

14.4 k-means and RBF Network in Action

  本节演示了RBF和k-means在实际上使用的情况。

时间: 2024-10-01 23:54:37

coursera机器学习技法笔记(13-14)——deep learning & RBFNetwork的相关文章

coursera机器学习技法笔记(15)——Matrix Factorization

15 Matrix Factorization 15.1 Linear Network Hypothesis 将类别数据转换成向量数据,然后以每个样本的向量数据作为输入,评分数据作为输出,利用3层神经网络进行特征萃取. 由于向量特征数据大量稀疏,因此中间层的tanh函数并不会起什么作用,可以直接换成线性模型,即Linear Network. 将第1/2层网络的权重设为VT,第2/3层网络权重设为W,则该模型可以表述为: h(x)=WTVx 如果x是一个只有1个元素为1的向量,则该式可以写成: h

coursera机器学习技法笔记(12)——Neural Network

12 Neural Network 12.1 Motivation 在神经网络的节点上使用感知机,那我们可以把神经网络看作是通过不同感知机以及常数的线性组合得到一个新的特征,将新的特征加上一个常数再进行线性组合得到结果.其原理和aggregation类似,但是在神经网络中进行了多层级的aggregation. 从生物的角度来说神经网络模拟了人脑神经网络. 12.2 Neural Network Hypothesis 如果神经元节点都用线性回归的话,那么无论怎么组合最终都是个线性回归,模型的能力没

coursera机器学习技法笔记(9-11)——decision tree & Random forest & GBDT

9 Decision Tree 9.1 Decision Tree Hypothesis 本节主要讲述了决策树的两种解释,一种是决策树是由叶子节点和路径组成的,当选择叶子节点对应的路径时采用对应的叶子节点结果:另一种观点是由分叉的树递归组成,当选择某一分支时将采用分支对应的子树的演算法结果. 决策树的优点在于可解释性强,高效.缺点是理论保证不足,并且算法多样. 9.2 Decision Tree Algoithm 决策树主要有4个关键部分: (1)分支分成几支? (2)该怎么分支? (3)什么时

coursera机器学习技法笔记(7-8)——blending and bagging & Adaptive Boosting

7 Blending and Bagging 7.1 Motivation of Affregation 之前都是通过特征转换达到更好的分类目的,而有另一种思路就是将多个模型的分数线性组合起来以期得到更好的效果.它们的权重应为x的函数,这样能包含投票.取最大等多种情况. 7.2 Uniform Blending 本节从理论上探讨了blend的可行性: G(x)=1T∑Tt=1gt(x) 则: avg((gt?f)2)=avg((gt?G2))+(G?f)2 可以看出,任选一个g_t其误差期望是大

机器学习技法笔记-Lecture 13 Deep learning

一些挑战: 网络结构的选择.CNN的想法是对邻近的输入,有着相同的weight. 模型复杂度. 最优化的初始点选择.pre-training 计算复杂度. 包含pre-training的DL框架 如何做pre-training? 下面介绍了一种方式. weight可以看做是对x做特征转换,那么希望在第一次转换后(从0层到1层)仍然能保持足够多的原来的信息,那么再从1层回到0层,应该得到近似的结果. 这种NN叫做autoencoder,两层分别是编码和解码的操作,来逼近 identity func

Coursera 机器学习 第5章 Neural Networks: Learning 学习笔记

5.1节 Cost Function神经网络的代价函数. 上图回顾神经网络中的一些概念: L  神经网络的总层数. sl  第l层的单元数量(不包括偏差单元). 2类分类问题:二元分类和多元分类. 上图展现的是神经网络的损失函数,注意这是正则化的形式. 正则化部分,i.j不为0.当然i.j可以为0,此时的损失函数不会有太大的差异,只是当i.j不为0的形式更为常见. 5.2节 Backpropagation Algorithm最小化损失函数的算法——反向传播算法:找到合适的参数是J(θ)最小. 如

Coursera台大机器学习课程笔记13 -- Regularization

这一节讲的是正则化,在优化中一直会用到正则化项,上课的时候老师一句话代过,没有作过多的解释.听完这节课后, 才明白好大学和野鸡大学的区别有多大.总之,这是很有收获的一节课. 首先介绍了为什么要正则化,简单说就是将复杂的模型用简单的模型进行表示,至于如何表示,这中间有一系列推导假设,很有创意. 第二小节深入的解释了优化中拉格朗日乘子,提出了argument error的概念.关于乘子和正则化项的关系:乘子大,正则化项小,即C小,则模型越简单. 虽然有图,但听起来仍然十分的抽象. 第三小节是关于正则

Coursera 深度学习 吴恩达 deep learning.ai 笔记整理(3-2)——机器学习策略

一.误差分析 定义:有时我们希望算法能够胜任人类能做的任务,但是当算法还没达到人类所预期的性能时,人工检查算法错误会让你知道接下来做什么,这也就是误差分析 检查,发现会把够狗当恒,是否需要做一个项目专门处理狗?收集更多的图,或者 在错误例子中查看多少狗 滤镜花哨的滤镜 干扰分类器 做最有潜力的 弄清楚替身空间 坑你归纳出新的误差类型 简历新的错误分类

Coursera 深度学习 吴恩达 deep learning.ai 笔记整理(4-1)—— 卷积神经网络

1.计算机视觉 神经网络在计算机视觉方面有很广泛的应用, 包括图像分类.物体检测.图像风格转换和融合,但是当图片的尺寸比较大时,参数的数量就会增多,传统的全连接神经网络就会很复杂,一方面无法找到足够的数据训练,另一方面也容易引起过拟合,因此我们引入卷积神经网络 原文地址:https://www.cnblogs.com/dapeng-bupt/p/9059927.html