对deep learning的第一周调研

以下仅是我的个人认识,说得不对请轻拍。

(目前,我只看了一些deep learning 的review和TOM Mitchell的书《machine learning》中的神经网络一章,认识有限。感觉3\4讲得一般,勉强一看。第五章纯粹是为了做笔记,真的不好表达,看不懂还是看tom的书吧。)

本文的组织:

1.我对deep learning的总体认识

2.发展简史

3.感知器模型

4.感知器的梯度下降训练方法

5.反向传播算法(BP)

1.我对deep learning的总体认识

deep learning是一类基于人工神经网络的方法总称。多层神经网络,由输入层、输出层、还有多层隐藏层构成。一般,在神经网络的输入层输入的是对象的基本表示,隐藏层是对象的另一种特征表示,低层的隐藏层表示对象的低级特征表示,高层的隐藏层表示对象的高级特征表示,每层的特征表示通过层与层之间系数来表征,神经网络就是从低级特征表示中提取出对象的高级特征的,输出层输出对象的具体类型。拿图像识别的列子来说,迭代训练时,就是从输入层输入图像的像素,然后抽取图像的高级特征,不停地改变神经网络的系数使得输入图像的像素在最后的输出层能够输出图像的正确类型(说的比较牵强)。

2.发展简史

在20世纪40年代,有人根据神经细胞的运行机制提出了感知器模型(单个人工神经元),到了20世纪60年代,由于单层的感知器模型表征能力不强,研究热度下降。20世纪80年代,有人提出了反向传播算法,实现了多层网络的训练,但一般都是训练3层的网络,因为训练更多层时BP就不够用了。人工神经网络,越多层,它的表征能力就越厉害,隐藏层所需要的节点数也就越少。所以人工神经网络的研究又受到限制了。到了2006年,Hinton大神发表了《Deep belief network》这篇文章,提出了分层训练的方法,使得人工神经网络的研究再次火起来。

3.感知器模型

上图就是感知器的最初模型。它分为输入部分:x1,x2,…,xn和各个输入对应的系数w1,w2,…,wn(亦称权向量)还有阈值w0,以及激活函数o和输出。感知器模型是简单的线性分类模型,当输入的线性组合(w1.x1+w2.x2+…+wn.xn)大于阈值(w0)时,激活函数输出1,否则输出-1。如果把w0也归为一个输入的系数,那么上图中的公式就可以解释通了。当扔数据进去训练数据,调整好感知器的系数后,感知器就成为一个有用的分类器。如下图:激活函数就是那条直线。

感知器模型只能表征线性方差,不能表征非线性函数,注定是要被改进的。

4.感知器的梯度下降训练方法

对感知器的训练的就是学习最合适的系数,使得系数能够最好地表征激活函数,或者说使得感知器相对于某固定的训练样本的误差最小。

用数学来表达是这样的:

激活函数表达为:o=w0+w1.x1+…+wn.xn

误差用公式表示。其中,D是训练样例集合,td是训练样例d的目标输出,od是感知器对训练样例d的输出。

那么现在的任务就是调整函数使得E达到最小。

这其实是一个优化问题。

假设现在只有两个系数w0和w1,那么E和w0和w1的关系如下图:

箭头显示该点的梯度的相反方向,指出了在w0和w1平面中沿误差曲面最陡峭的方向。从图中可以看出只要沿着这个方向就能下降就能到误差曲面中误差E最小的那一点。

怎么办?

为了最小化E,从一个任意的初始权向量开始,然后以很小的步伐修改这个向量。每一步都沿着误差曲面产生最陡峭下降的方向修改权向量,循环这个过程直到E最小。

梯度求法如下图:

每次的修改:其中,

5.反向传播算法(BP)

多个线性单元的连接仍产生线性函数,而我们更希望得到能表征非线性函数的网络。感知器模型是做不到了,但是sigmoid单元可以。sigmoid单元将用作BP算法训练的神经网络的神经元。

与感知器模型不同的是,sigmoid单元的激活函数换了而已。如下图

好了。回到BP算法上来。

多层网络,如图:

BP是怎样训练多层网络的?

答:还是用梯度下降方法,只不过改进了一下。

BP既然是用梯度下降方法的改进来训练多层网络,那么误差E是怎样定义的呢?

答:

其中,outputs是网络输出单元的集合,tkd是训练样例d在第k个输出单元的目标输出值。okd是训练样例在第k个输出单元的实际输出值。对于网络的每个输出单元(最后一层的单元)k,它的误差项为

对于以上E的定义发问,隐藏层的神经元有目标输出值这么个定义吗?如果没有,那么E有是怎么定义的?

答:对于每个隐藏单元h,它的误差项为 。因为训练样例仅对网络的输出提供了目标值tk,所以缺少直接的目标值来计算隐藏单元的误差值。因此采取以下间接办法计算隐藏单元的误差项:对受隐藏单元h影响的每一个单元的误差δk进行加权求和,每个误差δk权值为wkh,wkh就是从隐藏单元h到输出单元k的权值。这个权值刻画了隐藏单元h对于输出单元k的误差应“负责”的程度。

那么,最终每个权值就可以按这个公式更新了:,其中,

以上说的yita都是学习率。

时间: 2024-08-30 00:31:22

对deep learning的第一周调研的相关文章

跟着Andrew Ng挑战Machine Learning:第一周 —— 概念+单一变量线性回归

声明: 开个新坑,督促自己坚持学习.这个系列同样是学习心得以及总结,用到的资料都是从吴恩达大神在Coursera上的课程中摘下来的.另外,依照Coursera的要求,保证学员的学习质量,在这一系列心得中不会出现与Coursera习题答案有关的代码. 为了帮助自己更深刻的理解,除了一些人名.引用或者算法的缩写,比如'BFGS'.'L-BFGS'等等之外,尽量使用中文.这一系列的文章结构都是按照大神的课程来的,理解成翻译其实也没毛病. 什么是机器学习? 有很多种说法,大致意思都是:"机器学习是用数据

机器学习001 deeplearning.ai 深度学习课程 Neural Networks and Deep Learning 第一周总结

Deep Learning Specialization 吴恩达老师最近在coursera上联合deeplearning.ai 推出了有关深度学习的一系列课程,相对于之前的machine learning课程,这次的课程更加实用,作业语言也有matlab改为了python从而更加贴合目前的趋势.在此将对这个系列课程做一个学习笔记. 而这次的Deep Learning Specialization分为五门课程,分别为:Neural Networks and Deep Learning,Improv

《Machine Learning》系列学习笔记之第一周

<Machine Learning>系列学习笔记 第一周 第一部分 Introduction The definition of machine learning (1)older, informal definition--Arthur Samuel--"the field of study that gives computers the ability to learn without being explicitly programmed." (2)modern d

Deep Learning in NLP (一)词向量和语言模型

Deep Learning in NLP (一)词向量和语言模型 这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享.其中必然有局限性,欢迎各种交流,随便拍. Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人心的结果.关于这个原因,引一条我比较赞同的微博. @王威廉:Steve Renals算了一下icassp录取文章题目中包含deep learning的数量,发现有44篇,

【深度学习Deep Learning】资料大全

转载:http://www.cnblogs.com/charlotte77/p/5485438.html 最近在学深度学习相关的东西,在网上搜集到了一些不错的资料,现在汇总一下: Free Online Books Deep Learning66 by Yoshua Bengio, Ian Goodfellow and Aaron Courville Neural Networks and Deep Learning42 by Michael Nielsen Deep Learning27 by

Word2Vec之Deep Learning in NLP (一)词向量和语言模型

转自licstar,真心觉得不错,可惜自己有些东西没有看懂 这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享.其中必然有局限性,欢迎各种交流,随便拍. Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人心的结果.关于这个原因,引一条我比较赞同的微博. @王威廉:Steve Renals算了一下icassp录取文章题目中包含deep learning的数量,发现有44篇,而na

【吴恩达课后测验】Course 1 - 神经网络和深度学习 - 第一周测验【中英】

[吴恩达课后测验]Course 1 - 神经网络和深度学习 - 第一周测验[中英] 第一周测验 - 深度学习简介 和"AI是新电力"相类似的说法是什么? [ ?]AI为我们的家庭和办公室的个人设备供电,类似于电力. [ ?]通过"智能电网",AI提供新的电能. [?]AI在计算机上运行,??并由电力驱动,但是它正在让以前的计算机不能做的事情变为可能. [★]就像100年前产生电能一样,AI正在改变很多的行业. 请注意: 吴恩达在视频中表达了同样的观点. 哪些是深度学

Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.1

3.Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.1 http://blog.csdn.net/sunbow0 Spark MLlib Deep Learning工具箱,是根据现有深度学习教程<UFLDL教程>中的算法,在SparkMLlib中的实现.具体Spark MLlib Deep Learning(深度学习)目录结构: 第一章Neural Net(NN) 1.源码 2.源码解析 3.实例 第二章D

Deep Learning(深度学习)学习笔记整理系列七

Deep Learning(深度学习)学习笔记整理系列 声明: 1)该Deep Learning的学习系列是整理自网上很大牛和机器学习专家所无私奉献的资料的.具体引用的资料请看参考文献.具体的版本声明也参考原文献. 2)本文仅供学术交流,非商用.所以每一部分具体的参考资料并没有详细对应.如果某部分不小心侵犯了大家的利益,还望海涵,并联系博主删除. 3)本人才疏学浅,整理总结的时候难免出错,还望各位前辈不吝指正,谢谢. 4)阅读本文需要机器学习.计算机视觉.神经网络等等基础(如果没有也没关系了,没