(六) 6.3 Neurons Networks Gradient Checking

BP算法很难调试，一般情况下会隐隐存在一些小问题，比如（off-by-one error），即只有部分曾德权重得到训练，或者忘记计算bais unit，这虽然会得到一个正确的结果，但效果差于准确BP得到的结果。

有了cost function，目标是求出一组参数W，b，这里以表示，cost function 暂且记做。假设，则，即一维情况下的Gradient Descent:

根据6.2中对单个参数单个样本的求导公式：

可以得到每个参数的偏导数，对所有样本累计求和，可以得到所有训练数据对参数的偏导数记做，是靠BP算法求得的，为了验证其正确性，看下图回忆导数公式：

可见有：那么对于任意值，我们都可以对等式左边的导数用：

来近似。

给定一个被认为能计算的函数，可以用下面的数值检验公式

应用时，通常把设置为一个很小的常量，比如在数量级，最好不要太小了，会造成数值的舍入误差。上式两端值的接近程度取决于的具体形式。假定的情况下，上式左右两端至少有4位有效数字是一样的（通常会更多）。

当是一个n维向量而不是实数时，且，在 Neorons Network 中，J（W，b）可以想象为 W，b 组合扩展而成的一个长向量，现在又一个计算的函数，如何检验能否输出到正确结果呢，用的取值来检验，对于向量的偏导数：

根据上图，对 _i求导时，只需要在向量的第i维上进行加减操作，然后求值即可，定义，其中

和几乎相同，除了第行元素增加了，类似地，得到的第行减小了，然后求导并与比较：

上式中左边为BP算法的结果，右边为真正的梯度，只要两者很接近，说明BP算法是在正确工作，对于梯度下降中的参数是按照如下方式进行更新的：

即有分别为：

最后只需总体损失函数J(W，b)的偏导数与上述的值比较即可。

除了梯度下降外，其他的常见的优化算法：1) 自适应的步长，2) BFGS L-BFGS，3) SGD，4) 共轭梯度算法，以后涉及到再看。

时间： 2024-12-17 17:14:31

(六) 6.3 Neurons Networks Gradient Checking的相关文章

ufldl学习笔记与编程作业：Debugging: Gradient Checking（梯度检测）

ufldl出了新教程,感觉比之前的好,从基础讲起,系统清晰,又有编程实践. 在deep learning高质量群里面听一些前辈说,不必深究其他机器学习的算法,可以直接来学dl. 于是最近就开始搞这个了,教程加上matlab编程,就是完美啊. 新教程的地址是:http://ufldl.stanford.edu/tutorial/ 本节学习链接:http://ufldl.stanford.edu/tutorial/supervised/DebuggingGradientChecking/ 所谓梯度,

深度学习 Deep Learning UFLDL 最新Tutorial 学习笔记 4：Debugging: Gradient Checking

1 Gradient Checking 说明前面我们已经实现了Linear Regression和Logistic Regression.关键在于代价函数Cost Function和其梯度Gradient的计算. 在Gradient的计算中,我们一般採用推导出来的计算公式来进行计算. 可是我们看到,推导出来的公式是复杂的.特别到后面的神经网络,更加复杂.这就产生了一个问题,我们怎样推断我们编写的程序就是计算出正确的Gradient呢? 解决的方法就是通过数值计算的方法来估算Gradient然后

CS229 6.1 Neurons Networks Representation

面对复杂的非线性可分的样本是,使用浅层分类器如Logistic等需要对样本进行复杂的映射,使得样本在映射后的空间是线性可分的,但在原始空间,分类边界可能是复杂的曲线.比如下图的样本只是在2维情形下的示例,假设有100维度,即特征数目是100,若使用logistic来做分类,对于这种线性不可分的情形,要对特征进行各种形式的组合映射,然后用映射后扩充的特征进行分类,可能会增加大量的参数,计算复杂性可想而知,而且可能会造成严重的over-fitting,可见logistic分类的局限性,下面引入NN.

（六）6.12 Neurons Networks from self-taught learning to deep network

self-taught learning 在特征提取方面完全是用的无监督的方法,对于有标记的数据,可以结合有监督学习来对上述方法得到的参数进行微调,从而得到一个更加准确的参数a. 在self-taught learning中,首先用无标记数据训练一个sparse autoencoder,这样用对于原始输入x,经过sparse autoencoder得到隐层特征a: 这样对于分类问题,目标是预测样本的类别标号 .现在的标注数据集 ,包含个标注样本.此前已经说明,可以利用稀疏自编码器获得的特征

（六）6.15 Neurons Networks Deep Belief Networks

Hintion老爷子在06年的science上的论文里阐述了 RBMs 可以堆叠起来并且通过逐层贪婪的方式来训练,这种网络被称作Deep Belife Networks(DBN),DBN是一种可以学习训练数据的高层特征表示的网络,DBN是一种生成模型,可见变量与个隐层的联合分布: 这里 x = h0,为RBM在第 k 层的隐层单元条件下的可见单元的条件分布, 是一个DBN顶部可见层与隐层的条件分布,如图下: DBN的训练: 1. 首先充分训练第一个 RBM: 2. 固定第一个 RBM 的

（六）6.14 Neurons Networks Restricted Boltzmann Machines

1.RBM简介受限玻尔兹曼机(Restricted Boltzmann Machines,RBM)最早由hinton提出,是一种无监督学习方法,即对于给定数据,找到最大程度拟合这组数据的参数,其网络结构如下: 以上的RBM的贝叶斯网络图,该网络可网络结构有 n个可视节点和m个隐藏节点 ,其中每个可视节点只与m个隐藏节点相关,与其他可视节点独立,对于隐藏节点同理,RBM中的参数有隐层与可见层的权重参数,还有上图没给出的偏置项,为可见层的偏置,为隐藏层的偏置,以上便是RBM中的所有参数. RBM的

（六）6.16 Neurons Networks linear decoders and its implements

Sparse AutoEncoder是一个三层结构的网络,分别为输入输出与隐层,前边自编码器的描述可知,神经网络中的神经元都采用相同的激励函数,Linear Decoders 修改了自编码器的定义,对输出层与隐层采用了不用的激励函数,所以 Linear Decoder 得到的模型更容易应用,而且对模型的参数变化有更高的鲁棒性. 在网络中的前向传导过程中的公式: 其中 a(3) 是输出. 在自编码器中, a(3) 近似重构了输入 x = a(1) . 对于最后一层为 sigmod(tanh) 激活

6.13 Neurons Networks Stack Auto Encoder

对于6.12提到的加深网络深度带来的问题,(gradient diffuse 局部最优等)可以使用stack autoencoder的方法来避免 stack autoencoder是哟中逐层贪婪(Greedy layer-wise training)的训练方法,逐层贪婪的主要思路是每次只训练网络中的一层,即首先训练一个只含一个隐藏层的网络,仅当这层网络训练结束之后才开始训练一个有两个隐藏层的网络,以此类推.在每一步中,把已经训练好的前层固定,然后增加第层(也就是将已经训练好的前的输

吴恩达-深度学习-课程笔记-6: 深度学习的实用层面( Week 1 )

1 训练/验证/测试集( Train/Dev/test sets ) 构建神经网络的时候有些参数需要选择,比如层数,单元数,学习率,激活函数.这些参数可以通过在验证集上的表现好坏来进行选择. 前几年机器学习普遍的做法: 把数据分成60%训练集,20%验证集,20%测试集.如果有指明的测试集,那就用把数据分成70%训练集,30%验证集. 现在数据量大了,那么验证集和数据集的比例会变小.比如我们有100w的数据,取1w条数据来评估就可以了,取1w做验证集,1w做测试集,剩下的用来训练,即98%的训练

猜你喜欢

[题解]LCA练习+部分算法复习 2017.1.22

第一题就LCA即可.不过推荐用Tarjan(最快,常数很小).然后Tarjan的时候顺便就出一个dist[i],表示i节点到根节点的距离.求出了LCA,那么两点间的距离就为dist[u] + dist ...

09-文件管理、命令别名和glob

回顾: 文件系统 bash的基础特性.目录管理及文件查看文件系统: boot, bin,sbin,lib,lib64,dev,home,root,mnt,media,etc,proc,sys usr ...

NSData与NSArray相互转换

//将NSArray转化为NSData类型 NSData *data = [NSKeyedArchiver archivedDataWithRootObject:Array]; NSLog(@&quo ...

浅谈c/c++中的指针问题

首先给出几种指针类型来作出区分,不看后面的解析如果可以自己分辨正确那么就算对指针有一个很好的掌握了,就没有必要再去看后面的解析,如果不能完全区分,那么就有必要仔细看看后面解析. 1 Char * p ...

安卓读取SD卡的容量

在开发中,我们经常会用到SD卡,那么在对SD卡进行读写的时候,我们经常需要判断SD卡的剩余容量是否足够.因此,这次我们来写写获取SD卡容量的程序. 该注意的地方,我都在程序里面有注明了.看程序基本就懂 ...

R语言正态性检验

R语言正态性检验用R语言做正态分布检验 (2012-02-29 10:59:54)转载▼ 摘自:吴喜之:<非参数统计>(第二版),中国统计出版社,2006年10月:P164-165 1. ...

AsyncTasLoader不进行加载操作的原因及解决方法

使用AsyncTaskLoader加载数据.但是LoadInBackground却不会被回调.这是什么情况?我要怎么解决这个问题?如果你和我一样有这样的疑问.你可以移步至我的blog的这篇文章找到答案 ...

在HTML5规范中div中读取预存的data-[key]值

HTML 代码: <div id="div_test" data-test="this is test" ></div> jQuery ...

python 基础学习1

1.变量:变量是计算机内存中的一块儿区域,变量可以存储规定范围内的值,而且值可以改变. 变量命名:变量名有字母.数字.下划线组成: 数字不能 ...

eclipse中更改中文字体大小

默认的eclipse的中文显示会比较小,其他的英文字符倒是很正常,我们只要在设置里设置一下自己喜欢的字体就行了. 最近新装了Win7,打开eclipse3.7中文字体很小,简直难以辨认.在网上搜索发现 ...

Windbg .net内存调试有用的命令（笔记）

和.net内存调试相关的Windbg命令首先.load sosex.dll加载ex调试扩展dll 1.!gcgen [obj地址] 显示对象属于gc代数 2.!dumpgen [0/1/2] dum ...

NPOI导出多张图片到Excel

常用NPOI导出数据到excel,但没有试过如何导出图片.NPOI最大的特点就是不依赖于Excel组件,服务端不需要安装Excel.在单元格中插入图片主要是用HSSFClientAnchor对象.他有 ...

从硬盘到文件系统

whpu-杨钦这篇文章将要为大家介绍硬盘的组成及其工作原理,然后由硬盘引申到文件系统. 首先来为大家介绍硬盘的分类. 硬盘按接口来分的话一般可以分为: SATA (Serial Advanced T ...

Android 闹钟最终版

以下是我发现的几点闹钟中重要的点,分享一下: (1)在闹钟中有AudioManager管理机制,这个机制可以申请和释放OnAudioFocusChangeListener监听. 还有mTelephon ...

ios教程(1)--加法计数器

大家好因为我第一次写ios的教程,写的不好请大家对对原谅 (哒哒:废话真多) 今天的重点有几点 1.键盘的退出键盘的样式 2.手动创建代码 3.CGRectGetMaxX() 获取最大的X值参数( ...

静态成员(static的用法)

摘要:为实现一个类的多个对象之间的数据共享,C++提出了静态成员的概念,包括静态数据成员和静态成员函数:现在分别进行讨论: 静态数据成员:格式如下:static 数据类型数据成员名; #inc ...

Python学习笔记_Chapter 4数据保存到文件

1. What For 将基于内存的数据存储到磁盘上,达到持续存储. 2. HOW 方法一: 将数据写到文件中常规的处理方式 1 #file.x被打开的文件,model打开文件的方式 2 out=o ...

《学习创建一个随机产生的物体的代码》

using UnityEngine;using System.Collections; public class FoodSnake : MonoBehaviour { public int yLim ...

ValidForm的使用

</pre><span style="font-family:FangSong_GB2312;font-size:18px;"><strong> ...

(4) Spring中定时任务Quartz集群配置学习

原来配置的Quartz是通过spring配置文件生效的,发现在非集群式的服务器上运行良好,但是将工程部署到水平集群服务器上去后改定时功能不能正常运行,没有任何错误日志,于是从jar包.JDK版本. ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.