梯度消失（vanishing gradient）和梯度爆炸（exploding gradient）

转自https://blog.csdn.net/guoyunfei20/article/details/78283043

神经网络中梯度不稳定的根本原因：在于前层上的梯度的计算来自于后层上梯度的乘积（链式法则）。当层数很多时，就容易出现不稳定。下边3个隐含层为例：

其b1的梯度为：

加入激活函数为sigmoid，则其导数如下图：

sigmoid导数σ‘的最大值为1/4。同常一个权值w的取值范围为abs(w) < 1，则：|wjσ‘(zj)| < 1/4，从而有：

从上式可以得出结论：前层比后层的梯度变化更小，变化更慢，进而引起梯度消失的问题。相反，如果|wjσ‘(zj)| > 1时，前层比后层的梯度变化更大，就引起梯度爆炸的问题。实际中，当使用sigmoid作为激活函数时，更普遍的是梯度消失的问题。

在重复一遍，从根本上讲无论是梯度消失还是梯度爆炸，其背后的原因是前层网络的梯度是后层网络的乘积，所以神经网络不稳定。唯一可能的情况是以上连续乘积刚好平衡在1左右，但这种几率很小。

解决梯度消失的方法：

隐含层神经元的激活函数用Relu！

原文地址：https://www.cnblogs.com/scarecrow-blog/p/10333152.html

时间： 2024-10-09 13:17:59

梯度消失（vanishing gradient）和梯度爆炸（exploding gradient）的相关文章

深度学习面试题08：梯度消失与梯度爆炸

目录梯度消失梯度爆炸参考资料以下图的全连接神经网络为例,来演示梯度爆炸和梯度消失: 梯度消失在模型参数w都是(-1,1)之间的数的前提下,如果激活函数选择的是sigmod(x),那么他的导函数σ’(x)的值域为(0,0.25],即如下三项的范围都是(0,0.25] 那么w1的导数会有很多(0,0.25]范围的数累乘,就会造成w1的导数很小,这就是梯度消失.梯度消失的后果就是,w1的更新就会很慢,使得神经网络的学习变得很慢. 解决方法:使用relu(x)这样的激活函数,因为他的导函数的值

深度学习解决局部极值和梯度消失问题方法简析（转载）

转载:http://blog.sina.com.cn/s/blog_15f0112800102wojj.html 这篇文章关于对深度CNN中BP梯度消失的问题的做了不错的解析,可以看一下: 多层感知机解决了之前无法模拟异或逻辑的缺陷,同时更多的层数也让网络更能够刻画现实世界中的复杂情形.理论上而言,参数越多的模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务.多层感知机给我们带来的启示是,神经网络的层数直接决定了它对现实的刻画能力——利用每层更少的神经元拟合更加复杂的函数.但是

【神经网络和深度学习】笔记 - 第五章深度神经网络学习过程中的梯度消失问题

之前的章节,我们利用一个仅包含一层隐藏层的简单神经网络就在MNIST识别问题上获得了98%左右的准确率.我们于是本能会想到用更多的隐藏层,构建更复杂的神经网络将会为我们带来更好的结果. 就如同在进行图像模式识别的时候,第一层的神经层可以学到边缘特征,第二层的可以学到更复杂的图形特征,例如三角形,长方形等,第三层又会识别更加复杂的图案.这样看来,多层的结构就会带来更强大的模型,进行更复杂的识别. 那么在这一章,就试着训练这样的神经网络来看看对结果有没有什么提升.不过我们发现,训练的过程将会出现问题

DL4NLP——神经网络（二）循环神经网络：BPTT算法步骤整理；梯度消失与梯度爆炸

网上有很多Simple RNN的BPTT算法推导.下面用自己的记号整理一下. 我之前有个习惯是用下标表示样本序号,这里不能再这样表示了,因为下标需要用做表示时刻. 典型的Simple RNN结构如下: 图片来源:[3] 约定一下记号: 输入序列 $\textbf x_{(1:T)} =(\textbf x_1,\textbf x_2,...,\textbf x_T)$,每个时刻的值都是一个维数是词表大小的one-hot列向量: 标记序列 $\textbf y_{(1:T)} =(\textbf

梯度消失与梯度爆炸

https://blog.csdn.net/qq_25737169/article/details/78847691 产生消失的梯度问题的原因先看一个极简单的深度神经网络:每一层都只有一个单一的神经元.如下图: 代价函数C对偏置b1的偏导数的结果计算如下: 先看一下sigmoid 函数导数的图像: 该导数在σ′(0) = 1/4时达到最高.现在,如果我们使用标准方法来初始化网络中的权重,那么会使用一个均值为0 标准差为1 的高斯分布.因此所有的权重通常会满足|wj|<1.从而有wjσ′(zj)

对于梯度消失和梯度爆炸的理解

一.梯度消失.梯度爆炸产生的原因假设存在一个网络结构如图: 其表达式为: 若要对于w1求梯度,根据链式求导法则,得到的解为: 通常,若使用的激活函数为sigmoid函数,其导数: 这样可以看到,如果我们使用标准化初始w,那么各个层次的相乘都是0-1之间的小数,而激活函数f的导数也是0-1之间的数,其连乘后,结果会变的很小,导致梯度消失.若我们初始化的w是很大的数,w大到乘以激活函数的导数都大于1,那么连乘后,可能会导致求导的结果很大,形成梯度爆炸. 当然,若对于b求偏导的话,其实也是一个道理:

【深度学习系列】DNN中梯度消失和梯度爆炸的原因推导

DNN中梯度消失和梯度爆炸的原因推导因为手推涉及很多公式,所以这一截图放出. 原文地址:https://www.cnblogs.com/Elaine-DWL/p/11140917.html

RNN中的梯度消失爆炸原因

RNN中的梯度消失/爆炸原因梯度消失/梯度爆炸是深度学习中老生常谈的话题,这篇博客主要是对RNN中的梯度消失/梯度爆炸原因进行公式层面上的直观理解. 首先,上图是RNN的网络结构图,$(x_1, x_2, x_3, -, )$是输入的序列,$X_t$表示时间步为$t$时的输入向量.假设我们总共有$k$个时间步,用第$k$个时间步的输出$H_k$作为输出(实际上每个时间步都有输出,这里仅考虑$H_k$),用$E_k$表示损失. 其中,\(C_{t}=\tanh \

梯度消失梯度爆炸

https://blog.csdn.net/cppjava_/article/details/68941436 2.解决梯度爆炸问题的方法通常会使用一种叫"clip gradients "的方法. 它能有效地权重控制在一定范围之内. 算法步骤如下. 首先设置一个梯度阈值:clip_gradient 在后向传播中求出各参数的梯度,这里我们不直接使用梯度进去参数更新,我们求这些梯度的l2范数然后比较梯度的l2范数||g||与clip_gradient的大小如果前者大,求缩放因子cli