梯度弥散与梯度爆炸

问题描述

先来看看问题描述。

当我们使用sigmoid funciton 作为激活函数时，随着神经网络hidden layer层数的增加，训练误差反而加大了，如上图所示。

下面以2层隐藏层神经网络为例，进行说明。

结点中的柱状图表示每个神经元参数的更新速率(梯度)大小，有图中可以看出，layer2整体速度都要大于layer1.

我们又取每层layer中参数向量的长度来粗略的估计该层的更新速率，得到下图。

可以看出，layer2的速率都要大于layer1.

然后我们继续加深神经网络的层数。

可以得到下面的结论：

靠近输出层的hidden layer 梯度大，参数更新快，所以很快就会收敛；

而靠近输入层的hidden layer 梯度小，参数更新慢，几乎就和初始状态一样，随机分布。

在上面的四层隐藏层网络结构中，第一层比第四层慢了接近100倍！！

这种现象就是梯度弥散（vanishing gradient problem）。而在另一种情况中，前面layer的梯度通过训练变大，而后面layer的梯度指数级增大，这种现象又叫做梯度爆炸(exploding gradient problem)。

总的来说，就是在这个深度网络中，梯度相当不稳定(unstable)。

直观说明

那么为何会出现这种情况呢？

现在我们来直观的说明一下。

在上面的升级网络中，我们随意更新一个参数，加上一个Δw，(我们知道可以使用参数变化量来估计偏导数的大小)这个参数的更新会随着网络向前传播。

而根据sigmoid的特点，它会将+∞～-∞之间的输入压缩到0～1之间。当input的值更新时，output会有很小的更新。

又因为上一层的输出将作为后一层的输入，而输出经过sigmoid后更新速率会逐步衰减，直到输出层只会有微乎其微的更新。

数学说明

如果上面的例子还不够清楚，下面我们来看看，不是很严密的数学证明。

假设上面是一个三层hidden layer的神经网络，每一层只有一个neuron，我们下面的分析仅仅针对bias，w也是可以类比的。

C是损失函数。

每一层的输入为z，输出为a，其中有z = w*a + b。

上面的等式∂c/∂b1由每一层的导数乘上对应的w最后乘上∂c/∂a4组成。

我们给b1一个小的改变Δb1，它会在神经网络中起连锁反应，影响最后的C。

我们使用变化率∂c/∂b1～Δc/Δb1来估计梯度。接下来可以进行递推了。

先来计算Δb1对a1的影响。σ(z)为sigmoid函数。

结果正好是上面∂c/∂b1等式的第一项，然后影响下一层的输出。

将上面推导出来的两个式子联合起来，就得到b1对于z2的影响：

再和∂c/∂b1等式对比一下，惊喜！！

然后的推导就是完全一样了，每个neuron的导数，乘上w，最终得到C的变化量：

两边除以Δb1：

sigmoid导数图像：

sigmoid导数在0取得最大值1/4。

如果我们使用均值为0，方差为1的高斯分布初始化参数w，有|w| < 1,所以有：

可以看出随着网络层数的加深的term也会变多，最后的乘积会指数级衰减，

这就是梯度弥散的根本原因。

而有人要问在train的时候如果参数w变得足够大，就可能使|w|>1,就不满足了。

的确这样不会有梯度弥散问题，根据我们之前的分析，当|W|>1时，会使后面的layer参数指数级增加，从而引发梯度爆炸。

解决方法

梯度不稳定的方法就是，使用其他激活函数替代sigmoid，比如Relu等等，这里就不细说了。

原文地址：https://www.cnblogs.com/klausage/p/11791450.html

时间： 2024-10-09 13:18:37

梯度弥散与梯度爆炸的相关文章

梯度弥散与梯度弥散

问题描述先来看看问题描述. 当我们使用sigmoid funciton 作为激活函数时,随着神经网络hidden layer层数的增加,训练误差反而加大了,如上图所示. 下面以2层隐藏层神经网络为例,进行说明. 结点中的柱状图表示每个神经元参数的更新速率(梯度)大小,有图中可以看出,layer2整体速度都要大于layer1. 我们又取每层layer中参数向量的长度来粗略的估计该层的更新速率,得到下图. 可以看出,layer2的速率都要大于layer1. 然后我们继续加深神经网络的层数. 可以得

神经网络（七）梯度弥散（消散）和梯度爆炸

1.梯度消失(vanishing gradient problem): 原因:例如三个隐层.单神经元网络: 假设上面是一个三层hidden layer的神经网络,每一层只有一个neuron,我们下面的分析仅仅针对bias,w也是可以类比的. C是损失函数. 每一层的输入为z,输出为a,其中有z = w*a + b. 上面的等式∂c/∂b1由每一层的导数乘上对应的w最后乘上∂c/∂a4组成. 我们给b1一个小的改变Δb1,它会在神经网络中起连锁反应,影响最后的C. 我们使用变化率∂c/∂b1-Δc

对于梯度消失和梯度爆炸的理解

一.梯度消失.梯度爆炸产生的原因假设存在一个网络结构如图: 其表达式为: 若要对于w1求梯度,根据链式求导法则,得到的解为: 通常,若使用的激活函数为sigmoid函数,其导数: 这样可以看到,如果我们使用标准化初始w,那么各个层次的相乘都是0-1之间的小数,而激活函数f的导数也是0-1之间的数,其连乘后,结果会变的很小,导致梯度消失.若我们初始化的w是很大的数,w大到乘以激活函数的导数都大于1,那么连乘后,可能会导致求导的结果很大,形成梯度爆炸. 当然,若对于b求偏导的话,其实也是一个道理:

【深度学习系列】DNN中梯度消失和梯度爆炸的原因推导

DNN中梯度消失和梯度爆炸的原因推导因为手推涉及很多公式,所以这一截图放出. 原文地址:https://www.cnblogs.com/Elaine-DWL/p/11140917.html

深度学习面试题08：梯度消失与梯度爆炸

目录梯度消失梯度爆炸参考资料以下图的全连接神经网络为例,来演示梯度爆炸和梯度消失: 梯度消失在模型参数w都是(-1,1)之间的数的前提下,如果激活函数选择的是sigmod(x),那么他的导函数σ’(x)的值域为(0,0.25],即如下三项的范围都是(0,0.25] 那么w1的导数会有很多(0,0.25]范围的数累乘,就会造成w1的导数很小,这就是梯度消失.梯度消失的后果就是,w1的更新就会很慢,使得神经网络的学习变得很慢. 解决方法:使用relu(x)这样的激活函数,因为他的导函数的值

梯度上升与梯度下降

梯度下降法是机器学习和神经网络学科中我们最早接触的算法之一.但是对于初学者,我们对于这个算法是如何迭代运行的从而达到目的有些迷惑.在这里给出我对这个算法的几何理解,有不对的地方请批评指正! 梯度下降法定义 (维基百科)梯度下降法,基于这样的观察:如果实值函数在点处可微且有定义,那么函数在点沿着梯度相反的方向下降最快. 因而,如果对于为一个够小数值时成立,那么 . 考虑到这一点,我们可以从函数的局部极小值的初始估计出

DL4NLP——神经网络（二）循环神经网络：BPTT算法步骤整理；梯度消失与梯度爆炸

网上有很多Simple RNN的BPTT算法推导.下面用自己的记号整理一下. 我之前有个习惯是用下标表示样本序号,这里不能再这样表示了,因为下标需要用做表示时刻. 典型的Simple RNN结构如下: 图片来源:[3] 约定一下记号: 输入序列 $\textbf x_{(1:T)} =(\textbf x_1,\textbf x_2,...,\textbf x_T)$,每个时刻的值都是一个维数是词表大小的one-hot列向量: 标记序列 $\textbf y_{(1:T)} =(\textbf

梯度消失与梯度爆炸

https://blog.csdn.net/qq_25737169/article/details/78847691 产生消失的梯度问题的原因先看一个极简单的深度神经网络:每一层都只有一个单一的神经元.如下图: 代价函数C对偏置b1的偏导数的结果计算如下: 先看一下sigmoid 函数导数的图像: 该导数在σ′(0) = 1/4时达到最高.现在,如果我们使用标准方法来初始化网络中的权重,那么会使用一个均值为0 标准差为1 的高斯分布.因此所有的权重通常会满足|wj|<1.从而有wjσ′(zj)

梯度下降随机梯度下降批量梯度下降

梯度下降(GD) 梯度的本意是一个向量,表示某一函数在该点处的方向导数沿着该方向取得最大值,导数对应的是变化率即函数在该点处沿着该方向变化最快,变化率最大(为该梯度的模) 随机梯度下降(SGD):每次迭代随机使用一组样本针对BGD算法训练速度过慢的缺点,提出了SGD算法,普通的BGD算法是每次迭代把所有样本都过一遍,每训练一组样本就把梯度更新一次.而SGD算法是从样本中随机抽出一组,训练后按梯度更新一次,然后再抽取一组,再更新一次,在样本量及其大的情况下,可能不用训练完所有的样本就可以获得一