RNN 训练时梯度爆炸的理解

梯度爆炸

比方说当前点刚好在悬崖边上, 这个时候计算这个点的斜率就会变得非常大, 我们跟新的时候是按斜率 × 学习率来的, 那么这时候参数的跟新就会非常非常大, loss也会非常大

应对办法就是当斜率超过某个值比如15时, 设定斜率为15.

造成梯度爆炸的原因并不是来自激活函数 --- sigmoid , 如果把激活函数换为 ReLU 通常模型表现会更差

梯度消失

可以理解为 RNN 把 weight 变化的程度放大了

原文地址：https://www.cnblogs.com/larkiisready/p/11698445.html

时间： 2024-10-29 16:53:52

RNN 训练时梯度爆炸的理解的相关文章

对于梯度消失和梯度爆炸的理解

一.梯度消失.梯度爆炸产生的原因假设存在一个网络结构如图: 其表达式为: 若要对于w1求梯度,根据链式求导法则,得到的解为: 通常,若使用的激活函数为sigmoid函数,其导数: 这样可以看到,如果我们使用标准化初始w,那么各个层次的相乘都是0-1之间的小数,而激活函数f的导数也是0-1之间的数,其连乘后,结果会变的很小,导致梯度消失.若我们初始化的w是很大的数,w大到乘以激活函数的导数都大于1,那么连乘后,可能会导致求导的结果很大,形成梯度爆炸. 当然,若对于b求偏导的话,其实也是一个道理:

深度学习面试题08：梯度消失与梯度爆炸

目录梯度消失梯度爆炸参考资料以下图的全连接神经网络为例,来演示梯度爆炸和梯度消失: 梯度消失在模型参数w都是(-1,1)之间的数的前提下,如果激活函数选择的是sigmod(x),那么他的导函数σ’(x)的值域为(0,0.25],即如下三项的范围都是(0,0.25] 那么w1的导数会有很多(0,0.25]范围的数累乘,就会造成w1的导数很小,这就是梯度消失.梯度消失的后果就是,w1的更新就会很慢,使得神经网络的学习变得很慢. 解决方法:使用relu(x)这样的激活函数,因为他的导函数的值

RNN中的梯度消失爆炸原因

RNN中的梯度消失/爆炸原因梯度消失/梯度爆炸是深度学习中老生常谈的话题,这篇博客主要是对RNN中的梯度消失/梯度爆炸原因进行公式层面上的直观理解. 首先,上图是RNN的网络结构图,$(x_1, x_2, x_3, -, )$是输入的序列,$X_t$表示时间步为$t$时的输入向量.假设我们总共有$k$个时间步,用第$k$个时间步的输出$H_k$作为输出(实际上每个时间步都有输出,这里仅考虑$H_k$),用$E_k$表示损失. 其中,\(C_{t}=\tanh \

DL4NLP——神经网络（二）循环神经网络：BPTT算法步骤整理；梯度消失与梯度爆炸

网上有很多Simple RNN的BPTT算法推导.下面用自己的记号整理一下. 我之前有个习惯是用下标表示样本序号,这里不能再这样表示了,因为下标需要用做表示时刻. 典型的Simple RNN结构如下: 图片来源:[3] 约定一下记号: 输入序列 $\textbf x_{(1:T)} =(\textbf x_1,\textbf x_2,...,\textbf x_T)$,每个时刻的值都是一个维数是词表大小的one-hot列向量: 标记序列 $\textbf y_{(1:T)} =(\textbf

梯度弥散与梯度爆炸

问题描述先来看看问题描述. 当我们使用sigmoid funciton 作为激活函数时,随着神经网络hidden layer层数的增加,训练误差反而加大了,如上图所示. 下面以2层隐藏层神经网络为例,进行说明. 结点中的柱状图表示每个神经元参数的更新速率(梯度)大小,有图中可以看出,layer2整体速度都要大于layer1. 我们又取每层layer中参数向量的长度来粗略的估计该层的更新速率,得到下图. 可以看出,layer2的速率都要大于layer1. 然后我们继续加深神经网络的层数. 可以得

神经网络（七）梯度弥散（消散）和梯度爆炸

1.梯度消失(vanishing gradient problem): 原因:例如三个隐层.单神经元网络: 假设上面是一个三层hidden layer的神经网络,每一层只有一个neuron,我们下面的分析仅仅针对bias,w也是可以类比的. C是损失函数. 每一层的输入为z,输出为a,其中有z = w*a + b. 上面的等式∂c/∂b1由每一层的导数乘上对应的w最后乘上∂c/∂a4组成. 我们给b1一个小的改变Δb1,它会在神经网络中起连锁反应,影响最后的C. 我们使用变化率∂c/∂b1-Δc

梯度消失与梯度爆炸

https://blog.csdn.net/qq_25737169/article/details/78847691 产生消失的梯度问题的原因先看一个极简单的深度神经网络:每一层都只有一个单一的神经元.如下图: 代价函数C对偏置b1的偏导数的结果计算如下: 先看一下sigmoid 函数导数的图像: 该导数在σ′(0) = 1/4时达到最高.现在,如果我们使用标准方法来初始化网络中的权重,那么会使用一个均值为0 标准差为1 的高斯分布.因此所有的权重通常会满足|wj|<1.从而有wjσ′(zj)

梯度消失（vanishing gradient）和梯度爆炸（exploding gradient）

转自https://blog.csdn.net/guoyunfei20/article/details/78283043 神经网络中梯度不稳定的根本原因:在于前层上的梯度的计算来自于后层上梯度的乘积(链式法则).当层数很多时,就容易出现不稳定.下边3个隐含层为例: 其b1的梯度为: 加入激活函数为sigmoid,则其导数如下图: sigmoid导数σ'的最大值为1/4.同常一个权值w的取值范围为abs(w) < 1,则:|wjσ'(zj)| < 1/4,从而有: 从上式可以得出结论:前层比后层

梯度爆炸

造成梯度爆炸的原因是求导得到的值大于1,造成导数很大,损失函数的值沿着梯度的方向呈下降趋势,然而,如果梯度(偏导数)很大话,就会出现函数值跳来跳去,收敛不到最小值.这个时候可以用梯度裁剪来解决问题. 梯度裁剪:对梯度进行裁剪,论文提出对梯度的L2范数进行裁剪,也就是所有参数偏导数的平方和再开方.主要是控制梯度在一定范围内. 注意: 当你训练模型出现Loss值出现跳动,一直不收敛时,除了设小学习率之外,梯度裁剪也是一个好方法. 如果你的模型稳定而且会收敛,但是效果不佳时,那这就跟学习率和梯度爆炸没