LSTM缓解梯度消失的原因

\(c_{t}=c_{t-1} \otimes \sigma\left(W_{f} \cdot\left[H_{t-1}, X_{t}\right]\right) \oplus \tanh \left(W_{c} \cdot\left[H_{t-1}, X_{t}\right]\right) \otimes \sigma\left(W_{i} \cdot\left[H_{t-1}, X_{t}\right]\right)\)

反向传播公式：

\(\begin{aligned} \frac{\partial E_{k}}{\partial W}=& \frac{\partial E_{k}}{\partial H_{k}} \frac{\partial H_{k}}{\partial C_{k}} \frac{\partial C_{k}}{\partial C_{k-1}} \ldots \frac{\partial C_{2}}{\partial C_{1}} \frac{\partial C_{1}}{\partial W}=\\ & \frac{\partial E_{k}}{\partial H_{k}} \frac{\partial H_{k}}{\partial C_{k}}\left(\prod_{t=2}^{k} \frac{\partial C_{t}}{\partial C_{t-1}}\right) \frac{\partial C_{1}}{\partial W} \end{aligned}\)

括号中的部分是累乘项：

$\frac{\partial c_{t}}{\partial c_{t-1}}=\sigma\left(W_{f} \cdot\left[H_{t-1}, X_{t}\right]\right) + $
\(\frac{d}{d \mathcal{C}_{t-1}}\left(\tanh \left(W_{c} \cdot\left[H_{t-1}, X_{t}\right]\right) \otimes \sigma\left(W_{i} \cdot\left[H_{t-1}, X_{t}\right]\right)\right)\)

也就是说，这里的累乘单元是两项和形式，其中前部分是遗忘门的值。遗忘门决定了上一个细胞状态的保留比例，其取值可以接近于1，也就是说可以把遗忘门看成：\(\sigma\left(W_{f} \cdot\left[H_{t-1}, X_{t}\right]\right) \approx \overrightarrow{1}\)，所以LSTM中：

\(\frac{\partial E_{k}}{\partial W} \approx \frac{\partial E_{k}}{\partial H_{k}} \frac{\partial H_{k}}{\partial c_{k}}\left(\Pi_{t=2}^{k} \sigma\left(W_{f} \cdot\left[H_{t-1}, X_{t}\right]\right)\right) \frac{\partial C_{1}}{\partial w} \nrightarrow 0\)

所以，LSTM能缓解梯度消失。

原文地址：https://www.cnblogs.com/Elaine-DWL/p/11240213.html

时间： 2024-12-10 10:29:22

LSTM缓解梯度消失的原因的相关文章

RNN中的梯度消失爆炸原因

RNN中的梯度消失/爆炸原因梯度消失/梯度爆炸是深度学习中老生常谈的话题,这篇博客主要是对RNN中的梯度消失/梯度爆炸原因进行公式层面上的直观理解. 首先,上图是RNN的网络结构图,\((x_1, x_2, x_3, -, )\)是输入的序列,\(X_t\)表示时间步为\(t\)时的输入向量.假设我们总共有\(k\)个时间步,用第\(k\)个时间步的输出\(H_k\)作为输出(实际上每个时间步都有输出,这里仅考虑\(H_k\)),用\(E_k\)表示损失. 其中,\(C_{t}=\tanh \

DL4NLP——神经网络（二）循环神经网络：BPTT算法步骤整理；梯度消失与梯度爆炸

网上有很多Simple RNN的BPTT算法推导.下面用自己的记号整理一下. 我之前有个习惯是用下标表示样本序号,这里不能再这样表示了,因为下标需要用做表示时刻. 典型的Simple RNN结构如下: 图片来源:[3] 约定一下记号: 输入序列 $\textbf x_{(1:T)} =(\textbf x_1,\textbf x_2,...,\textbf x_T)$,每个时刻的值都是一个维数是词表大小的one-hot列向量: 标记序列 $\textbf y_{(1:T)} =(\textbf

【深度学习系列】DNN中梯度消失和梯度爆炸的原因推导

DNN中梯度消失和梯度爆炸的原因推导因为手推涉及很多公式,所以这一截图放出. 原文地址:https://www.cnblogs.com/Elaine-DWL/p/11140917.html

深度学习解决局部极值和梯度消失问题方法简析（转载）

转载:http://blog.sina.com.cn/s/blog_15f0112800102wojj.html 这篇文章关于对深度CNN中BP梯度消失的问题的做了不错的解析,可以看一下: 多层感知机解决了之前无法模拟异或逻辑的缺陷,同时更多的层数也让网络更能够刻画现实世界中的复杂情形.理论上而言,参数越多的模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务.多层感知机给我们带来的启示是,神经网络的层数直接决定了它对现实的刻画能力——利用每层更少的神经元拟合更加复杂的函数.但是

【神经网络和深度学习】笔记 - 第五章深度神经网络学习过程中的梯度消失问题

之前的章节,我们利用一个仅包含一层隐藏层的简单神经网络就在MNIST识别问题上获得了98%左右的准确率.我们于是本能会想到用更多的隐藏层,构建更复杂的神经网络将会为我们带来更好的结果. 就如同在进行图像模式识别的时候,第一层的神经层可以学到边缘特征,第二层的可以学到更复杂的图形特征,例如三角形,长方形等,第三层又会识别更加复杂的图案.这样看来,多层的结构就会带来更强大的模型,进行更复杂的识别. 那么在这一章,就试着训练这样的神经网络来看看对结果有没有什么提升.不过我们发现,训练的过程将会出现问题

对于梯度消失和梯度爆炸的理解

一.梯度消失.梯度爆炸产生的原因假设存在一个网络结构如图: 其表达式为: 若要对于w1求梯度,根据链式求导法则,得到的解为: 通常,若使用的激活函数为sigmoid函数,其导数: 这样可以看到,如果我们使用标准化初始w,那么各个层次的相乘都是0-1之间的小数,而激活函数f的导数也是0-1之间的数,其连乘后,结果会变的很小,导致梯度消失.若我们初始化的w是很大的数,w大到乘以激活函数的导数都大于1,那么连乘后,可能会导致求导的结果很大,形成梯度爆炸. 当然,若对于b求偏导的话,其实也是一个道理:

梯度消失与梯度爆炸

https://blog.csdn.net/qq_25737169/article/details/78847691 产生消失的梯度问题的原因先看一个极简单的深度神经网络:每一层都只有一个单一的神经元.如下图: 代价函数C对偏置b1的偏导数的结果计算如下: 先看一下sigmoid 函数导数的图像: 该导数在σ′(0) = 1/4时达到最高.现在,如果我们使用标准方法来初始化网络中的权重,那么会使用一个均值为0 标准差为1 的高斯分布.因此所有的权重通常会满足|wj|<1.从而有wjσ′(zj)

梯度消失（vanishing gradient）和梯度爆炸（exploding gradient）

转自https://blog.csdn.net/guoyunfei20/article/details/78283043 神经网络中梯度不稳定的根本原因:在于前层上的梯度的计算来自于后层上梯度的乘积(链式法则).当层数很多时,就容易出现不稳定.下边3个隐含层为例: 其b1的梯度为: 加入激活函数为sigmoid,则其导数如下图: sigmoid导数σ'的最大值为1/4.同常一个权值w的取值范围为abs(w) < 1,则:|wjσ'(zj)| < 1/4,从而有: 从上式可以得出结论:前层比后层

深度学习面试题08：梯度消失与梯度爆炸

目录梯度消失梯度爆炸参考资料以下图的全连接神经网络为例,来演示梯度爆炸和梯度消失: 梯度消失在模型参数w都是(-1,1)之间的数的前提下,如果激活函数选择的是sigmod(x),那么他的导函数σ’(x)的值域为(0,0.25],即如下三项的范围都是(0,0.25] 那么w1的导数会有很多(0,0.25]范围的数累乘,就会造成w1的导数很小,这就是梯度消失.梯度消失的后果就是,w1的更新就会很慢,使得神经网络的学习变得很慢. 解决方法:使用relu(x)这样的激活函数,因为他的导函数的值

猜你喜欢

使用方法拦截器MethodInterceptor和AOP统一处理log

对每个接口的请求记录log的方法有很多种,比如用filter.mvc interceptor.method interceptor等.如果需要记录请求消息的payload,前两种不适用.下面介绍第三种 ...

IO流概述

作用: 处理设备之间的数据传输的 I: Input(输入) , O: Output(输出) 什么是输入和输出? 我们说输入和输出问题是站在内存的角度而言 , 如果我们程序读取硬盘上的数据那么就是输入 ...

Java之JSP基础语法

1.JSP页面元素简介及page指令 2.JSP注释,3种不同注释  <%--我是JSP注释,在客户端不可见 --%> < ...

File操作-RandomAccessFile

一．知识点笔记 1. 文件操作——RandomAccessFile 1. 创建对象 Java提供了一个可以对文件随机访问的操作,访问包括读和写操作.该类名为RandomAccessFile.该类的读写 ...

Angular概念纵览

Conceptual Overview Template(模板): HTML with additional markup (就是增加了新的标记的HTML) Directive(指令): extend ...

JOS 不能进入lab2 问题的解决

这个鸟问题折腾了我好久! lab2是须要 kern/pmap.c的! 可是这里没有首先要git checkout -b lab2 origin/lab2 (仅仅要做好上面这一步,就行确保可以调整好文 ...

jquery使用

1.css选择器 $document)选择整个html $("#id") $("div.class") $(div:first) $("div[tit ...

mysql之mysqldump备份恢复

mysql数据备份,其重要性不言而喻.大体上我们比较常用到的有mysqldump.Xtrabackup和用lvm快照来备份,或者是有专门的mysql复制备份服务器. 特性: 逻辑备份工具,比物理备份速 ...

JavaScript高级程序设计读书笔记第二章

<script>元素直接在页面中嵌入JavaSript代码或包含外部JavaSript文件. 在代码中任何地方不能出现</script>,可通过转义字符'\'解决. 在XHT ...

s:form标签

2017-01-07 17:43:18 基本的用法 <!-- Action类必须有一个无参的构造器,因为在执行action方法之前,拦截器已经创建了一个"空"的Action对 ...

shell中命令的执行流程

在shell中,一个命令有3中写法: 1 可以直接写(Normal Command) 2 可以放在双引号中("Command") 3 可以放在单引号中('Comand') 这3中写 ...

经典算法_链表

1 创建一个链表,包含在尾部插入数据和输出的函数. 头文件linknode.h 源文件源文件main.c 源文件linknode.c 2 创建一个链表,静态模式 3 创建一个链表,动态模式 1 创建 ...

Android Bluetooth模块学习笔记

一.蓝牙基础知识 1.蓝牙( Bluetooth )是一种无线技术标准,可实现固定设备.移动设备和楼宇个人域网之间的短距离数据交换.蓝牙基于设备低成本的收发器芯片,传输距离近.低功耗. 2.微波频段: ...

【转】学习C++从入门到精通的的十本最经典书籍

(一)语言入门: <C++ Primer> 适合有丰富C经验,缺乏C++经验的.不过我个人一直认为此书带着过于强烈的C语言的痕迹,对于C++的学习未必是好事. & ...

Cobbler Web界面操作（三）

1.添加自定义的ks文件添加自己定义的ks文件时可以参照sample.ks的配置模板编写. 2.编辑profile 在General标签里:关联自定义的ks文件的路径,选择要使用的cobbler r ...

回溯法解决N皇后问题

以4皇后为例,其他的N皇后问题以此类推.所谓4皇后问题就是求解如何在4×4的棋盘上无冲突的摆放4个皇后棋子.在国际象棋中,皇后的移动方式为横竖交叉的,因此在任意一个皇后所在位置的水平.竖直.以及45度 ...

SRM 631 DIV1

SRM 631 DIV1 A:最多肯定只需要两步,中间的两行,一行黑,一行白就可以了,这样的话,只需要考虑一开始就满足,和枚举一行去染色满足的情况就可以了,暴力即可 B:贪心,一个记录当前有猫的位置和 ...

翻译: TypeScript 1.8 Beta 发布

原文地址:https://blogs.msdn.microsoft.com/typescript/2016/01/28/announcing-typescript-1-8-beta/ 今天,我们发布了 ...

OpenGLES渲染 OpenGLES使用GPU渲染图片,不占用CPU,但其使用还是挺复杂的. 先用OpenGLES显示一张图片: // // ShowViewController.m // Open ...

分别取出0到10中的偶数和奇数 2.判断一个数是否是质数 3.作业题程序: 测试:

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.