LSTM简介以及数学推导(FULL BPTT)

http://blog.csdn.net/a635661820/article/details/45390671

前段时间看了一些关于LSTM方面的论文，一直准备记录一下学习过程的，因为其他事儿，一直拖到了现在，记忆又快模糊了。现在赶紧补上，本文的组织安排是这样的：先介绍rnn的BPTT所存在的问题，然后介绍最初的LSTM结构，在介绍加了遗忘控制门的，然后是加了peephole connections结构的LSTM，都是按照真实提出的时间顺序来写的。本文相当于把各个论文核心部分简要汇集一下而做的笔记，已提供快速的了解。

一.rnn结构的BPTT学习算法存在的问题

先看一下比较典型的BPTT一个展开的结构，如下图，这里只考虑了部分图，因为其他部分不是这里要讨论的内容。

对于t时刻的误差信号计算如下：

这样权值的更新方式如下：

上面的公式在BPTT中是非常常见的了，那么如果这个误差信号一直往过去传呢，假设任意两个节点u, v他们的关系是下面这样的：

那么误差传递信号的关系可以写成如下的递归式：

n表示图中一层神经元的个数，这个递归式的大概含义不难理解，要求t-q时刻误差信号对t时刻误差信号的偏导，就先求出t-q+1时刻对t时刻的，然后把求出来的结果传到t-q时刻，递归停止条件是q = 1时，就是刚开始写的那部分计算公式了。将上面的递归式展开后可以得到：

论文里面说的是可以通过归纳来证明，我没仔细推敲这里了，把里面连乘展开看容易明白一点：

整个结果式对T求和的次数是n^(q-1), 即T有n^(q-1)项，那么下面看问题出在哪儿。

如果|T| > 1, 误差就会随着q的增大而呈指数增长，那么网络的参数更新会引起非常大的震荡。

如果|T| < 1，误差就会消失，导致学习无效，一般激活函数用simoid函数，它的倒数最大值是0.25, 权值最大值要小于4才能保证不会小于1。

误差呈指数增长的现象比较少，误差消失在BPTT中很常见。在原论文中还有更详细的数学分析，但是了解到此个人觉的已经足够理解问题所在了。

二.最初的LSTM结构

为了克服误差消失的问题，需要做一些限制，先假设仅仅只有一个神经元与自己连接，简图如下：

根据上面的，t时刻的误差信号计算如下：

为了使误差不产生变化，可以强制令下式为1：

根据这个式子，可以得到：

这表示激活函数是线性的，常常的令fj(x) = x, wjj = 1.0，这样就获得常数误差流了，也叫做CEC。

但是光是这样是不行的，因为存在输入输出处权值更新的冲突(这里原论文里面的解释我不是很明白)，所以加上了两道控制门，分别是input gate, output gate，来解决这个矛盾，图如下：

图中增加了两个控制门，所谓控制的意思就是计算cec的输入之前，乘以input gate的输出，计算cec的输出时，将其结果乘以output gate的输出，整个方框叫做block, 中间的小圆圈是CEC, 里面是一条y = x的直线表示该神经元的激活函数是线性的，自连接的权重为1.0

三.增加forget gate

最初lstm结构的一个缺点就是cec的状态值可能会一直增大下去，增加forget gate后，可以对cec的状态进行控制，它的结构如下图：

这里的相当于自连接权重不再是1.0，而是一个动态的值，这个动态值是forget gate的输出值，它可以控制cec的状态值，在必要时使之为0，即忘记作用，为1时和原来的结构一样。

四.增加Peephole的LSTM结构

上面增加遗忘门一个缺点是当前CEC的状态不能影响到input gate, forget gate在下一时刻的输出，所以增加了Peephole connections。结构如下：

这里的gate的输入部分就多加了一个来源了，forget gate, input gate的输入来源增加了cec前一时刻的输出，output gate的输入来源增加了cec当前时刻的输出，另外计算的顺序也必须保证如下：

input gate, forget gate的输入输出
cell的输入
output gate的输入输出
cell的输出(这里也是block的输出)

五.一个LSTM的FULL BPTT推导(用误差信号)

我记得当时看论文公式推导的时候很多地方比较难理解，最后随便谷歌了几下，找到一个写的不错的类似课件的PDF,但是已经不知道出处了，很容易就看懂LSTM的前向计算，误差反传更新了。把其中关于LSTM的部分放上来，首先网络的完整结构图如下：

这个结构也是rwthlm源码包中LSTM的结构，下面看一下公式的记号：

wij表示从神经元i到j的连接权重(注意这和很多论文的表示是反着的)
神经元的输入用a表示，输出用b表示
下标 ι, φ 和 ω分别表示input gate, forget gate，output gate
c下标表示cell，从cell到 input, forget和output gate的peephole权重分别记做 wcι , wcφ and wcω
Sc表示cell c的状态
控制门的激活函数用f表示，g，h分别表示cell的输入输出激活函数
I表示输入层的神经元的个数，K是输出层的神经元个数，H是隐层cell的个数

前向的计算：

误差反传更新：

时间： 2024-10-09 21:55:21

LSTM简介以及数学推导(FULL BPTT)的相关文章

HDU1719 Friend （数学推导）

friend numbers = 2^x + 3^y -1 1 #include<stdio.h> 2 int main() 3 { 4 __int64 a; 5 while(scanf("%I64d",&a)!=EOF) 6 { 7 if(!a) 8 { 9 printf("NO!\n"); 10 continue; 11 } 12 a+=1; 13 while(a%2==0||a%3==0) 14 { 15 if(a%2==0) a/=2;

HDU 5073 Galaxy（Anshan 2014）（数学推导，贪婪）

Galaxy Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 262144/262144 K (Java/Others) Total Submission(s): 556 Accepted Submission(s): 127 Special Judge Problem Description Good news for us: to release the financial pressure, the government

leetcode 343. Integer Break(dp或数学推导)

Given a positive integer n, break it into the sum of at least two positive integers and maximize the product of those integers. Return the maximum product you can get. For example, given n = 2, return 1 (2 = 1 + 1); given n = 10, return 36 (10 = 3 +

借One-Class-SVM回顾SMO在SVM中的数学推导--记录毕业论文5

上篇记录了一些决策树算法,这篇是借OC-SVM填回SMO在SVM中的数学推导这个坑. 参考文献: http://research.microsoft.com/pubs/69644/tr-98-14.pdf https://inst.eecs.berkeley.edu/~ee227a/fa10/login/l_dual_strong.html https://inst.eecs.berkeley.edu/~ee127a/book/login/l_sdual_slater.html http://w

HDU 5073 Galaxy（Anshan 2014）（数学推导，贪心）

Galaxy Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 262144/262144 K (Java/Others) Total Submission(s): 556 Accepted Submission(s): 127 Special Judge Problem Description Good news for us: to release the financial pressure, the government

最大熵模型中的数学推导

最大熵模型中的数学推导查看原文,点击这里 0 引言写完SVM之后,一直想继续写机器学习的系列,无奈一直时间不稳定且对各个模型算法的理解尚不够,所以导致迟迟未动笔.无独有偶,重写KMP得益于今年4月个人组织的算法班,而动笔继续写这个机器学习系列,正得益于今年10月组织的机器学习班. 10月26日机器学习班第6次课,身为讲师之一的邹博讲最大熵模型,他从熵的概念,讲到为何要最大熵.最大熵的推导,以及求解参数的IIS方法,整个过程讲得非常流畅,特别是其中的数学推导.晚上我把他的PPT 在微博上公开分

时域和频域变换之---傅里叶级数的数学推导

废话不多说先列提纲: 0.概述-需求分析-功能描述-受限和缺点改进+知识点预备 1.泰勒级数和傅里叶级数的本质区别,泰勒展开 2. 函数投影和向量正交 3.两个不变函数求导是本身e^x,sinx,cosx也是为什么要傅里叶转换的原因! 4.傅里叶技术推到过程 5.附录参考资料 0.有些时候,尤其是在图像处理中,矩阵运算数据量太大,特征提取量多,此时可以通过时域转频域来减少计算量,而且此转换不会损失数据完整性. 时域转频域的方法有周期函数用傅里叶技术,非周期函数(没有间断点的函数)用傅里叶转换,

Codeforces Round #360 (Div. 2) D 数学推导 E dp

Codeforces Round #360 (Div. 2) A == B 水,但记一下: 第 n 个长度为偶数的回文数是 n+reverse(n). C dfs 01染色,水 #include<bits/stdc++.h> using namespace std; #pragma comment(linker, "/STACK:102400000,102400000") #define rep(i,a,b) for (int i=a; i<=b; ++i

acdream.18.KIDx's Triangle(数学推导）

KIDx's Triangle Time Limit: 2000/1000MS (Java/Others) Memory Limit: 128000/64000KB (Java/Others) Submit Statistic Next Problem Problem Description One day, KIDx solved a math problem for middle students in seconds! And than he created this problem. N

猜你喜欢

JSON、JSONP、Ajax的区别

什么是JSON JSON是一种基于文本的数据交换方式,或者叫做数据描述格式. JSON的优点: 1.基于纯文本,跨平台传递极其简单: 2.Javascript原生支持,后台语言几乎全部支持: 3.轻量 ...

HTML5 fileReader 随堂笔记

检查浏览器是否支持 1 if(window.FileReader) { 2 } else { 3 alert("您的浏览器不支持上传预览"); 4 } 简单方法 1 <!DO ...

Java常用日期操作详解

Date类型大多数时间分量计算方法已经被Calendar取代 Date常用方法setTime getTime() new Date();默认获取当前的时间 SimpleDateFormat用来格式化和 ...

SQL操作大全

下列语句部分是Mssql语句,不可以在access中使用. SQL分类: DDL-数据定义语言(CREATE,ALTER,DROP,DECLARE) DML-数据操纵语言(SELECT,DEL ...

CRT：C运行库简介

1)运行时库就是 C run-time library,是 C 而非 C++ 语言世界的概念:取这个名字就是因为你的 C 程序运行时需要这些库中的函数. 2)C 语言是所谓的"小内核&quo ...

C#-WinForm-MDI窗体容器、权限设置

MDI窗体容器 - 放窗体的容器窗体时顶级控件,是不允许放到其他的控件或窗体中的 (李献策lxc) 窗体属性中有一个属性:IsMdiContainer - 确定该窗体是否是MDI容器在窗体中放一个 ...

Linux执行命令./command与之间输入命令的区别

我们知道查看文件属性的命令ls的完整文件路径为:/bin/ls(这是绝对路径,)问什么我可以在任何地方执行,任何目录下输入ls就一定可以显示出一些信息而不会说找不到该/bin/ls命令,这是因为不同的 ...

Angularjs中UI Router全攻略

摘自:Angularjs中UI Router全攻略温馨提示:想要了解 angular-ui-router的同学,从上往下读一遍,能带随着coding那就更好了,保证你对angular-ui-rout ...

你空间华国锋的风格hi

http://www.gettyimages.cn/newsr.php?thekeyword=%A8%7E%BA%A3%C1%D6%D4%F5%C3%B4%B9%BA%C2%F2%C3%D4%D2%A ...

强连通分量——消息扩散(洛谷_2002)——tarjan求scc

强连通分量(scc) 缩点建新图找入度为0的点大功告成 #include<iostream> #include<cstdio> #include<algorithm ...

黑马程序员-Java GUI使用

--Java培训.Android培训.iOS培训..Net培训.期待与您交流!-- 一.概述 GUI(Graphical User Interface,图形化用户界面),Java中提供了两个包用于实现 ...

python 下获取系统时间并格式化输出

python下面有两个时间的模块,time和datetime,当然在使用的时候都需要先import. 获得系统当前时间time.localtime(time.time()) 时间的格式化输出可以使用t ...

NDK编译生成so文件

1 首先加载项目 2 进入项目的根目录,输入ndk-build命令 3 如果成功,就会发现项目的libs的mips文件夹下有libplasma.so文件 4 然后运行程序,成功

css 让div 的高度和屏幕的高度一样

<html><head><title>无标题文档</title><style type="text/css">html, ...

html开发日记-form button

<form action="#" id="loginForm"> <div class="form-group"> ...

Spring包的作用描述

spring.jar 是包含有完整发布模块的单个jar 包.但是不包括mock.jar, aspects.jar, spring-portlet.jar, and spring-hibernate2. ...

overflow:hidden的另一层含义

overflow:hidden这个CSS样式是大家常用到的CSS样式,但是大多数人对这个样式的理解仅仅局限于隐藏溢出,而对于清除浮动这个含义不是很了解.一提到清除浮动,我们就会想到另外一个CSS样式 ...

HDU - 2859 Phalanx（dp）

题目链接:点我点我题意:求以左下到右上的最大对称矩阵. 题解:对于每个点(以它为一个矩阵的最左下角),判断一下它右边的第一个点和上面的第一个点,如果相同就再往下判断下去,直到不相同,取当前位置能拿到 ...

ViewBag、ViewData和TempData使用方法、区别与联系

一.区别与联系 ViewData 和 TempData 都可以传递弱类型数据,区别如下:TempData 只在当前 Action 中有效,生命周期和 View 相同:保存在Session中,Contr ...

javascript学习笔记11(原型链)

<script type="text/javascript"> /** * js实现继承的第一种方式是基于原型链的方式 */ functio ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.032 s.