深度学习：浅谈RNN、LSTM+Kreas实现与应用

主要针对RNN与LSTM的结构及其原理进行详细的介绍，了解什么是RNN，RNN的1对N、N对1的结构，什么是LSTM，以及LSTM中的三门（input、ouput、forget），后续将利用深度学习框架Kreas，结合案例对LSTM进行进一步的介绍。

一、RNN的原理

RNN（Recurrent Neural Networks），即全称循环神经网络，它是一种对序列型的数据进行建模的深度模型。如图1.1所示。

图1.1

1、其中

为序列数据。即神经网络的输入，例如nlp中，X1可以看作第一个单词、X2可以看作是第二个单词，依次类推。语音处理中，可以将

是每帧的声音信号。时间序列中，例如，某生活用品的销量数据。

2、U、W、V是参数矩阵，b、c是偏置项，f是激活函数，通常采用”热撸”、tanh函数作为激活函数，用softmax将输出转换成各个类别的概率。

3、上图为经典的RNN结构，其运算过程可以表示为：

式中：

表示神经网络的输出；

表示前一个时间点的状态；

4、考虑到输入与输出的关系，序列问题具有以下分类：

一对多的RNN结构：序列输出，用于图像字幕，如图1.2所示。

图1.2

多对一的RNN结构：序列输入，用于情感分类，如图1.3所示。

图1.3

多对多：序列输入和输出，用于机器翻译

同步多对多：同步序列输入和输出，用于视频分类

二、LSTM的原理

上面第一部分简单介绍了RNN的几种结构，接下来，介绍一下RNN的改进版：LSTM。LSTM（long short-term memory，长短时记忆网络），它的出现解决了很难处理的“长程依赖”问题，即无法学到序列中蕴含的间隔时间较长的规律。RNN每一层的隐状态都由前一层的隐状态经过变换和激活函数得到，反向传播求导时最终得到的导数会包含每一步梯度的连乘，将会引起梯度的消失或者梯度的爆炸。LSTM在隐状态使用了加法替代了每一步的迭代变换，这样便可以避免梯度消失的问题，从而使得网络学到长程的规律。

RNN可用图1.4表示

图1.4

同理，LSTM的结构图1.5所示

图1.5

其中图1.5中的符号，长方形表示对输入的数据做变换或激活函数；圆形表示逐点，逐点运算是指两个形状完全相同的矩形的对应位置进行相加、相乘或者其他的一些运算；箭头则表示向量会在那里进行运算。注意：

通过concat操作，才进入Sigmoid或tanh函数。

RNN与LSTM有所不同，LSTM的隐状态有两部分，一部分是ht ，另一部分则是

，

在各个步骤之间传递的主要信息，绿色的水平线可看作“主干道”，如图1.6所示。通过加法，

可以无障碍的在这条主干道上传递，因此较远的梯度也可以在长程上传播，这便是LSTM的核心思想。

图1.6

但是，不是每一步的信息

都是完全使用前一步的

，而是在

的基础之上“遗忘”掉一些内容，或“记住”一些内容。

1、遗忘门，我们首先谈一谈遗忘门，每个单元都有一个“遗忘门”，用来控制遗忘掉

的那些部分，其结构如图1.7所示。其中σ是sigmoid激活函数，它的输出在0~1之间，遗忘门输出的

相同形状的矩阵，该矩阵将会和

逐点相乘，决定遗忘掉那部分内容。经过激活函数的输出，f取值接近0的维度上的信息就会被“忘记”，而f取值接近1的维度上的信息就会被保留。

图1.7

2、输入层，如图1.8，在循环神经网络“忘记”了部分之前的状态后，它还需要从当前的输入补充最新的记忆，这个过程就是“输入门”完成的。输入门的输入同样是两项，分别是：

。它的输出项，一项是

，

同样经过Sigmoid函数运算得到，其值都是在0~1之间，还有一项

。最终要“记住”的内容是

与

点相乘，如图1.9。

图1.8

图1.9

3、输出门，输出门用于计算另一个隐状态的值，真正的输出（如类别）需要通过做进一步运算得到。输出门的结构如图1.20所示，同样根据

计算，

中每一个数值在0~1之间，

通过

得到。

图1.20

最终总结：LSTM中每一步的输入是

，隐状态是

，最终的输出必须要经过

进一步变换得到。

为了帮助大家让学习变得轻松、高效，给大家免费分享一大批资料，让AI越来越普及。在这里给大家推荐一个人工智能Python学习交流群：519970686欢迎大家进群交流讨论，学习交流，共同进步。

当真正开始学习的时候难免不知道从哪入手，导致效率低下影响继续学习的信心。

但最重要的是不知道哪些技术需要重点掌握，学习时频繁踩坑，最终浪费大量时间，所以拥有有效资源还是很有必要的。

原文地址：https://www.cnblogs.com/t198520/p/10489106.html

时间： 2024-07-30 00:00:34

深度学习：浅谈RNN、LSTM+Kreas实现与应用的相关文章

<转>深度学习浅谈

深度学习--人工神经网络再掀研究热潮胡晓林转自:http://caai.cn/contents/118/1934.html 人工神经网络起源于上世纪40年代,到今天已经70年历史了.就像人的一生,经历了起起落落,有过辉煌,有过黯淡,有过嘈杂,有过冷清.总体说来,过去的20年中人工神经网络的研究不温不火,直到最近三五年,随着深度学习概念的提出,人工神经网络才又重新焕发生机,甚至再度掀起研究热潮.本文简述一下人工神经网络的"前世今生",并简单展望一下它的未来. 第一个神经元模型是194

深度学习笔记(五)：LSTM

深度学习笔记(一):logistic分类深度学习笔记(二):简单神经网络,后向传播算法及实现深度学习笔记(三):激活函数和损失函数深度学习笔记(四):循环神经网络的概念,结构和代码注释深度学习笔记(五):LSTM 看到一篇讲LSTM非常清晰的文章,原文来自Understanding LSTM Networks , 译文来自理解LSTM网络 Recurrent Neural Networks 人类并不是每时每刻都从一片空白的大脑开始他们的思考.在你阅读这篇文章时候,你都是基于自己已经拥有的

浅谈RNN、LSTM + Kreas实现及应用

本文主要针对RNN与LSTM的结构及其原理进行详细的介绍,了解什么是RNN,RNN的1对N.N对1的结构,什么是LSTM,以及LSTM中的三门(input.ouput.forget),后续将利用深度学习框架Kreas,结合案例对LSTM进行进一步的介绍. 一.RNN的原理 RNN(Recurrent Neural Networks),即全称循环神经网络,它是一种对序列型的数据进行建模的深度模型.如图1.1所示. 图1.1 1.其中为序列数据.即神经网络的输入,例如nlp中,X1可以看作第一个单词

用深度学习（CNN RNN Attention）解决大规模文本分类问题 - 综述和实践

转自https://zhuanlan.zhihu.com/p/25928551 近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路.做法和部分实践的经验. 业务问题描述: 淘宝商品的一个典型的例子见下图,图中商品的标题是"夏装雪纺条纹短袖t恤女春半袖衣服夏天中长款大码胖mm显瘦上衣夏".淘宝网后台是通过树形的多层的类目体系管理商品的,覆盖叶子类目数量达上万个,商品量也

深度学习浅层理解（一）

来源和参考,参见以下链接等相关网站: http://blog.csdn.net/zouxy09/article/details/8775360 http://blog.csdn.net/zouxy09/article/details/8775488 http://blog.csdn.net/zouxy09/article/details/8775518 1958 年,DavidHubel 和Torsten Wiesel 在 JohnHopkins University,研究瞳孔区域与大脑皮层神经

吴恩达 DeepLearning.ai课程笔记（1-3）神经网络和深度学习 --- 浅层神经网络

以下为在Coursera上吴恩达老师的DeepLearning.ai课程项目中,第一部分<神经网络和深度学习>第二周课程部分关键点的笔记.笔记并不包含全部小视频课程的记录,如需学习笔记中舍弃的内容请至 Coursera 或者网易云课堂.同时在阅读以下笔记之前,强烈建议先学习吴恩达老师的视频课程. 1. 二分类问题对于二分类问题,大牛给出了一个小的Notation. 样本: ,训练样本包含个: 其中 ,表示样本包含个特征: ,目标值属于0.1分类: 训练数据: 输入神经网络时

关于自动化学习浅谈二

什么是自动化测试?自动化测试的原理是什么?常用哪些工具?常用哪些框架?工具的原理又是什么?自动化如何学习?自动化的优点与缺点是什么?价值在哪里?学习自动化测试要了解与掌握哪些内容?哪些项目适合自动化测试呢? 想学习自动化测试首先得明白以上一些问题,不然学着只能知其然,不知其所以然. 1,什么是自动化测试?优缺点是什么?价值在哪里? 自动化测试是把以人为驱动的测试行为转化为机器执行的一种过程. 从它的定义中是不是所有人为驱动的测试都可以转化为机器执行呢? 答案是否定的.这也就带出了自动化的局限性.

深度学习浅层理解（二）

参见链接文献如下: http://blog.csdn.net/zouxy09/article/details/8775518 Deep Learning和 neural network异同二者的相同在于deep learning采用了神经网络相似的分层结构,系统由包括输入层.隐层(多层).输出层组成的多层网络,只有相邻层节点之间有连接,同一层以及跨层节点之间相互无连接,每一层可以看作是一个logistic regression模型:这种分层结构,是比较接近人类大脑的结构的. 而为了克服神经网

深度学习之三：RNN

RNN,也就是Recurrent Neural Network,循环神经网络,是非线性动态系统,将序列映射到序列,主要参数有五个:[Whv, Whh, Woh, bh, bo, h0] ,典型的结构图如下: 解释一下上图: 和普通神经网络一样,RNN有输入层输出层和隐含层,不一样的是RNN在不同的时间t会有不同的状态,其中t-1时刻隐含层的输出会作用到t时刻的隐含层 [Whv, Whh, Woh, bh, bo, h0]的参数意义是: Whv:输入层到隐含层的权重参数,Whh:隐含层到隐含层的权

猜你喜欢

2.2JAVA基础复习——JAVA语言的基础组成运算符和语句

JAVA语言的基础组成有: 1.关键字:被赋予特殊含义的单词. 2.标识符:用来标识的符号. 3.注释:用来注释说明程序的文字. 4.常量和变量:内存存储区域的表示. 5.运算符:程序中用来运算的符号 ...

Lync 项目经验-05-共存迁移-Lync 2013-TO-SFB 2015-边缘服务器复制状态不正常

问题: 在Lync Server 2013与Skype for Business Server 2015共存迁移环境中发现边缘服务器复制不正常: 强行复制还是不正常将边缘服务器加域,还是不正常. ...

[BZOJ 3553][SHOI2014]三叉神经树

传送门(下面也有题面) 题目大意: 一颗有根树,每个非叶子节点都有三个子节点,每个节点的权为0/1. 每个节点的权取决于其所有子节点中哪种权出现的次数更多. 有若干次询问,每次询问修改一个叶子节点 ...

学习记录 java随机数的产生机制

java 随机数一.在j2se里我们可以使用Math.random()方法来产生一个随机数,这个产生的随机数是0-1之间的一个double,我们可以把他乘以一定的数,比如说乘以100,他就是个100 ...

有关eclipse for java ee版本遇到的坑（ Context initialization failed）

这几天把以前网上看的视频的源代码拷贝到eclipse下面进行学习,当时用的是eclipse-jee-neon-M4a-win32-x86_64这个版本的eclipse,因为它本身集合了web开发插件, ...

数组客户订单实例

订单类 // // Order.h #import <Foundation/Foundation.h> #import "Customer.h" @interface ...

php类和对象：继承

继承 : 面向对象编程方式最大的优点之一就是,可以使一个类继承并拥有另一个已存在类的成员变量和成员方法,其中被继承的类称为父类,继承的类称为子类.子类继承父类以后便获得父类所有的成员变量和成员方法.通 ...

java中DatagramSocket连续发送多个数据报包时产生丢包现象解决方案

1 try { 2 //向指定的ip和端口发送数据~! 3 //先说明一下数据是谁发送过来的! 4 byte[] ip = InetAddress.getLocalHost().getHostAddr ...

Android # 基础汇总

主題彙總: 源碼下載/Android开发源码下载: [更新4.4]Android 2.2.2到Android 4.2.2源码下载地址 - Android开发资料库 - Android开发论坛 - 安 ...

选人用人，排第二位；39.6％的y

"'一带一路'国际合作高峰论坛有望成为亚欧大陆和整个世界发展的推动力量."俄罗斯政治信息中心主任穆欣满怀期待. 美国总统奥巴马表示,枪击案"令人心碎",又表示其 ...

从头开始 C语言的旅程

大学的时候虽然上过C语言这门课,但是不得不承认,打酱油了,什么也不会,连个HELLO WORD都写不出来的其实,但是为了今天的自己比昨天的进步一些,我决定从头开始我的C语言之旅. 今天看了谭浩强的C语 ...

9. Linux远程登录

1. 检查网络是否通畅 C:\Users\cfm>ping 192.168.232.131 正在 Ping 192.168.232.131 具有 32 字节的数据:来自 192.168.232. ...

检测是否是小米手机

最近升级了MIUI系统,新系统中,蓝牙功能不能正常使用,分析原因后发现是由于没有开启定位权限,但是又不能获取定位权限是否开启的正确的值,不管是是否授权了,都返回了授权,所以没法判断, 所以针对小米手机 ...

求解圆圈中最后剩下的数字

一,问题描述将 0,1,2....n-1 一共n个数字排成一个圆圈.从数字0开始每次从这个圆圈里面删除第m个数字( 1=<m<=n, 比如第1个数字为0).求出这个圆圈里面最后剩下的那个 ...

几个好用的VIM插件

a.vim 只需输入":A",便可以在源文件和头文件之间快速切换. 比如你当前正在编辑"foo.c",然后想修改"foo.h",只需要输入& ...

Android开发之使用BroadcastReceiver实时监听电量（源代码分享）

Android系统中实时的监听手机电量以及开机启动功能都是通过BroadcastReceiver组件实现的.我们可以动态注册这个类的一个实例通过Context.registerReceiver()方法 ...

【CLR in c#】参数

1.可选参数和命名参数设计一个参数时,可为部分或全部参数分配默认值,调用这些方法的代码可以选择不指定部分实参,接受默认值,还可以通过制定参数名称的方式传递实参.如下 class CLR可选参数 { ...

在Linux上安装SVN服务

1.安装SVNyum install subversion 2.查看版本svnserve --version3.创建目录mkdir /web/svndata3.创建repo测试库svnadmin cr ...

求数组中任意两个数之间所有数字的和

303. Range Sum Query - Immutable 求数组中任意两个数之间所有数字的和 QuestionEditorial Solution My Submissions Total ...

Objective-C----快速枚举、数组排序

直接上代码: /* * 快速枚举 * */ NSLog( @"++++++++++++++++++" ) ; NSArray *testArray = @[@1, @2, @3, ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.025 s.