序列模型（3）---LSTM（长短时记忆）

一、RNN回顾

略去上面三层，即o,L,y，则RNN的模型可以简化成如下图的形式：

由于RNN梯度消失的问题，大牛们对于序列索引位置t的隐藏结构做了改进，可以说通过一些技巧让隐藏结构复杂了起来，来避免梯度消失的问题，这样的特殊RNN就是我们的LSTM。由于LSTM有很多的变种，这里我们以最常见的LSTM为例讲述。LSTM的结构如下图：

从上图中可以看出，在每个序列索引位置t时刻向前传播的除了和RNN一样的隐藏状态h(t)，还多了另一个隐藏状态，如图中上面的长横线。这个隐藏状态我们一般称为细胞状态(Cell State)，记为C(t)。如下图所示：

除了细胞状态，LSTM图中还有了很多奇怪的结构，这些结构一般称之为门控结构(Gate)。LSTM在在每个序列索引位置t的门一般包括遗忘门，输入门和输出门三种。下面我们就来研究上图中LSTM的遗忘门，输入门和输出门以及细胞状态。

在研究LSTM输出门之前，我们要先看看LSTM之细胞状态。前面的遗忘门和输入门的结果都会作用于细胞状态C(t)。我们来看看从细胞状态C(t−1)如何得到C(t)。如下图所示：

我们把旧状态与ft相乘，丢弃掉我们确定需要丢弃的信息。接着加上it∗Ct~。这就是新的候选值，根据我们决定更新每个状态的程度进行变化。

原文地址：https://www.cnblogs.com/Lee-yl/p/10065864.html

时间： 2024-10-09 13:18:18