Seq2Seq和Attention机制入门详细介绍

1.Sequence Generation

1.1.引入

在循环神经网络（RNN）入门详细介绍一文中，我们简单介绍了Seq2Seq，我们在这里展开一下

一个句子是由 characters（字）或 words（词）组成的，中文的词可能是由数个字构成的。

如果要用训练RNN写句子的话，以 character 或 word 为单位都可以

以上图为例，RNN的输入的为前一时间点产生的token（character 或 word）

假设机器上一时间点产生的 character 是 “我”，我们输出的向量 y 是在 character 上的分布，它有0.7的几率写出 “我是”，有0.3的几率写出 “我很” 。

1.2.例子：写诗

在产生句子第一个 character 的时候，由于前面没有东西，我们需要给机器一个特殊的character—— <BOS>

BOS：Begin of Sentence

输出的第一个character $y^{1}$ 可以下面的条件概率表示

我们再输出概率最大的那个 character，然后把$y^{1}$作为输入，……，不断重复这个行为，直到我们输出 <EOS>

EOS：End of Sentence

我们训练 RNN 的数据集也类似上面这个样子。如下图所示，我们的输入是古诗的每一个字，输出是输入的下一个字，通过最小化 cross-entropy 来得到我们的模型

1.3.例子：画图

图片由 pixel 组成，我们可以把一张图片的像素点想成词汇，让RNN产生像素点，道理也是一样的。

但是图片每一行最右边的像素点 $a_{i,j}$ 和下一行最左边 $a_{i+1, j-2}$ 的像素距离很远，他们可能没有关系，$a_{i+1, j-2}$ 反而可能跟正上方的像素 $a_{i, j-2}$ 关系大些。

比如下图中灰色的像素点和黄色的像素点可能关系不大，而跟蓝色的像素点更有关系。

所以我们生成图片像素点的时候，灰色的像素点是由蓝色像素点生成的，而不是由黄色像素点生成。

2.Conditional Generation

但我们不想随机生成句子，我们更期望它能根据我们的场景生成相应的句子。比如给张图片，输出对图片的描述；聊天机器人中输入一句话，输出这句话的response。

2.1.Image Caption Generation

比如我们要训练一个模型，用来生成图片的文字说明。

我们可以让图片通过一个CNN，输出一个vector，再把这个vector丢到RNN中。

这个vector可以只在第一个时间点输入，让RNN把这个vector存到memory中，后面的时间点补零。
也可以在每个时间点都输入这个vector，因为RNN到后面可能忘记了我们输入的vector。

2.2.Machine translation / Chat-bot

如果要做一个翻译机或者一个聊天机器人，我们的输入是一个句子，输出是翻译结果或者response。

这个模型可以分为两个部分，Encoder 和 Decoder

把句子输入 Encoder 然后在最后一个时间点把 output 取出来

可以取output，也可以取 $h_{t}$，还有$c_{t}$

再把 Encoder 输出的vector 作为 Decoder 每一个时间点的输入。Encoder 和 Decoder 是一起训练的。

上面这种情况，我们的输入是Sequence，我们的输出也是Sequence，所以被称为 Sequence to Sequence Model

3.Dynamic Conditional Generation

这种模型又叫做 Attention Based Model。前面介绍的 Encoder- Decoder 这种架构，它可能没有能力把一个很长的 input 压缩到一个 vector 中，这样 vector 就不能表示句子里的所有信息，导致模型表现不如人意。前面 Decoder 每个时间点输入都是同样的 vector 。在 Dynamic Conditional Generation 中，我们希望 Decoder 在每个时间点获得的信息是不一样的。

我们继续上面的例子，来训练一个翻译模型。这里多了一个向量$z^{0}$，$z^{0}$也是模型需要训练的参数向量（称为key）

我们先把每个隐藏层的输出放到一个 Database 中，用$z^{0}$去搜寻 Database 中的内容。它会和隐藏层的每个输出$h^{i}$做匹配，得到一个匹配的程度 $\alpha ^{i}_{0}$