google transformer

参考博客路径：https://zhuanlan.zhihu.com/p/47812375

模型结构（transformer没有用到rnn的任何东西）

模型结构如下图：

和大多数seq2seq模型一样，transformer的结构也是由encoder和decoder组成。

Encoder

Encoder由N=6个相同的layer组成，layer指的就是上图左侧的单元，最左边有个“Nx”，这里是x6个，相当于上一个layers的输出作为下一个layers的输入，重复6次，第一Layers的输入为词向量。每个Layer由两个sub-layer组成，分别是multi-head self-attention mechanism和fully connected feed-forward network。其中每个sub-layer都加了residual connection和normalisation，因此可以将sub-layer的输出表示为：

Multi-head self-attention（多个self attention拿来收集特征，self attention是拿当前词来与序列中的词来进行attention，查看关联程度，multi head的作用是多个self attention）

熟悉attention原理的童鞋都知道，attention可由以下形式表示：

multi-head attention则是通过h个不同的线性变换对Q，K，V进行投影，最后将不同的attention结果拼接起来：

self-attention则是取Q，K，V相同。

另外，文章中attention的计算采用了scaled dot-product(将求出来的attention除以某一个值，防止其变得很大，我的理解是相当于归一化的作用)，即：

Position-wise feed-forward networks

第二个sub-layer是个全连接层。

Attention

我在以前的文章中讲过，Attention 如果用一句话来描述，那就是 encoder 层的输出经过加权平均后再输入到 decoder 层中。它主要应用在 seq2seq 模型中，这个加权可以用矩阵来表示，也叫 Attention 矩阵。它表示对于某个时刻的输出 y，它在输入 x 上各个部分的注意力。这个注意力就是我们刚才说到的加权。

Attention 又分为很多种，其中两种比较典型的有加性 Attention 和乘性 Attention。加性 Attention 对于输入的隐状态和输出的隐状态直接做 concat 操作，得到，乘性 Attention 则是对输入和输出做 dot 操作。

在 Google 这篇论文中，使用对 Attention 模型是乘性 Attention。

我在之前讲 ESIM 模型的文章里面写过一个 soft-align-attention，大家可以参考体会一下。

Self-Attention

上面我们说attention机制的时候，都会说到两个隐状态，分别是和。前者是输入序列第 i个位置产生的隐状态，后者是输出序列在第 t 个位置产生的隐状态。所谓 self-attention实际上就是，输出序列就是输入序列。因而自己计算自己的attention 得分。

Context-Attention

context-attention 是 encoder 和 decoder 之间的 attention，是两个不同序列之间的attention，与来源于自身的 self-attention 相区别。

不管是哪种 attention，我们在计算 attention 权重的时候，可以选择很多方式，常用的方法有

additive attention
local-base
general
dot-product
scaled dot-product

Transformer模型采用的是最后一种：scaled dot-product attention。

Scaled Dot-Product Attention

那么什么是 scaled dot-product attention 呢？

通过 query 和 key 的相似性程度来确定 value 的权重分布。论文中的公式长下面这个样子：

scaled dot-product attention 和 dot-product attention 唯一的区别就是，scaled dot-product attention 有一个缩放因子，叫。表示 Key 的维度，默认用 64。

论文里对于的作用这么来解释：对于很大的时候，点积得到的结果维度很大，使得结果处于softmax函数梯度很小的区域。这时候除以一个缩放因子，可以一定程度上减缓这种情况。

现在来说下 K、Q、V 分别代表什么：

在 encoder 的 self-attention 中，Q、K、V 都来自同一个地方，它们是上一层 encoder 的输出。对于第一层 encoder，它们就是 word embedding 和 positional encoding 相加得到的输入。
在 decoder 的 self-attention 中，Q、K、V 也是自于同一个地方，它们是上一层 decoder 的输出。对于第一层 decoder，同样也是 word embedding 和 positional encoding 相加得到的输入。但是对于 decoder，我们不希望它能获得下一个 time step (即将来的信息，不想让他看到它要预测的信息)，因此我们需要进行 sequence masking。
在 encoder-decoder attention 中，Q 来自于 decoder 的上一层的输出，K 和 V 来自于 encoder 的输出，K 和 V 是一样的。
Q、K、V 的维度都是一样的，分别用、和来表示

Decoder

和 encoder 类似，decoder 也是由6个相同的层组成，每一个层包括以下3个部分:

第一个部分是 multi-head self-attention
第二部分是 multi-head context-attention
第三部分是一个 position-wise feed-forward network

和 encoder 一样，上面三个部分的每一个部分，每一个都有一个残差连接，每一个后接一个 Layer Normalization。

decoder 和 encoder 不同的地方在 multi-head context-attention mechanism

multi-head self-attention（寻找词之间的关系，第一个时刻的word embedding应该是随机初始化的或者是encoder的最后一个时刻的输出，这里没看懂）

跟seq2seq中的decoder一样，拿上一时刻的输出与前面已经输出的词计算multi-head self attention，产生的attention加权和就是这个时刻的输出。但加入了Mask操作，即我们只能attend到前面已经翻译过的输出的词语，因为翻译过程我们当前还并不知道下一个输出词语，这是我们之后才会推测到的。