Attention is all you need

论文地址:http://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf
只简要翻译一些重点内容。

摘要

很多序列转换模型都具有复杂的循环或卷积结构和编码/解码器。目前最好的模型也是基于编码/解码器和attention机制的。我们提出了一种简单的网络结构:transformer。只与attention有关,完全抛弃的循环和卷积结构。在两个机器翻译数据集上的实验证明了本文提出的模型更好,同时也可以并行计算,降低计算时间。

1 Introduction

在序列建模和机器翻译等自然语言处理问题上,RNN, LSTM, Gated RNN都获得了非常好的效果。但是RNN类模型必须按时序处理数据,所以会大幅提高计算开销。近期的研究成果中,有一些算法使用了一些技巧降低计算复杂度,但是由于序列化问题的天然属性,这种计算性能瓶颈仍然存在。注意力机制已经成为序列建模和转换模型的组成部分,允许在不考虑依赖项在输入或输出序列中的距离的情况下对依赖项进行建模。

在论文中,我们提出了transformer,完全依赖attention来搜索输入和输出之间的全局依赖性。transformer可以高度并行化计算,提高机器翻译质量。

2 Background

ByteNet和ConvS2S等网络都使用卷积结构作为基本计算单元。在这些模型中,将来自两个任意输入或输出位置的信号联系起来所需的操作数和距离有关,对于ConvS2S是线性的,对于ByteNet是对数的。这种距离相关的特性使算法不容易学习到长距离依赖关系。在transformer中,学习长距离依赖关系需要的计算开销是常数的。尽管这种方法影响了识别性能,但是在3.2中介绍的multi attention解决了这一问题。

Self attention(也叫intra-attention)为了计算一个序列的表示,self attention将这个序列不同的部分联系在一起。(就是设置一个权重矩阵,给句子中每个词分配不同的权重然后加一块。)self attention在阅读理解、爱要抽取等任务上取得了非常好的结果。

Model Architecture

很多神经网络都包含encoder和deceder结构。encoder将一系列字符$(x_1, x_2, …, x_n)$映射到向量$(z_1, z_2, …, z_n)$。给定z,解码器可以生成输出序列$(y_1, y_2, …, y_n)$。在每个时间t,算法是自回归的,通过上一步(t-1)生成的symbol和input数据生成t时刻的输出。(这块比较简单)

transformer的主要思想和上一段类似,使用stacked self attention和逐点全连接层,如图1所示。

fig1

在GitHub上获取

您可以在GitHub上找到源代码。随意下载,分叉或关注。如果您有任何反馈或想要为项目做出贡献,可以提交问题或提交拉取请求,我们随时欢迎您!

项目官网:http(s)://github-profile.joytou.net/

原文引用 大专栏  https://www.dazhuanlan.com/2019/08/27/5d64c72b96ed1/

原文地址:https://www.cnblogs.com/petewell/p/11418607.html

时间: 2024-08-01 14:07:22

Attention is all you need的相关文章

keras系列︱seq2seq系列相关实现与案例(feedback、peek、attention类型)

之前在看<Semi-supervised Sequence Learning>这篇文章的时候对seq2seq半监督的方式做文本分类的方式产生了一定兴趣,于是开始简单研究了seq2seq.先来简单说一下这篇paper的内容: 创立的新形式Sequence AutoEncoder LSTM(SA-LSTM),Pre-trained RNNs are more stable, generalize better, and achieve state-of-the-art results on var

Multimodal —— 看图说话(Image Caption)任务的论文笔记(三)引入视觉哨兵的自适应attention机制

在此前的两篇博客中所介绍的两个论文,分别介绍了encoder-decoder框架以及引入attention之后在Image Caption任务上的应用. 这篇博客所介绍的文章所考虑的是生成caption时的与视觉信息无关的词的问题,如"the"."of"这些词其实和图片内容是没什么关系的:而且,有些貌似需要视觉特征来生成的词,其实也可以直接通过语言模型来预测出来,例如"taking on a cell"后生成"phone".

Dynamic attention in tensorflow

新代码在contrib\seq2seq\python\ops\attention_decoder_fn.py ? ? 和之前代码相比 不再采用conv的方式来计算乘,直接使用乘法和linear ? ? 给出了两种attention的实现 传统的"bahdanau": additive (Bahdanau et al., ICLR'2015) Neural Machine Translation by Jointly Learning to Align and Translate 以及&

论文笔记之:Localizing by Describing: Attribute-Guided Attention Localization for Fine-Grained Recognition

Localizing by Describing: Attribute-Guided Attention Localization for Fine-Grained Recognition Baidu Research

论文笔记之:Fully Convolutional Attention Localization Networks: Efficient Attention Localization for Fine-Grained Recognition

Fully Convolutional Attention Localization Networks: Efficient Attention Localization for Fine-Grained Recognition   细粒度的识别(Fine-grained recognition)的挑战性主要来自于 类内差异(inter-class differences)在细粒度类别中通常是局部的,细微的:类间差异(intra-class differences)由于姿态的变换而导致很大.为了

paper 27 :图像/视觉显著性检测技术发展情况梳理(Saliency Detection、Visual Attention)

1. 早期C. Koch与S. Ullman的研究工作. 他们提出了非常有影响力的生物启发模型. C. Koch and S. Ullman . Shifts in selective visual attention: Towards the underlying neural circuitry. Human Neurobiology, 4(4):219-227, 1985. C. Koch and T. Poggio. Predicting the Visual World: Silenc

Attention and Augmented Recurrent Neural Networks

Attention and Augmented Recurrent Neural Networks CHRIS OLAHGoogle Brain SHAN CARTERGoogle Brain Sept. 8 2016 Citation: Olah & Carter, 2016 Recurrent neural networks are one of the staples of deep learning, allowing neural networks to work with seque

(转)Attention

本文转自:http://www.cosmosshadow.com/ml/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/2016/03/08/Attention.html Attention Index 参考列表 Attention Attention在视觉上的递归模型 模型 训练 效果 Torch代码结构 (TODO)基于Attention的图片生成 基于Attention的图片主题生成 模型 编码 解码 Stochastic “Hard” Attention Det

论文笔记之:Attention For Fine-Grained Categorization

Attention For Fine-Grained Categorization Google ICLR 2015 本文说是将Ba et al. 的基于RNN 的attention model 拓展为受限更少,或者说是非受限的视觉场景.这个工作和前者很大程度上的不同在于,用一个更加有效的视觉网络,并且在attention RNN之外进行视觉网络的预训练. 前人的工作在学习 visual attention model 时已经解决了一些计算机视觉问题,并且表明加上不同的attention mec

论文笔记之:MULTIPLE OBJECT RECOGNITION WITH VISUAL ATTENTION

 Multiple Object Recognition With Visual Attention Google DeepMind  ICRL 2015 s