神经机器翻译 - NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

论文:NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

综述

固定长度向量是编码器 - 解码器架构性能提升的瓶颈

--->   本文提出:允许模型自动(软)搜索 --- 与预测目标单词相关的源句( x 硬分段 )

摘要

神经机器翻译是最近提出的机器翻译方法。与传统的统计机器翻译不同,神经机器翻译的目标是建立一个单一的神经网络,可以共同调整以最大化翻译性能。最近提出的用于神经机器翻译的模型一般是编码器 - 译码器族,且将源句子编码成固定长度的矢量,解码器从该矢量生成翻译。在本文中,我们推测使用固定长度向量是提高这种基本编码器 - 解码器架构性能的瓶颈,并建议通过允许模型自动(软)搜索与预测目标单词相关的源句部分来扩展这一功能,而不必将这些部分显式地形成硬分段。采用这种新方法,我们的翻译性能可以与现有的基于短语的英法翻译系统相媲美。此外,定性分析表明,该模型得到的(软)对齐结果与我们的直觉非常吻合。

1. 介绍

最近由Kalchbrenner和Blunsom(2013),Sutskever(2014)和Cho(2014b)提出的神经机器翻译是一种新兴的机器翻译方法。 与传统的基于短语的翻译系统(参见Koehn等人,2003)不同,它由许多分开调谐的小型子部件组成,神经机器翻译尝试构建和训练单个大型神经网络读取一个句子并输出正确的翻译。

大多数提出的神经机器翻译模型属于一个编码器 - 解码器家族,每种语言都有一个编码器和一个解码器,或者涉及一种语言特定的编码器,然后将这些编码器应用于每个句子,然后将其输出进行比较。 编码器神经网络将源信号读取并编码为固定长度的矢量。 解码器然后从编码矢量输出翻译。 整个编码器 - 译码器系统由编码器和语言对的译码器共同训练,以最大化给定源句子的正确译文的概率。

这种编码器 - 解码器方法的一个潜在问题是神经网络需要能够将源语句的所有必要信息压缩成固定长度的向量。 这可能使神经网络很难处理长句,特别是那些比训练语料库中的句子更长的句子。 Cho等人 表明,当输入句子的长度增加时,基本编码器 - 译码器的性能的确会迅速恶化。

为了解决这个问题,我们引入了一个扩展到编码器 - 解码器模型,学习联合对齐和翻译。 每次提出的模型在翻译中生成一个单词时,它(软)会在源句子中搜索一组位置,其中最相关的信息是集中的。 该模型然后基于与这些源位置和所有先前生成的目标词相关联的上下文向量来预测目标词。

在本文中,我们表明,所提出的联合学习对齐和平移的方法实现了比基本编码器 - 解码器方法显着提高的翻译性能。 用更长的句子来改进这种改进更为明显,但可以用任何长度的句子来观察。 在英文到法文翻译的任务中,所提出的方法通过单一模型实现了与传统的基于短语的系统相当或接近的翻译性能。 此外,定性分析表明,所提出的模型发现源语句和相应的目标语句之间在语言上可信(软)对应。

2. 背景:神经机器翻译
从概率的角度来看,翻译等同于找到一个目标句子y,它使给定源句子x的y的条件概率最大化,即argmaxyp(y|x)argmaxyp(y|x)。 在神经机器翻译中,我们拟合参数化模型,以使用并行训练语料库来最大化语句对的条件概率。 一旦通过翻译模型学习了条件分布,给定源句子,可以通过搜索使条件概率最大化的句子来生成相应的翻译。

最近,一些论文提出使用神经网络直接学习这种条件分布。这种神经机器翻译方法典型地由两部分组成,其中第一部分编码源句子x,第二部分解码为目标句子y。 例如,(Cho等,2014a)和(Sutskever等,2014)使用两个循环神经网络(RNN)将可变长度的源语句编码成固定长度的向量并将该向量解码为一个可变长度的目标语句。

尽管是一种相当新颖的方法,神经机器翻译已经显示出有希望的结果。 Sutskever报告说,基于长期短期记忆(LSTM)单位的RNNs的神经机器翻译实现了接近传统的基于短语的机器翻译系统在英语到法语翻译任务上的最新性能。 例如,将现有翻译系统的神经元件添加到短语表中或对候选翻译进行重新排名,可以超越以前的最新性能水平。

原文地址:https://www.cnblogs.com/shona/p/10710025.html

时间: 2024-08-01 17:21:15

神经机器翻译 - NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE的相关文章

神经网络机器翻译Neural Machine Translation(1): Encoder-Decoder Architecture

端到端的神经网络机器翻译(End-to-End Neural Machine Translation)是近几年兴起的一种全新的机器翻译方法.本文首先将简要介绍传统的统计机器翻译方法以及神经网络在机器翻译中的应用,然后介绍NMT中基本的"编码-解码"框架(Encoder-Decoder). 转载请注明出处:http://blog.csdn.net/u011414416/article/details/51048994

论文阅读 | Robust Neural Machine Translation with Doubly Adversarial Inputs

(1)用对抗性的源实例攻击翻译模型; (2)使用对抗性目标输入来保护翻译模型,提高其对对抗性源输入的鲁棒性. 生成对抗输入:基于梯度 (平均损失)  ->  AdvGen 我们的工作处理由白盒NMT模型联合生成的扰动样本  ->  知道受攻击模型的参数 ADVGEN包括encoding, decoding: (1)通过生成对训练损失敏感的对抗性源输入来攻击NMT模型; (2)用对抗性目标输入对NMT模型进行了防御,目的是降低相应对抗性源输入的预测误差. 贡献: 1. 研究了一种用于生成反例的白

【Machine Translation】无监督神经机器翻译论述

Unsupervised NMT 概述 神经机器翻译系统取得了很好的翻译水平,但非常依赖于平行语料.目前已经有利用大量单语数据训练模型的研究,这其中包括: 仅仅由两份单语语料(不平行)训练出双语词典.这个的核心是学习一个旋转矩阵W,使得两份语料的词向量空间对齐,再进行一些调整更好的对齐两词向量空间,最后进行单词到单词的翻译,即生成了双语词典. 对偶学习的思想.有些研究里也提出迭代后向翻译,但思想是类似的,即通过翻译模型生成假的平行语料,再利用该平行语料训练模型,迭代此过程. 利用第三种语言.翻译

Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

1.主要完成的任务是能够将英文转译为法文,使用了一个encoder-decoder模型,在encoder的RNN模型中是将序列转化为一个向量.在decoder中是将向量转化为输出序列,使用encoder-decoder能够加入词语与词语之间的顺序信息. 2.另一个任务是将序列表达为一个向量,利用向量能够清楚的看出那些语义上相近的词聚集在一起. 3.在设计RNN的隐藏层时,在读入或产生序列加入了reset和update门,可以选择丢掉记忆信息和更新记忆信息,得到了更有意义的结果.

【Machine Translation】仅由单语数据生成双语词典

Word translation without parallel data 考虑在只有单语数据的情况下,如何生成双语词典. 基于假设: 相似的上下文中的单词具有相似的语义:在两个不同语言的词向量空间中,两个具有相似语义的单词在各自空间中具有相似的相对空间位置,因此只要学习一个线性映射就可以实现大致的对齐. 实现步骤: A:对于语言X和Y,首先,各自训练词向量矩阵(300维). ? 这里学习词向量用的是facebook的fastText而不是Word2vec. B:学习旋转矩阵W,实现近似对齐.

Jointly Learning Binary Code for Large-scale Face Image Retrieval and Attributes Prediction

资源下载:http://download.csdn.net/detail/lilai619/9489623

谷歌发布神经机器翻译翻译质量接近笔译人员

众MM齐齐掠至,而魔法阵也终于在祭坛上绽放出冲天光芒,下一刻,一声怒吼之中,二层的BOSS出现了,赫然是一个满是针刺的满意,犹如刺猬滚成一团一般! 一路上畅行无阻,有流光剑开路,甚至我出手的机会都缩小了很多,普通的怪物,根本就挡不住流光剑的两次攻击,而凌雪若是使用横扫千军的话,则可以直接秒杀怪物,那原本凶悍的青狼守卫就如同豆腐一般的被切得痛苦不堪. 后方,风雪之中无数傲世的玩家跟了上来,最前方的赫然是其中的骑马战士系玩家,傲世狂剑骑乘着一匹血红色的战马追击了上来,挥剑喝道"给我追,今天绝不能放过

(转) 多模态机器翻译

本文转自: http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650722318&idx=4&sn=728e8e264ca05f2366d75a27744bb383&chksm=871b1470b06c9d669f9a077f0b41502d7682c0f54d5585091a33ddbb5c1a99b00fc9dcbf6d39&mpshare=1&scene=23&srcid=0115Pna

Deep Learning基础--理解LSTM/RNN中的Attention机制

导读 目前采用编码器-解码器 (Encode-Decode) 结构的模型非常热门,是因为它在许多领域较其他的传统模型方法都取得了更好的结果.这种结构的模型通常将输入序列编码成一个固定长度的向量表示,对于长度较短的输入序列而言,该模型能够学习出对应合理的向量表示.然而,这种模型存在的问题在于:当输入序列非常长时,模型难以学到合理的向量表示. 在这篇博文中,我们将探索加入LSTM/RNN模型中的attention机制是如何克服传统编码器-解码器结构存在的问题的. 通过阅读这篇博文,你将会学习到: 传