论文阅读 | Robust Neural Machine Translation with Doubly Adversarial Inputs

(1)用对抗性的源实例攻击翻译模型;

(2)使用对抗性目标输入来保护翻译模型,提高其对对抗性源输入的鲁棒性。

生成对抗输入:基于梯度 (平均损失)  ->  AdvGen

我们的工作处理由白盒NMT模型联合生成的扰动样本  ->  知道受攻击模型的参数

ADVGEN包括encoding, decoding:

(1)通过生成对训练损失敏感的对抗性源输入来攻击NMT模型;

(2)用对抗性目标输入对NMT模型进行了防御,目的是降低相应对抗性源输入的预测误差。

贡献:

1. 研究了一种用于生成反例的白盒方法。我们的方法是一种基于梯度的方法,以平移损失为指导。

2. 我们提出了一种新的方法来提高具有双重对抗输入的NMT的鲁棒性。编码器中的对抗性输入旨在攻击NMT模型,而解码器中的对抗性输入能够防御预测中的错误

3.我们的方法在两个常见的转换基准上实现了对以前最先进的Transformer模型的显著改进。

包括Transformer在内的最先进的模型相比,提高了2.8和1.6的BLEU点。这个结果证实了我们的模型在干净的基准数据集上提高了泛化性能。进一步的噪声文本实验验证了该方法提高鲁棒性的能力。我们还进行消融研究,以进一步了解我们的方法的哪些部分最重要。

背景


解码器生成的y:

对抗样本:

方法

ATTACK

我们的目标是学习健壮的NMT模型,可以克服输入句中的小扰动。即使是一个单词的变化也可以被感知。NMT是一个序列生成模型,其中每个输出字都有对之前所有预测的限制。因此,一个问题是如何为NMT设计有意义的操作。

 

sim  相似度计算函数(向量的余弦距离);gxi 梯度;Vx源语言词典

Plm 双向语言模型;Q xi x  句子x中i-th词的似然函数;Vxi top_n  < Vx

Dpos是位置{1,...,|x|}上的一个分布(抽取的对抗词)。

对于源函数,我们使用简单的均匀分布U。根据约束R,我们希望输出句与输入句之间不要有太大的偏离,从而只根据超参数改变其组成词的一小部分:

DEFENSE

z是decoder的input

Qtrg是选择目标词候选集Vz的可能性。为了计算它,我们将NMT模型预测与语言模型相结合:

Mij 是attention的分数 目的是找最相似的词 后面那个是指示函数 不相等的时候=1

训练

对x’ 和 z‘  调用ADVGEN两次。在更新参数时,我们没有将梯度反向传播到AdvGen上,只是起到了数据生成器的作用。在我们的实现中,与标准的Transformer模型相比,该函数最多产生20%的时间开销。

计算了S上的鲁棒性损失:

最后的训练目标中的L:

:源和目标双向语言模型的参数

 &  分别share word embeddings

实验

原文地址:https://www.cnblogs.com/shona/p/11583551.html

时间: 2024-08-30 11:34:22

论文阅读 | Robust Neural Machine Translation with Doubly Adversarial Inputs的相关文章

神经机器翻译 - NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

论文:NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE 综述 固定长度向量是编码器 - 解码器架构性能提升的瓶颈 --->   本文提出:允许模型自动(软)搜索 --- 与预测目标单词相关的源句( x 硬分段 ) 摘要 神经机器翻译是最近提出的机器翻译方法.与传统的统计机器翻译不同,神经机器翻译的目标是建立一个单一的神经网络,可以共同调整以最大化翻译性能.最近提出的用于神经机器翻译的模型一般是编码器 - 译

神经网络机器翻译Neural Machine Translation(1): Encoder-Decoder Architecture

端到端的神经网络机器翻译(End-to-End Neural Machine Translation)是近几年兴起的一种全新的机器翻译方法.本文首先将简要介绍传统的统计机器翻译方法以及神经网络在机器翻译中的应用,然后介绍NMT中基本的"编码-解码"框架(Encoder-Decoder). 转载请注明出处:http://blog.csdn.net/u011414416/article/details/51048994

论文阅读 | Probing Neural Network Understanding of Natural Language Arguments

[code&data] [pdf] 摘要 我们惊讶地发现,伯特在论证推理理解任务中77%的峰值表现仅比未经训练的人类平均基线低3个点.然而,我们表明,这个结果完全是利用数据集中虚假的统计线索得出的.我们分析了这些线索的性质,并证明了一系列的模型都利用了它们.该分析提供了一个对抗数据集的构造,所有模型都在该数据集上实现随机精度.我们的对抗性数据集提供了一个更强的参数理解评估,应该作为未来工作的标准. 1 介绍 论证挖掘是在自然语言文本中确定论证结构的任务.文本段代表主张,包括支持或攻击这些主张的原

【Machine Translation】无监督神经机器翻译论述

Unsupervised NMT 概述 神经机器翻译系统取得了很好的翻译水平,但非常依赖于平行语料.目前已经有利用大量单语数据训练模型的研究,这其中包括: 仅仅由两份单语语料(不平行)训练出双语词典.这个的核心是学习一个旋转矩阵W,使得两份语料的词向量空间对齐,再进行一些调整更好的对齐两词向量空间,最后进行单词到单词的翻译,即生成了双语词典. 对偶学习的思想.有些研究里也提出迭代后向翻译,但思想是类似的,即通过翻译模型生成假的平行语料,再利用该平行语料训练模型,迭代此过程. 利用第三种语言.翻译

ACL2019论文阅读

Integrating Weakly Supervised Word Sense Disambiguation into Neural Machine Translation 一篇关于机器翻译的论文,目的是是将词义信息加到机器翻译模型中,以此缓解机器翻译模型对于多义词翻译不准确的问题. 引入的方法很简单,输入机器翻译模型的word emebdding将由常规的word embedding和词义embedding拼接而成,让模型对单词的词义敏感.问题有两个: 1 每个单词不同词义embedding

论文阅读--Scalable Object Detection using Deep Neural Networks

Scalable Object Detection using Deep Neural Networks 作者: Dumitru Erhan, Christian Szegedy, Alexander Toshev, and Dragomir Anguelov 引用: Erhan, Dumitru, et al. "Scalable object detection using deep neural networks." Proceedings of the IEEE Confere

论文阅读与模型复现——HAN

论文阅读论文链接:https://arxiv.org/pdf/1903.07293.pdf tensorflow版代码Github链接:https://github.com/Jhy1993/HAN 介绍视频:https://www.bilibili.com/video/av53418944/ 参考博客:https://blog.csdn.net/yyl424525/article/details/103804574 文中提出了一种新的基于注意力机制的异质图神经网络 Heterogeneous G

论文阅读方法

论文阅读方法 别先读摘要,从导言部分入手 找出大问题 这个领域正在设法解决什么问题? 以不超过5句话的篇幅总结背景 为解决这一"大问题",这一领域做过什么努力?之前的工作有什么局限?在作者看来,下一步需要做什么?简洁地解释为什么要进行这项研究. 找出具体问题 作者在他们的研究中究竟想回答什么问题?把这些问题(不一定是一个)写下来.如果是那种研究一个或者多个零假设的研究,把零假设辨别出来. 弄清解决手段 为了回答这些具体的问题,作者要怎么做? 阅读方法部分 为每一个实验画出一个图表,画出

Google File System 论文阅读笔记

核心目标:Google File System是一个面向密集应用的,可伸缩的大规模分布式文件系统.GFS运行在廉价的设备上,提供给了灾难冗余的能力,为大量客户机提供了高性能的服务. 1.一系列前提 GFS的系统构建针对其自身使用的特点在传统的分布式系统的基础上又进行了一些创新,基于的前提假设主要包括以下方面: 1.由于系统由廉价的商用机构成,组件失效被认为是一种常态,系统必须可以持续监控自身的状态. 2.系统存储以大文件为主,小文件也支持,但是没有进行特别的优化处理. 3.系统的工作负载主要包含