神经网络机器翻译Neural Machine Translation(1): Encoder-Decoder Architecture

端到端的神经网络机器翻译(End-to-End Neural Machine Translation)是近几年兴起的一种全新的机器翻译方法。本文首先将简要介绍传统的统计机器翻译方法以及神经网络在机器翻译中的应用,然后介绍NMT中基本的“编码-解码”框架(Encoder-Decoder)。

转载请注明出处:http://blog.csdn.net/u011414416/article/details/51048994

时间: 2024-11-05 18:45:03

神经网络机器翻译Neural Machine Translation(1): Encoder-Decoder Architecture的相关文章

神经机器翻译 - NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

论文:NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE 综述 固定长度向量是编码器 - 解码器架构性能提升的瓶颈 --->   本文提出:允许模型自动(软)搜索 --- 与预测目标单词相关的源句( x 硬分段 ) 摘要 神经机器翻译是最近提出的机器翻译方法.与传统的统计机器翻译不同,神经机器翻译的目标是建立一个单一的神经网络,可以共同调整以最大化翻译性能.最近提出的用于神经机器翻译的模型一般是编码器 - 译

论文阅读 | Robust Neural Machine Translation with Doubly Adversarial Inputs

(1)用对抗性的源实例攻击翻译模型; (2)使用对抗性目标输入来保护翻译模型,提高其对对抗性源输入的鲁棒性. 生成对抗输入:基于梯度 (平均损失)  ->  AdvGen 我们的工作处理由白盒NMT模型联合生成的扰动样本  ->  知道受攻击模型的参数 ADVGEN包括encoding, decoding: (1)通过生成对训练损失敏感的对抗性源输入来攻击NMT模型; (2)用对抗性目标输入对NMT模型进行了防御,目的是降低相应对抗性源输入的预测误差. 贡献: 1. 研究了一种用于生成反例的白

【Machine Translation】无监督神经机器翻译论述

Unsupervised NMT 概述 神经机器翻译系统取得了很好的翻译水平,但非常依赖于平行语料.目前已经有利用大量单语数据训练模型的研究,这其中包括: 仅仅由两份单语语料(不平行)训练出双语词典.这个的核心是学习一个旋转矩阵W,使得两份语料的词向量空间对齐,再进行一些调整更好的对齐两词向量空间,最后进行单词到单词的翻译,即生成了双语词典. 对偶学习的思想.有些研究里也提出迭代后向翻译,但思想是类似的,即通过翻译模型生成假的平行语料,再利用该平行语料训练模型,迭代此过程. 利用第三种语言.翻译

深度学习笔记(一)卷积神经网络(Convolutional Neural Networks)

一.卷积 卷积神经网络(Convolutional Neural Networks)是一种在空间上共享参数的神经网络.使用数层卷积,而不是数层的矩阵相乘.在图像的处理过程中,每一张图片都可以看成一张"薄饼",其中包括了图片的高度.宽度和深度(即颜色,用RGB表示). 在不改变权重的情况下,把这个上方具有k个输出的小神经网络对应的小块滑遍整个图像,可以得到一个宽度.高度不同,而且深度也不同的新图像. 卷积时有很多种填充图像的方法,以下主要介绍两种,一种是相同填充,一种是有效填充. 如图中

自定义Encoder/Decoder进行对象传递

转载:http://blog.csdn.net/top_code/article/details/50901623 在上一篇文章中,我们使用Netty4本身自带的ObjectDecoder,ObjectEncoder来实现POJO对象的传输,但其使用的是Java内置的序列化,由于Java序列化的性能并不是很好,所以很多时候我们需要用其他高效的序列化方式,例如 protobuf,Hessian, Kryo,Jackson,fastjson等. 本文中Java序列化不是重点,对Java序列化不熟悉的

Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

1.主要完成的任务是能够将英文转译为法文,使用了一个encoder-decoder模型,在encoder的RNN模型中是将序列转化为一个向量.在decoder中是将向量转化为输出序列,使用encoder-decoder能够加入词语与词语之间的顺序信息. 2.另一个任务是将序列表达为一个向量,利用向量能够清楚的看出那些语义上相近的词聚集在一起. 3.在设计RNN的隐藏层时,在读入或产生序列加入了reset和update门,可以选择丢掉记忆信息和更新记忆信息,得到了更有意义的结果.

卷积神经网络 (Convolutional Neural Networks)

卷积神经网络(CNN)是deep learning的基础.传统的全连接神经网络(fully connected networks) 以数值作为输入. 如果要处理图像相关的信息的话,要另外从图像中提取特征并采样.而CNN把提特征.下采样和传统的神经网络整合起来,形成一个新的网络. 本博文已经假设你已经有了简单神经网络的概念,如“层”.“神经元”. 1. 理论基础 图1 如图1所示,这是一个简单的卷积神经网络 CNN.其中C层代表对输入图像进行滤波后得到的所有组成的层,也称“卷积层”.S层代表对输入

脉冲神经网络Spiking neural network

(原文地址:维基百科) 简单介绍: 脉冲神经网络Spiking neuralnetworks (SNNs)是第三代神经网络模型,其模拟神经元更加接近实际,除此之外,把时间信息的影响也考虑当中.思路是这种,动态神经网络中的神经元不是在每一次迭代传播中都被激活(而在典型的多层感知机网络中却是),而是在它的膜电位达到某一个特定值才被激活.当一个神经元被激活,它会产生一个信号传递给其它神经元,提高或减少其膜电位. 在脉冲神经网络中,神经元的当前激活水平(被建模成某种微分方程)通常被觉得是当前状态,一个输

【原创】深度神经网络(Deep Neural Network, DNN)

线性模型通过特征间的现行组合来表达“结果-特征集合”之间的对应关系.由于线性模型的表达能力有限,在实践中,只能通过增加“特征计算”的复杂度来优化模型.比如,在广告CTR预估应用中,除了“标题长度.描述长度.位次.广告id,cookie“等这样的简单原始特征,还有大量的组合特征(比如”位次-cookie“ 表示用户对位次的偏好).事实上,现在很多搜索引擎的广告系统用的都是Logistic Regression模型(线性),而模型团队最重要的工作之一就是“特征工程 (feature engineer