AAAI 2020论文分享:通过识别和翻译交互打造更优的语音翻译模型

2月初,AAAI 2020在美国纽约拉开了帷幕。本届大会百度共有28篇论文被收录。本文将对其中的机器翻译领域入选论文《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》进行解读。

一、研究背景

语音翻译技术是指利用计算机实现从一种语言的语音到另外一种语言的语音或文本的自动翻译过程。该技术可以广泛应用于会议演讲、商业会谈、跨境客服、出国旅游等各个领域和场景,具有重要的研究价值和广阔的应用前景。

近年来,随着人工智能技术在语音、翻译等相关领域的蓬勃发展,语音翻译技术逐渐成为学术界和企业界竞相研究的热点。当前的语音翻译系统通常由语音识别、机器翻译和语音合成等多个模块串联组成,方法简单,但面临着噪声容错、断句标点、时间延迟等一系列技术难题。

端到端的语音翻译模型在理论上可以缓解级联系统的缺陷,它通过直接建立源语言语音到目标语言文本的映射关系,一步实现跨模态跨语言的翻译,一旦技术成熟,理论上可以让语音翻译更准更快,极大地提升模型的性能。论文作者发现语音识别和语音翻译两个任务是相辅相成的。


图1

如图1所示,语音识别和语音翻译交互示例相比于直接将原始语音作为输入,如果能够动态获取到识别出的文本信息,语音翻译将变得更加容易;而翻译出的结果也有助于同音词识别的消歧,使识别结果更加准确。

因此,论文作者们希望设计一种交互式的模型,让语音识别与语音翻译两个任务可以动态交互学习,实现知识的共享和传递。

二、技术方案

针对上述问题,作者们在论文中提出了一种基于交互式解码的同步语音识别与语音翻译模型。


图2 基于交互式解码的同步语音识别与语音翻译

如图2所示,论文作者使用基于自注意力机制的Transformer模型作为主框架,语音识别任务和语音翻译解码任务共享同一个编码器,在解码器中加入一个交互注意力机制层,实现两个任务的知识交互和传递。

https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruqkMSLKoqV7ABkunkKgHq79Ubdtb5udeADCZjgmw2YZwxdtDMJQPCKQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1
图3 交互注意力机制层

如图3所示,交互注意力机制层包含一个自注意力模块和一个跨任务注意力模块。其中前者用于提取当前任务输出端的特征表示,后者用于提取另一个任务输出端的特征表示,两者通过一个线性插值函数融合得到包含两个任务信息的特征表示。

在训练阶段,两个任务同时优化;在解码阶段,两个任务同步进行。如此,在预测下一个词的过程中既可以用到当前任务的已生成的词语,也可以利用到另一个任务上已生成的词语。为了进一步提升语音翻译的性能,论文作者采用了一种wait-k的方法,使得语音翻译任务相比语音识别任务延迟k个词语进行,以获得更多更可靠的文本信息作为辅助。

三、实验结果

实验结果相关内容,欢迎前往“百度NLP”公众号,查看论文解读全文,百度NLP将通过公众号文章的形式就AAAI 2020入选的其余三篇NLP领域论文进行详细解读,敬请关注!

原文地址:https://blog.51cto.com/14698207/2475165

时间: 2024-08-30 04:00:24

AAAI 2020论文分享:通过识别和翻译交互打造更优的语音翻译模型的相关文章

AAAI 2020 论文

Detection && classification: TANet: Robust 3D Object Detection from Point Clouds with Triple Attention RDSNet: A New Deep Architecture for Reciprocal Object Detection and Instance Segmentation ZoomNet: Part-Aware Adaptive Zooming Neural Network fo

重建“巴别塔”,Skype推出Windows10实时语音翻译预览版

据<圣经·创世记>第 11 章记载,曾经有一个时代,人类之间并没有语言沟通障碍,于是他们联合起来兴建希望塔顶通天能传扬后人的高塔.为了阻止人类的计划,上帝让人类说不同的语言,使人类相互之间不能沟通,计划因此失败,人类自此各散东西.那个导致了灾难的建筑叫做"巴别塔",而人们曾经口音言语想通的日子也成为了传说中的"巴别塔时代". 而如今科技可以让人们打破地域和语言的界限,有望重新建造巴别塔. Skype 官方近期宣布推出实时语言翻译的预览版.在帮助用户跨越了

怎样将语音翻译成文字?实现语音翻译文字这两招帮你搞定

不知道有没有人和我一样,闲暇时间就喜欢坐下来听歌,通常我喜欢将自己听到的一些好的歌曲保存下来,并且想把里面的每一句歌词记录在我的小本本上,但是一句句抄的话太耽误时间了,有没有好的办法呢?如何在不用抄的情况下将语音翻译成文字呢?下面是今天为大家分享的两个小妙招,一起来看看吧! 第一招:利用文档翻译器 1.双击打开文档翻译器,在跳转的页面左侧有四个功能选项,点击选择语音翻译: 2.在右边出现的工具栏中通过点击上传音频按钮,将需要进行翻译的文件进行上传: 3.然后点击上方语言栏目,选择你所需要的语种,

翻译:打造基于Sublime Text 3的全能python开发环境

原文地址:https://realpython.com/blog/python/setting-up-sublime-text-3-for-full-stack-python-development/ 原文标题:Setting Up Sublime Text 3 for Full Stack Python Development 翻译:打造基于sublime text 3的全能Python开发环境 Sublime Text 3 (ST3) is lightweight, cross-platfo

Android官方文档training中英文翻译目录大全:29篇已翻译,45篇未翻译

Android官方文档training中英文翻译目录大全:29篇已翻译,45篇未翻译 1. Getting Started Building Your First App: 原文: https://developer.android.com/training/basics/firstapp/index.html译文:http://wiki.eoeandroid.com/Building_Your_First_AppAdding the Action Bar:原文:https://develope

分享C#识别图片上的数字

通过Emgu实现对图片上的数字进行识别.前期步骤:1.下载Emgu安装文件,我的版本是2.4.2.1777.3.0版本则实现对中文的支持.2.安装后需填写环境变量,环境变量Path值后加入Emgu安装路径到bin下.如C:\Emgu\emgucv-windows-x86-gpu 2.4.2.1777\bin:3.在bin下查找需要的dll如Emgu.CV.dll与Emgu.CV.OCR.dll等.4.将C:\Emgu\emgucv-windows-x86-gpu 2.4.2.1777\bin下的

论文分享 摘要生成 Paper Abstract Writing through Editing Mechanism

论文标题:Paper Abstract Writing through Editing Mechanism 作者:Qingyun Wang, Zhihao Zhou, Lifu Huang, Spencer Whitehead, Boliang Zhang, Heng Ji , Kevin Knight 原文地址:https://www.cnblogs.com/lexinAILab/p/9806386.html

DNN论文分享 - Item2vec: Neural Item Embedding for Collaborative Filtering

前置点评: 这篇文章比较朴素,创新性不高,基本是参照了google的word2vec方法,应用到推荐场景的i2i相似度计算中,但实际效果看还有有提升的.主要做法是把item视为word,用户的行为序列视为一个集合,item间的共现为正样本,并按照item的频率分布进行负样本采样,缺点是相似度的计算还只是利用到了item共现信息,1).忽略了user行为序列信息; 2).没有建模用户对不同item的喜欢程度高低. ------------------------------------------

论文分享(一)

Functional connectome fingerprinting: identifying individuals using patterns of brain connectivity 1. Research objective 通过Fmri图像识别每个被试 使用连接矩阵预测认知行为 2. Background 来自HCP的126个被试,每个被试扫描2天,6种条件(静息态1和2,工作记忆.情绪.运动.语言) 基于一个含268个节点的图谱,每个被试得到6×(268×268)的功能连接矩