谷歌发布的Translatotron是什么?

背景介绍

作为中国人,学好英语这件事从小学开始就让人苦恼,近些年随着AI的快速发展,语言差异是否会缩小甚至被消灭成了热门话题。在5月15日,谷歌AI在博客平台发出一篇文章,正式介绍了一款能保留原声的“同声传译”黑科技,消息一出,迅速席卷网络,为科技发烧友带来了更多曙光,下面,让我们来揭开这个叫做“Translatoron”的神秘面纱。

Translatotron的出现

目前市面常用的语音翻译产品的翻译过程包含三个步骤,首先将语音转换为文字,再由机器将文字转换为目标语言文字,最后将目标语言的文字转化为语音(文字转语音全称Text-To-Speech,也叫TTS)。

而谷歌的Translatotron有很大不同,它通过某种手段实现了语音到语音的直接转译,避免了上述的三个步骤。除此之外,它还有一些其它的优势,比如更快的推理速度、更容易识别不需要翻译的名称及专业名词等,最牛的是它可以保留原说话人的声音特征,做到原声输出其它语言,幻想一下用自己的声音说出了连本人都听不懂的外语,是不是有点像《流浪地球》中的同声翻译,多刺激啊,在此向大刘致敬!

Translatotron的原理

其实端到端的语音翻译在2016年就出现了,当时研究者们发现用“序列到序列模型”来做“语音到文字”的翻译可行性很高,到了2017年,研究者们证明出它果然很吊,但是这还不够,Translatotron的出现又向大家证明了“序列到序列模型”不仅可以转文字,还可以不依赖任何中间文本,直接帮你转为语音。

上面部分的名词有些含糊不清,这里来解释一下,首先是端到端学习,英文名为end-to-end,它就像一个黑盒子,人们把数据丢进去后只关心结果是否与期望的结果一致,不关心中间的实现过程。这个黑盒子的实现原理是,当结果和期望的结果出现误差后,它会将误差反传回训练模型的每一环节,让它们根据误差来自我调节,直到结果与预期相符为止。

序列到序列模型,英文为Sequence to Sequence,它是端到端理念的一种实现框架,最早出现于Bengio在2014年的论文,Bengio是蒙特利尔大学的教授,他与另外两位朋友被AI领域的人戏称为“加拿大黑手党”。

“序列到序列”模型的目的是“将一个领域(比如中文)的序列转化为另一个领域(比如英文)的序列”,它是通过联合两个循环神经网络(RNN)来实现的,而联合的这种结构又被叫做编码-解码(Encoder-Decoder)结构,结构的两端支持多种数据类型,比如文字、语音、图像、视频等,非常适用于机器翻译。

Translatotron正是利用了图像这种数据类型,它通过声谱图作为输入,再生成出目标语言的声谱图,然后通过一个叫做Vocoder的语音编解码器(用于分析和合成用于音频数据压缩,多路复用,语音加密,语音转换等的人类语音信号)将新生成的光谱图转换为时域波形(一种表达信号与时间关系的波浪形状)。另外,它还可以选择使用一个编码器在合成翻译语音中维护原来的语音特征。

这项研究是由谷歌大脑、谷歌翻译和谷歌语音团队共同完成的,由于目前的训练数量较少,Translatotron所展示出的翻译质量以及原声匹配度没有预想中那么好,但随着更多数据的训练相信会有非常光明的前景。感兴趣的同学可以去官方博客了解一下。

如果你愿意,让我来帮你关注那些可能不知道又想知道却想不到的知识。

原文地址:https://www.cnblogs.com/enochzzg/p/10886429.html

时间: 2024-08-30 09:06:37

谷歌发布的Translatotron是什么?的相关文章

谷歌发布全新设计语言:跟苹果Swift天壤之别

今日凌晨,谷歌(微博)在I/O大会上发布了全新设计语言Material Design.在20多天前的WWDC上,苹果也发布了全新编程语言Swift.两家科技巨头公司,在一年一度的开发者大会上,都发布了全新的语言,但这二者却有着本质的区别. Material Design是一款全新的设计语言,谷歌计划将这款设计语言应用到Android.Chrome OS和网页等所有平台上. 谷歌最新发布的Android L系统就采用了Material Design语言,这是谷歌为了解决碎片化问题的重要举措,将统一

谷歌发布Android auto车载系统对当前车载市场的影响

自从2007年,车载导航产品获得了长足的发展,其产品主要是采用WinCE系统,除了导航功能,一般还有收音机,播放碟片,播放SD卡/U盘中的音视频,蓝牙通话,倒车后视等功能.因为WinCE系统被微软抛弃了,Android现在大行其道,各种新的ARM芯片层出不穷,性能强大,而这些芯片都不支持WinCE,所以说WinCE除了自身的缺点外,无芯片可用也是导致产品后劲不足的原因.WinCE被淘汰应是无可避免.但是由谁来淘汰WinCE呢?很容易想到Android,目前做Android车机方案的公司可能有几百

谷歌发布使用Kubernetes的云容器引擎

近日,在旧金山 Google Cloud Platform Live大会 期间,谷歌发布了多个云相关的公告.最重要的一项是发布目前尚处于公开测试阶段的 谷歌容器引擎 (GKE).其它公告包括:托管虚拟机.更多的连接选项.云调试器.自动扩展器及降价. GKE的发布表明,Google正在将他们为满足自己数据中心需求而开发出的集群管理解决方案公开.GKE使用户可以管理谷歌计算引擎(GCE)资源的逻 辑集群,其中包括使用Kubernetes在集群节点上自动部署Docker容器.根据需要,GKE将虚拟机的

谷歌发布全新渲染技术,助力移动VR

原文标题:谷歌发布全新渲染技术,助力移动VR 在今天的I/O大会上,谷歌发布了一种名为"Seurat(取名自著名法国新印象派画家修拉)"的全新表面光场(surface light-field)渲染技术.该技术不仅可以为移动VR系统带来CGI质量的视觉效果,而且还可以在普通文件大小中实现这一点,这是其他光场技术难以克服的障碍. 谷歌在今天为我们介绍了一种名为"Seurat(修拉)"的新渲染技术,旨在为移动VR系统带来即便是高端桌面VR系统也难以运行的超高质量CGI a

[Android 新特性] 谷歌发布Android Studio开发工具1.0正式版(组图) 2014-12-09 09:35:40

Android Studio是谷歌于13年I/O大会推出的Android开发环境,基于IntelliJ IDEA. 类似 Eclipse ADT,Android Studio 提供了集成的Android开发工具用于开发和调试. 今日谷歌发布了Android studio的1.0正式版,增加了包括智能代码编辑,用户界面设计工具,性能分析工具等新功能,支持Android 5.0平台的开发. 谷歌也将推荐开发环境从Eclipse IDE调整为Android studio,还为Eclipse开发者提供了

谷歌发布了一款AI工具,可以帮助基因组数据解读

如果你曾经看过<犯罪现场>这样的罪案剧,你可能会想起一个场景:法医通过电脑对数千个DNA片段进行搜索,从而匹配出犯罪现场和犯罪嫌疑人.虽然这个过程在现实生活并不像电视剧那样,但是主要思路是一样的.遗传学本质上是一门比较科学.无论你是想确认一名嫌疑犯.一种基因疾病还是一名失散已久的亲属,都需要将一个基因组与另一个基因组进行比较,从而在数十亿个DNA中发现相似和不同. 虽然确认失踪人员或者犯罪嫌疑人的过程通常只会涉及到一个人的几个遗传片段,但是像识别某种疾病的基因变异这样的问题,往往需要大量的数据

谷歌发布Chrome用户体验报告,助力网站优化!

原文地址:http://tech.it168.com/a2017/1031/3177/000003177130.shtml 近日,谷歌在Chrome开发峰会上发布了Chrome用户体验报告,旨在通过提供从10000个网站收集的数据来帮助开发人员了解他们的Web应用的表现. 原文地址:https://www.cnblogs.com/guopengju/p/11403171.html

谷歌发布“Stadia” 云时代真的来了吗?

10月15日晚,谷歌在秋季发布会上正式宣布Stadia将于11月19日上线,"Stadia" 来了,是不是意外着我们可以彻底摆脱硬件要求,更为舒适的享受云时代的便利了呢? 企业如何抓住云时代机遇 科技与时俱进,技术进步带来的效率提升极为明显,云计算技术起源之处,是为解决互联高速发展带来的海量数据储存和计算,以节约IT成本,发展至今云服务已经遍布各行各业,在日常生活中越来越重要.作为当下主流技术之一,企业又该如何抓住这一技术机遇呢? 云计算通过网络按需提供可动态伸缩的廉价计算服务,大幅提

谷歌发布的首款基于HTTP/2和protobuf的RPC框架:GRPC

Google 刚刚开源了grpc,  一个基于HTTP2 和 Protobuf 的高性能.开源.通用的RPC框架.Protobuf 本身虽然提供了RPC  的定义语法,但是一直以来,Google 只开源了Protobuf 序列化反序列化的代码,而没有开源RPC 的实现,于是存在着众多良莠不齐的第三方RPC 实现,不过我在项目中采用WCF搭配Protobuf是一个很不错的RPC实现,Google这个框架是是基于HTTP2的,这是他有特色的地方,带来诸如双向流.流控.头部压缩.单TCP连接上的多复用