语音识别技术如何突围?搜狗走了一条音视觉结合之路

  有一个像科幻电影《Her》中的虚拟助理(女友),大概是人们对人工智能美好的憧憬,尽管这一天可能还很遥远。

  为了实现这一技术突破,前几年行业更多聚焦语音交互各个难题,而近两年,一些技术先行者开始尝试将语音、视觉、文本等信息结合的方式(即多模态)来推动人机交互技术的升级,多模态交互也成为学界、业界热议的话题。

  搜狗也是多模态交互技术的先行者,2017年就开始探索唇语识别技术,2018年推出合成虚拟主播,近期搜狗与清华大学天工研究院联合发表了一篇《基于模态注意力的端到端音视觉语音识别》论文,在多模态识别领域又迈出一步,将音视觉融合到一起来提升语音识别的效果,并被世界顶级声学、语音与信号处理大会ICASSP2019收录。

  从最初的语音交互到唇语识别,到机器翻译、搜狗分身(合成主播),再到音视觉识别,搜狗这一技术进展可谓步步为营,而这背后则是搜狗在“自然交互+知识计算”的理念下,死磕技术难题,让人机交互更高效自然。

  噪声环境下语音识别的另一条路

  随着AI的发展和智能音箱的推动,语音交互已经逐渐成为智能硬件的标配。作为语音交互前端的关键一环,语音识别近年也得到快速发展,不少公司都可以在安静环境下将识别率做到98%以上。然而一旦进入噪声场景,语音识别的准确度就会大大降低。

  在智能硬件上,目前业界的主流方式是通过麦克风阵列来进行信号处理,用硬件的方式来进行噪声消除,但当环境复杂噪声很大的情况下,语音识别仍然存在很大瓶颈。

  能不能通过视觉AI的方法来解决这一问题,尤其是在噪声环境下,视觉会不会成为语音识别准确率的一个有效补偿?因为视觉的识别方法不受环境噪音的影响,在嘈杂的环境下,人们即使听不清对方讲话,依靠唇形也能大体明白讲话者的意思。

  正是出于这样的考虑,搜狗公司与清华大学天工研究院去年开始尝试语音和视觉结合的方式,即音视觉多模态识别来提升语音识别的效果。

  据搜狗介绍,这项技术研究从立项到论文投出仅用了近4~5个月时间,而之所以进展较快,与搜狗在语音识别与视觉识别领域的积淀密不可分。

  在2016年,搜狗就开始做以语音为主的人机交互,并积累了语音识别、语义理解、机器翻译、语音合成等全链路语音技术。

  而在2017年底,搜狗就推出一项“黑科技”唇语识别技术,这在当时领先行业。当时唇语识别针对日常用语可以做到50%~60%的准确率,针对命令词的识别可达到85%~90%,较早地做了唇语识别的技术储备。

  此次,搜狗取得阶段性成果的音视觉多模态识别技术,正是基于语音识别和唇语识别这两种关键技术。“通过二者的有效结合,可以在噪声环境下,提升30%以上的语音识别准确率”,搜狗语音交互中心技术总监陈伟谈道。

  用模态注意力提升识别效果  郑州不孕不育医院:http://wapyyk.39.net/zz3/zonghe/1d427.html郑州不孕不育医院哪家好:http://wapyyk.39.net/zz3/zonghe/1d427.html郑州不孕不育医院排名:http://wapyyk.39.net/zz3/zonghe/1d427.html

  要实现音视觉识别不同模态的融合并非易事,因为声音和视觉的特征差异很大。而简单的将两种模态拼接会造成信息损失,视觉信息对听觉信息的提升也很有限。搜狗提出了一种模态注意力的方法,依据不同模态信息的重要程度进行动态调整融合,得到更加鲁棒的融合信息。

  清华大学天工研究院周盼解释道,在音视觉信息融合的过程中需要解决两个问题,第一个是音视觉信息不等长的问题,第二个是贡献不等价问题。

  具体而言,声音和视觉在时间序列下的采样频率不同,一般情况下,音频为每秒采样100帧,而视频为每秒24帧。音视觉识别首先需要将这100帧和24帧对齐,将这二者的信息融合共同做一个决策。 对于声音和视觉同步的信号来说,虽然可以按照二者帧速率的比值进行大致对齐,或者上采样、下采样的方法将二者变为相同帧速率进行融合,但是存在一定的信息损失。对于声音和视觉不同步的信号,对齐就变得更困难。

  另一个问题是贡献度不等价。对于音视觉语音识别,在安静环境下应该是语音为主导,在嘈杂环境下视频信息的贡献度相比在安静环境下应该提升导。因此需要根据环境动态的调整音视频的贡献比例。

  搜狗提出的模态注意力端到端音视觉模型,能够将音视频信息进行有效融合,然后根据具体的环境,动态调整选择声音还是视频作为主要的识别对象,进而获得更优的识别效果。具体而言,通过第一层常规的注意力(或者称为内容注意力)得到在每个解码时刻相应对的听觉和视觉上下文向量。这两个上下文向量内容上是彼此对齐的,这也就解决了上文提到的信息不等长的对齐问题。对于贡献度不同的问题,如上图,采用了第二层注意力,即模态注意力来依据声音和视觉对识别的贡献度动态的确定两个模态的融合权重,得到包含声音和视觉信息的融合上下文向量。

  在一个Demo中,搜狗模拟了安静、地铁、大厅等环境,并提供了语音识别、唇语识别、混合识别三种模式。

原文地址:https://www.cnblogs.com/sushine1/p/10912190.html

时间: 2024-11-14 00:37:27

语音识别技术如何突围?搜狗走了一条音视觉结合之路的相关文章

从此走上一条iOS程序猿不归路。。。

新的城市,新的生活!前不久刚刚结束了苦逼的面试找工作之旅,期间也小有收货,如今正处年底工作闲暇之余,将前一阵子陆陆续续的总结整理了一下,本人菜鸟程序猿一只,水平有限,本文总结的知识不算深入,比较浅显,还望大神见谅,重在总结,交流与分享...-_-! 文章主要宗旨如下: 1:ios开发中常见技术的总结(主要是区别) 2:作为一个iOS程序员必备的常识问题 3:作为面试必备的一份宝典 4:初学者快速了解相关技术 5:老程序员快速回顾混淆,忘记的知识点 后续我也会一直讲本文更新下去,有遗漏点或者错误的

语音识别技术

通过谷歌语音接口的实现语音识别 最近在项目中有需要实现语音识别的功能.折腾了几天才搞好.刚开始做的时候没点头绪 ,网上找的资料都是乱七八糟的,要不就是非常古老的实现方法,一些简单的代码片段.所以我决定把我的经验分享给大家. 要在IOS中实现语音识别流程如下: 录音->pcm格式->转换wav->转换flac->向谷歌发送请求->等待返回的json数据->解析数据; 首先如果你要使用谷歌的接口实现语音识别必须知道下面着几点: 1.如何发送POST请求.(可以使用开源库AS

语音识别技术简介

在人际交往中,言语是最自然并且最直接的方式之一.随着技术的进步,越来越多的人们也期望计算机能够具备与人进行言语沟通的能力,因此,语音识别这一技术也越来越受到关注.尤其,随着深度学习技术应用在语音识别技术中,使得语音识别的性能得到了显著提升,也使得语音识别技术的普及成为了现实. 以上是废话,下面开始正文. 自动语音识别技术,简单来说其实就是利用计算机将语音信号自动转换为文本的一项技术.这项技术同时也是机器理解人类言语的第一个也是很重要的一个过程. 为了进一步解释计算机如何实现语音到文字的转换这一过

智能电话机器人,使用Microsoft语音识别技术(Speech sdk)

最近公司接手到了一个有挑战的项目,很有意思,拿出来和大家分享下,交流下开发过程中的一些收获和感悟. 智能电话机器人 原委是这样的,有一个大佬,手里有好多好多,总之就是好多手机充x卡,他想把这些充x卡充值到不同的用户手机号里.有的朋友接触过的,会说“可以和移动去谈,然后搞到移动的接口,根据接口开发程序,然后把充x卡密码都弄进数据库里,用程序读取,之后调用移动接口完成充值.” 说得好,漂亮!而且充x卡密码存到数据库里面这件事,大佬已经找人没日没夜加班干活全都录入到数据库里了. 但是事实很悲催,由于各

基于DNN-HMM的语音识别技术

基于DNN-HMM的语音识别声学模型结构如下图所示,与传统的基于GMM-HMM的声学模型相比,唯一不同点在于用DNN替换了GMM来对输入语音信号的观察概率进行建模.DNN与GMM相比具有如下优点: DNN不需要对声学特征所服从的分布进行假设: DNN的输入可以采用连续的拼接帧,因而可以更好地利用上下文的信息: DNN的训练过程可以采用随机优化算法来实现,而不是采用传统的批优化算法,因此当训练数据规模较大时也能进行非常高效的训练,显然,训练数据规模越大,所得到的声学模型就越精确,也就越有利于提高语

为什么我会选择走 Java 这条路?

阅读本文大概需要 2.8 分钟.   作者:黄小斜 文章来源:微信公众号[程序员江湖] 最近有一些小伙伴问我,为什么当初选择走Java这条路,为什么不做C++.前端之类的方向呢,另外还有一些声音:研究生不是应该去做算法方向么,本科生不就可以做开发了吗,为什么还要读研呢.其实吧,这个问题搁在不同人身上,回答可能也是完全不一样的.我可能还是主要以我的角度出发,结合一些读者的问题,来说一说为什么要选择Java这条路. 谈谈我的技术方向选择 我最早接触的语言应该是c,再后来又接触了前端.php.C#等语

没腿也要“走”出一条路来

中国青年网太原6月13日电(记者 王子瑞 王再文 通讯员 刘绍亮)从天而降的噩耗,让一个只有唯一儿子的农村家庭悲恸不已.残酷的命运让人失落.让人消沉,却不能让年轻的张鹏飞停止前行.他用无数个日日夜夜的辛勤付出告诉世人,没腿,也能“走”出一条路. 天降噩耗 让幸福家庭天塌地陷 2005年8月的夏天,太原市一家建筑工地上,打工仔张鹏飞失足从4米多高的脚手架上跌落,造成了高位截瘫.那年他21岁. 从昏迷中清醒后,张鹏飞发现自己已经躺在医院的病床上.全身像被钉子钉在地上,腰部以下没有任何知觉. 得知儿子

语音识别技术为何成为当今科技研究的最大热点?

语音识别(SR)技术(或称"语音科技")成为当今科技研究的最大"热点"(或"聚焦点")是有客观原因的.为什么? 在国内搞科研,往往喜欢"赶潮流",不问具备什么客观条件,喜欢"蛮干".我们干事情要搞清楚周边的环境,看看情况再上路,不能"任性". 大家知道,人与人用语音沟通,相互"说话",交换信息.我们用耳朵听别人说话并不觉得有什么困难,除非耳聋.现在的问题是,互联网大发

语音识别技术的最新进展

7月11日,我在短文"现代人工智能走在仿生学的大道上"中提出关于现代人工智能的仿生学研究方向,是一句大实话.为什么? 大家知道,在上世纪60-70年代,加拿大神经生理学专家David Hubel(1926-2013)以实验为基础,搞清楚了人类大脑视觉系统对外界刺激信号的反应机制,揭示了大脑神经皮层的多层次结构,奠定了现代人工智能的仿生学基础. 在计算机科学发展历史中,语音识别(SR)是个难题,科学家绞尽脑汁,几乎什么方法都用了,还是不见成效.人的听觉神经系统是不是具有多层次结构特征?如