语音识别技术为何成为当今科技研究的最大热点?

语音识别(SR)技术(或称“语音科技”)成为当今科技研究的最大“热点”(或”聚焦点“)是有客观原因的。为什么?

在国内搞科研,往往喜欢“赶潮流”,不问具备什么客观条件,喜欢“蛮干”。我们干事情要搞清楚周边的环境,看看情况再上路,不能”任性“。

大家知道,人与人用语音沟通,相互“说话”,交换信息。我们用耳朵听别人说话并不觉得有什么困难,除非耳聋。现在的问题是,互联网大发展,几乎人人手中都有智能手机。人与机器的关系经历了键盘、鼠标、触摸阶段,现在进入了语音交互的新时代。人与机器怎么交流?机器没有耳朵怎么办?

实际上,让机器长出“耳朵”是当今科技界的一个紧迫问题(即”科研热点“),机器不能都是“聋子”,机器必须学会正确识别人的语音,了解人的意思,听从指挥。目前,全世界有数千名语音科学家在全力攻克语音机器识别问题。根据何在?

近些年来,全球语音科学家每年聚会一次(顶级大会),交流研究心得,展示研究成果。这就是著名的“Interspeech”大会。Interspeech的意思是“语音信号处理”。每年参会人数以及研究论文数量都是无与伦比的,出乎我们的想象,比如:“Interspeech2014”大会,实际参会人数为1,300多人,提交论文1,173篇,经过严格审定之后,有613篇高质量论文在大会上宣读,并且全文(不是摘要)收入大会文集备查。

今年的”Interspeech
2015”大会在德国召开,会期5天,从9月6日至10日。大会主题是:“Speech
beyond Speech: Towards a Better Understanding of the Most Important Biosignal
”,意思是,朝着更好地理解最重要的生物信号方向前进。什么是“最重要的生物信号”(Biosignal)?毫无疑问,最重要的“生物信号“就是人的语音(Speech)!你我之间讲话沟通,就是相互发出”生物信号“,与机器沟通也是这样。

袁萌
7月13日

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-05 05:08:44

语音识别技术为何成为当今科技研究的最大热点?的相关文章

眼球追踪技术给各大科技巨头带来的四大应用前景

原文标题:眼球追踪技术给各大科技巨头带来的四大应用前景 过去一年来,在硬件.软件和人工智能等多领域的共同助力下,眼球跟踪技术发展神速,成为众科技巨头眼中的下一个竞逐目标. Google和Facebook接连收购了眼球追踪技术公司EyeFluence和Eye Tribe.Tobii Tech公司也正向移动眼球追踪领域迈开脚步--科技大鳄们的一系列动作昭示着人机交互的未来风向. 从显示器.笔记本电脑到智能手机和VR头显,眼球追踪技术慢慢地在各类电子设备中找到其用武之地.以下是笔者整理的与眼球追踪技术

基于DNN-HMM的语音识别技术

基于DNN-HMM的语音识别声学模型结构如下图所示,与传统的基于GMM-HMM的声学模型相比,唯一不同点在于用DNN替换了GMM来对输入语音信号的观察概率进行建模.DNN与GMM相比具有如下优点: DNN不需要对声学特征所服从的分布进行假设: DNN的输入可以采用连续的拼接帧,因而可以更好地利用上下文的信息: DNN的训练过程可以采用随机优化算法来实现,而不是采用传统的批优化算法,因此当训练数据规模较大时也能进行非常高效的训练,显然,训练数据规模越大,所得到的声学模型就越精确,也就越有利于提高语

语音识别技术

通过谷歌语音接口的实现语音识别 最近在项目中有需要实现语音识别的功能.折腾了几天才搞好.刚开始做的时候没点头绪 ,网上找的资料都是乱七八糟的,要不就是非常古老的实现方法,一些简单的代码片段.所以我决定把我的经验分享给大家. 要在IOS中实现语音识别流程如下: 录音->pcm格式->转换wav->转换flac->向谷歌发送请求->等待返回的json数据->解析数据; 首先如果你要使用谷歌的接口实现语音识别必须知道下面着几点: 1.如何发送POST请求.(可以使用开源库AS

从世界杯“门线技术”看产品的科技与人文

<<<-------------  <_< 向左看 文|始稷 足彩.啤酒.安全套,绝杀.爆冷."把楼跳". 超市排队一样的墨菲定律在世界杯期间上演(排在哪队哪队慢,换到另一队原来的队就变快了),买冷门热门都不靠谱,无论外国骆驼还是中国熊猫都不是球迷的财神.阴谋论者又抛出"假球"的料,这似乎是给总也踩不上点的球迷最好的"安慰剂". 世界杯有没有假球始稷不知道,但是有争议的进球倒是向来就有,譬如上届世界杯1/8决赛中,英

语音识别技术简介

在人际交往中,言语是最自然并且最直接的方式之一.随着技术的进步,越来越多的人们也期望计算机能够具备与人进行言语沟通的能力,因此,语音识别这一技术也越来越受到关注.尤其,随着深度学习技术应用在语音识别技术中,使得语音识别的性能得到了显著提升,也使得语音识别技术的普及成为了现实. 以上是废话,下面开始正文. 自动语音识别技术,简单来说其实就是利用计算机将语音信号自动转换为文本的一项技术.这项技术同时也是机器理解人类言语的第一个也是很重要的一个过程. 为了进一步解释计算机如何实现语音到文字的转换这一过

智能电话机器人,使用Microsoft语音识别技术(Speech sdk)

最近公司接手到了一个有挑战的项目,很有意思,拿出来和大家分享下,交流下开发过程中的一些收获和感悟. 智能电话机器人 原委是这样的,有一个大佬,手里有好多好多,总之就是好多手机充x卡,他想把这些充x卡充值到不同的用户手机号里.有的朋友接触过的,会说“可以和移动去谈,然后搞到移动的接口,根据接口开发程序,然后把充x卡密码都弄进数据库里,用程序读取,之后调用移动接口完成充值.” 说得好,漂亮!而且充x卡密码存到数据库里面这件事,大佬已经找人没日没夜加班干活全都录入到数据库里了. 但是事实很悲催,由于各

各种现代方法和技术在储集层研究中的运用

一.前言: 储集层地质学于60年代末在国外提出,70年代后期储集层沉积学引入油田开发领域.此后,尤其是80年代以来,与储集层有关的学科或理论(如现代沉积学.成岩作用等)的研究有了重要突破,地震及测井数据的处理与解释.油藏描述.计算机模拟.油藏管理等先进的综合技术也有了长足的进展,这些都为油气储集层地质学本身的发展创造了条件. 储集层研究是一项系统工程,要求在研究手段.研究资料和研究人员等方面有高度的综合性.研究手段的综合性表现在综合应用勘探技术.钻井工程.采油工程.地质分析.实验测试.计算机应用

千禧一代(1984-2000年出生)的技术者构成了科技行业的主力军

无论是国内还是国外,就业危机一直存在.源于自身技术的缺陷.被迫于企业的压力,然而现如今,连顺其自然的老去,似乎在科技行业也成为了一种过错. 在我们常规的认知中,长者往往是充满智慧且德高望重的形象. 但是在科技行业似乎并不是这样. 身处互联网时代的我们,想必也无须花费太多的精力就会看到每隔一段时间都会出现的一些因年龄增大而被降薪.招聘时因年龄遭到歧视的相关负面新闻.年龄歧视问题在科技行业一直都存在,但是大家一般都选择避而不谈,而如今这个问题已经愈演愈烈. 尤其是,当 30 多岁的高级工程师通过整容

基于BIM技术的施工管理平台研究

BIM技术是一种数字化建模技术,它根据建筑图纸等信息生成三维的建筑模型,可以在最早期向我们展示该建筑物.BIM技术与工程项目成本管理系统相结合,方面可以提高项目前期的预算精度,同时也可以帮助企业在项目施工过程中对成本数据的精确化管理.两者相结合,BIM技术可以在整个成本管理过程中实时的对成本数据进行监管,保证其正确性. 问题 自21世纪,建筑业作为我国国民经济的支柱产业已进入高速发展期,目前正面临着大规模的基本建设.而建筑业快速发展的同时,主要存在着以下问题. 1.技术和管理水平相对落后 在激烈