语音识别技术的最新进展

7月11日,我在短文“现代人工智能走在仿生学的大道上”中提出关于现代人工智能的仿生学研究方向,是一句大实话。为什么?

大家知道,在上世纪60-70年代,加拿大神经生理学专家David
Hubel(1926-2013)以实验为基础,搞清楚了人类大脑视觉系统对外界刺激信号的反应机制,揭示了大脑神经皮层的多层次结构,奠定了现代人工智能的仿生学基础。

在计算机科学发展历史中,语音识别(SR)是个难题,科学家绞尽脑汁,几乎什么方法都用了,还是不见成效。人的听觉神经系统是不是具有多层次结构特征?如果听觉系统的神经元对外界刺激信号的反应顺序有先后,那么,使用人工神经网络进行“仿真”是一条可行的道路。

废话少说。2011年秋季,在意大利佛罗伦萨召开的国际语音识别大会(Interspeech)上,微软发表了对语音识别深度神经网络建模的重大改进:协同发音(Coarticulation)建模,减低语音识别错误率,当场演示了”同声传译“,效果极佳。

2014年,微软推出了语音助手”小娜“(Cortana),并且将其捆绑到Win10操作系统之中。2015年7月29日,中国广大计算机用户即可直接体验微软的语音识别新技术了。

至此,机器有了耳朵(ear)也有了眼睛(eye),人类不再孤独。实际上,机器什么”智慧“也没有,只是人类的一种驯服工具而已。

注:2011年世界语音识别大会(InterSpeech),会议文集刊有近2,000篇论文,足见其规模之大,影响甚远。

袁萌7月12日

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-27 10:32:56

语音识别技术的最新进展的相关文章

微软自动图像说明技术的最新进展

作者:John Platt 微软雷德蒙研究院副院长兼杰出科学家 文章译自:Rapid Progress in Automatic Image Captioning 多年来,我一直热衷于接受图像理解(image understanding)领域各种艰巨的挑战.关于图像理解,每个人对其都有不同的定义,它的种类几乎与从事计算机视觉研究的人员数量一样多.但是我们都有一个共同的目标:创建一个能够与人类相媲美的系统,自动为图像生成描述性说明. 微软自动图像说明系统的性能如何 今年夏天,抱着“放手一搏”的想法

SQL on Hadoop系统的最新进展(1)

转自:http://blog.jobbole.com/47892/ 为什么非要把SQL放到Hadoop上? SQL易于使用.那为什么非得基于Hadoop呢?the robust and scalable architecture of Hadoop 目前SQL on Hadoop产品主要有以下几种:Hive, Tez/Stinger, Impala, Shark/Spark, Phoenix, Hawq/Greenplum, HadoopDB, Citusdata等.本文主要讨论Hive, Te

《推荐系统》--最新进展:比如攻击、在线消费决策、普适环境等

<Recommender System An Introduction>,第九章,针对协同推荐系统的攻击 <Recommender System An Introduction>,第十章,在线消费决策 <Recommender System An Introduction>,第十一章,推荐系统和下一代互联网 <Recommender System An Introduction>,第十二章,普适环境中的推荐 应对攻击的对策 (1)使用基于模型的技术和额外的信

爱因斯坦计划最新进展(201710)

在2017年的美国国家网络安全意识月活动期间,DHS下的NPPD向国会出具了多份书面证词,谈及了包括爱因斯坦计划和CDM(持续诊断与缓解)项目在内的相关进展情况. 作为DHS下面主管CyberSecurity的部门,证词提到:"NPPD负责保护民用联邦政府网络[注:民用机构.民事设施跟军用/军事对应.爱因斯坦管不了美国军事机关和设施,那由DoD管辖],并与其他联邦机构,州,地方,部落和地区政府(SLTT)以及私营部门合作,防范网络威胁. 我们致力于加强全球的网络威胁信息共享,在网络事件开始之前阻

【超分辨率专题】—基于深度学习的图像超分辨率最新进展与趋势

1.简介 图像超分辨率是计算机视觉和图像处理领域一个非常重要的研究问题,在医疗图像分析.生物特征识别.视频监控与安全等实际场景中有着广泛的应用.随着深度学习技术的发展,基于深度学习的图像超分方法在多个测试任务上,取得了目前最优的性能和效果.本文介绍的一篇综述(Deep Learning for Image Super-resolution:A Survey)给出了一个统一的深度学习视角,来回顾最近的超分技术进展,主要包括三个方面: 给出了综合性的基于深度学习的图像超分技术综述,包括问题设置.数据

语音识别技术

通过谷歌语音接口的实现语音识别 最近在项目中有需要实现语音识别的功能.折腾了几天才搞好.刚开始做的时候没点头绪 ,网上找的资料都是乱七八糟的,要不就是非常古老的实现方法,一些简单的代码片段.所以我决定把我的经验分享给大家. 要在IOS中实现语音识别流程如下: 录音->pcm格式->转换wav->转换flac->向谷歌发送请求->等待返回的json数据->解析数据; 首先如果你要使用谷歌的接口实现语音识别必须知道下面着几点: 1.如何发送POST请求.(可以使用开源库AS

【16.09.01】【三零技术】最新更新文章推荐

1.[PHP编程:PHP简单无限分类类代码] 简介:这里就不多解释原理了,直接发代码.PS:这里代码是不能直接使用的,必须结合我的一些其他库类.应该说思想才是最重要的,这里主要提供一种分类的思路.... 地址:http://www.q3060.com/list3/list117/34130.html 2.[PHP编程:PHP简单的采集程序] 简介:    (修改了下,增加了数据缓存功能..汗,没有使用lite_cache了,自己写了个最简单的那种..)                      

语音识别技术简介

在人际交往中,言语是最自然并且最直接的方式之一.随着技术的进步,越来越多的人们也期望计算机能够具备与人进行言语沟通的能力,因此,语音识别这一技术也越来越受到关注.尤其,随着深度学习技术应用在语音识别技术中,使得语音识别的性能得到了显著提升,也使得语音识别技术的普及成为了现实. 以上是废话,下面开始正文. 自动语音识别技术,简单来说其实就是利用计算机将语音信号自动转换为文本的一项技术.这项技术同时也是机器理解人类言语的第一个也是很重要的一个过程. 为了进一步解释计算机如何实现语音到文字的转换这一过

物理学和天文学的最新进展

by http://blog.csdn.net/shendl 科幻大片<星际穿越>正在热映中,作为一名经常看科普图书的青年,在这里给大家汇报一下近几年物理学和天文学的最新进展.由于本人是物理学和天文学小白,本文定有很多错误,请大家原谅. 关于宇宙起源的猜想很多,最近几年M理论正在获得物理圈内的广泛认同.包括霍金大师.霍金大师前些年的观点还是,宇宙大爆炸之前的宇宙不可知,不可问.最近他写的<大设计>一书显示霍金已经接受了M理论. M理论源于弦论,是一种宇宙起源的假说.目前还没有得到证