语音识别技术的最新进展

7月11日，我在短文“现代人工智能走在仿生学的大道上”中提出关于现代人工智能的仿生学研究方向，是一句大实话。为什么？

大家知道，在上世纪60-70年代，加拿大神经生理学专家David
Hubel(1926-2013)以实验为基础，搞清楚了人类大脑视觉系统对外界刺激信号的反应机制，揭示了大脑神经皮层的多层次结构，奠定了现代人工智能的仿生学基础。

在计算机科学发展历史中，语音识别（SR）是个难题，科学家绞尽脑汁，几乎什么方法都用了，还是不见成效。人的听觉神经系统是不是具有多层次结构特征？如果听觉系统的神经元对外界刺激信号的反应顺序有先后，那么，使用人工神经网络进行“仿真”是一条可行的道路。

废话少说。2011年秋季，在意大利佛罗伦萨召开的国际语音识别大会（Interspeech）上，微软发表了对语音识别深度神经网络建模的重大改进：协同发音（Coarticulation）建模，减低语音识别错误率，当场演示了”同声传译“，效果极佳。

2014年，微软推出了语音助手”小娜“（Cortana），并且将其捆绑到Win10操作系统之中。2015年7月29日，中国广大计算机用户即可直接体验微软的语音识别新技术了。

至此，机器有了耳朵（ear）也有了眼睛(eye)，人类不再孤独。实际上，机器什么”智慧“也没有，只是人类的一种驯服工具而已。

注：2011年世界语音识别大会（InterSpeech），会议文集刊有近2,000篇论文，足见其规模之大，影响甚远。

袁萌7月12日

版权声明：本文为博主原创文章，未经博主允许不得转载。

时间： 2024-12-27 01:43:58

语音识别技术的最新进展的相关文章

微软自动图像说明技术的最新进展

作者:John Platt 微软雷德蒙研究院副院长兼杰出科学家文章译自:Rapid Progress in Automatic Image Captioning 多年来,我一直热衷于接受图像理解(image understanding)领域各种艰巨的挑战.关于图像理解,每个人对其都有不同的定义,它的种类几乎与从事计算机视觉研究的人员数量一样多.但是我们都有一个共同的目标:创建一个能够与人类相媲美的系统,自动为图像生成描述性说明. 微软自动图像说明系统的性能如何今年夏天,抱着“放手一搏”的想法

SQL on Hadoop系统的最新进展（1）

转自:http://blog.jobbole.com/47892/ 为什么非要把SQL放到Hadoop上? SQL易于使用.那为什么非得基于Hadoop呢?the robust and scalable architecture of Hadoop 目前SQL on Hadoop产品主要有以下几种:Hive, Tez/Stinger, Impala, Shark/Spark, Phoenix, Hawq/Greenplum, HadoopDB, Citusdata等.本文主要讨论Hive, Te

《推荐系统》--最新进展：比如攻击、在线消费决策、普适环境等

<Recommender System An Introduction>,第九章,针对协同推荐系统的攻击 <Recommender System An Introduction>,第十章,在线消费决策 <Recommender System An Introduction>,第十一章,推荐系统和下一代互联网 <Recommender System An Introduction>,第十二章,普适环境中的推荐应对攻击的对策 (1)使用基于模型的技术和额外的信

爱因斯坦计划最新进展（201710）

在2017年的美国国家网络安全意识月活动期间,DHS下的NPPD向国会出具了多份书面证词,谈及了包括爱因斯坦计划和CDM(持续诊断与缓解)项目在内的相关进展情况. 作为DHS下面主管CyberSecurity的部门,证词提到:"NPPD负责保护民用联邦政府网络[注:民用机构.民事设施跟军用/军事对应.爱因斯坦管不了美国军事机关和设施,那由DoD管辖],并与其他联邦机构,州,地方,部落和地区政府(SLTT)以及私营部门合作,防范网络威胁. 我们致力于加强全球的网络威胁信息共享,在网络事件开始之前阻

【超分辨率专题】—基于深度学习的图像超分辨率最新进展与趋势

1.简介图像超分辨率是计算机视觉和图像处理领域一个非常重要的研究问题,在医疗图像分析.生物特征识别.视频监控与安全等实际场景中有着广泛的应用.随着深度学习技术的发展,基于深度学习的图像超分方法在多个测试任务上,取得了目前最优的性能和效果.本文介绍的一篇综述(Deep Learning for Image Super-resolution:A Survey)给出了一个统一的深度学习视角,来回顾最近的超分技术进展,主要包括三个方面: 给出了综合性的基于深度学习的图像超分技术综述,包括问题设置.数据

语音识别技术

通过谷歌语音接口的实现语音识别最近在项目中有需要实现语音识别的功能.折腾了几天才搞好.刚开始做的时候没点头绪 ,网上找的资料都是乱七八糟的,要不就是非常古老的实现方法,一些简单的代码片段.所以我决定把我的经验分享给大家. 要在IOS中实现语音识别流程如下: 录音->pcm格式->转换wav->转换flac->向谷歌发送请求->等待返回的json数据->解析数据; 首先如果你要使用谷歌的接口实现语音识别必须知道下面着几点: 1.如何发送POST请求.(可以使用开源库AS

【16.09.01】【三零技术】最新更新文章推荐

1.[PHP编程:PHP简单无限分类类代码] 简介:这里就不多解释原理了,直接发代码.PS:这里代码是不能直接使用的,必须结合我的一些其他库类.应该说思想才是最重要的,这里主要提供一种分类的思路.... 地址:http://www.q3060.com/list3/list117/34130.html 2.[PHP编程:PHP简单的采集程序] 简介: (修改了下,增加了数据缓存功能..汗,没有使用lite_cache了,自己写了个最简单的那种..)

语音识别技术简介

在人际交往中,言语是最自然并且最直接的方式之一.随着技术的进步,越来越多的人们也期望计算机能够具备与人进行言语沟通的能力,因此,语音识别这一技术也越来越受到关注.尤其,随着深度学习技术应用在语音识别技术中,使得语音识别的性能得到了显著提升,也使得语音识别技术的普及成为了现实. 以上是废话,下面开始正文. 自动语音识别技术,简单来说其实就是利用计算机将语音信号自动转换为文本的一项技术.这项技术同时也是机器理解人类言语的第一个也是很重要的一个过程. 为了进一步解释计算机如何实现语音到文字的转换这一过

物理学和天文学的最新进展

by http://blog.csdn.net/shendl 科幻大片<星际穿越>正在热映中,作为一名经常看科普图书的青年,在这里给大家汇报一下近几年物理学和天文学的最新进展.由于本人是物理学和天文学小白,本文定有很多错误,请大家原谅. 关于宇宙起源的猜想很多,最近几年M理论正在获得物理圈内的广泛认同.包括霍金大师.霍金大师前些年的观点还是,宇宙大爆炸之前的宇宙不可知,不可问.最近他写的<大设计>一书显示霍金已经接受了M理论. M理论源于弦论,是一种宇宙起源的假说.目前还没有得到证

猜你喜欢

linux服务与进程

linux服务与进程 http://www.cnblogs.com/jamesbd/p/3567654.html linux服务与进程 1.应用程序 2.服务脚本 3.配置文件 4.查看进程 5.查看 ...

iOS开发之多文件上传

// // ViewController.m // B03-多文件上传 // // Created by 0426iOS on 15/7/1. // Copyright (c) 2015年 0 ...

COJ 1691：前缀和

题意:有n个城市,给一个矩阵,表示m件事上,n个城市的看法(东方或者西方) 现在需要确定一个分界,使得差异最小所谓的差异,可以理解为划分后西边的E和东边的W数量和最小直接做一个前缀和以及一个后缀和 ...

linux之samba服务

yum -y install samba /etc/init.d/smb start (service smb start) chkconfig --level 35 smb on testpa ...

【系统知识点】linux软件安装编译

Linux上面的软件几乎都是经过GPL的授权,所以每个软件几乎均提供源代码,并且你可以自行修改该程序代码,以符合你个人需求. 基础知识: 可执行文件: 在Linux系统上面一个文件能不能被执行看的是有 ...

个人作业-Week2：案例分析

截止时间:2016年9月25日24:00. 很多同学有误解,软件工程课是否就是理论课?或者是几个牛人拼命写代码,其他人打酱油的课?要不然就是学习一个程序语言,搞一个职业培训的课? 都不对, 软件工程有 ...

Query Designer：Exception，不同的值显示不同的颜色

声明:原创作品,转载时请注明文章来自SAP师太技术博客( 博/客/园www.cnblogs.com):www.cnblogs.com/jiangzhengjun,并以超链接形式标明文章原始出处,否则将 ...

C++ Code_animateCtrl

Code:: 播放 if (!m_animate1.Open("C:\\copy.avi")) { MessageBox("NULL"); return; } ...

羊门车问题

1.我认为会增加选中汽车的机会. (1)游客第一次选中汽车, 若更换选择,无法猜中, 不更换选择,则猜中: (2)游客第一次选中羊, 若更换选择,则猜中, 不更换选择,无法猜中: (3 ...

python一

一安装工具 pip easy_install 1 import os 2 print (os.getcwd()) 1. 自带package和外部package 1.1 自带package举例: os; ...

苹果爱疯5手机掉马桶了捞起来不开机还能用吗iPhone5进水开不开机维修主板要多少钱

http://tieba.baidu.com/p/2089457582(复制链接点击进入查看中关村黑心商家) 或者直接搜索百度贴吧[中关村]进入查看中关村黑心商家中关村一直以低价吸引人,拆机之后,在 ...

YYYY-mm-dd HH:MM:SS

备忘:YYYY-mm-dd HH:MM:SS部分解释 d 月中的某一天.一位数的日期没有前导零. dd 月中的某一天.一位数的日期有一个前导零 ...

有道美句。。

A book that remains shut is but a block. 有书闭卷不阅读,无异是一块木头. I learned the value of hard work by workin ...

安装篇: 安装EXSi 1 启动iso 2 确定继续安装 3 选择安装路径 4 设置管理员密码(默认管理员账号为root) 5 ...

减少UIViewController切换的耦合

我们一般切换UIViewController的时候用的是例如以下代码 #import "UIViewControllerDemo.h" UIViewControllerDemo * ...

第十一单元管理网络

第十一章管理网络一.ip基础知识 1 ipv4 32位的二进制组成,为了方便观看,写成10进制 ip地址可以取0到255之间的数字例:172.25.254.78/255.255.255.0 17 ...

ubuntukylin基础 pip升级

镇场文: 学儒家经世致用,行佛家普度众生,修道家全生保真,悟易理象数通变.以科技光耀善法,成就一良心博客. _______________________________________ ...

Spring事务——使用XML Schema配置事务策略

Spring同时支持编程式事务策略和声明式事务策略,通常推荐采用声明式事务策略.具体实现过程如下: 1.定义一个接口NewsDao,代码如下: package com.hyq.chapter08_06 ...

货到付款被骗要怎样拿回钱

全国免费报警电话17O9-O11O4OO百度推荐Q(1002732496)网警解决投诉.退货.提现.解冻.认证.账户激活.找回密码.解绑.卡单报警电话17O9O11O4OO防止电话诈骗报警请联系QQ: ...

js兼容性记录

做BS开发就难免会用到javascript,而每个浏览器对javascript的支持有不同.这就需要我们程序员去兼容他们,不然有些浏览器就无法运行我们的代码.就会造来客户的投诉,如果让BoSS知道了, ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.