语音识别（SR）的秘密

语音识别（SR）功能是当今国外操作系统的标准特征，而国产操作系统根本不具备这种特质，而且国家队没有相关的主观动力，去开发实际可用的语音识别系统。与国外相比，国产操作系统落后了一大节子，怪谁？

怎样让机器识别人的语音？其实大道理并不复杂，首先，让机器设备听懂元音，然后听懂辅音，将两者合成起来成为单词，再做进一步的处理。但是，实际做起来就复杂了。怎么做？

建立“语料库”（Corpus），就是建立语音的声学模型库。比如，”猫“这个单词的发音，必须让机器记住“猫”的发音，设法让机器听到“猫”所对应的“声音”（所谓”生物信号“）就知道主人对它说的是“猫”。语料库就是建立单词与语音的对应关系。这是基本建设，需要投入大量的人力、物力，别无他法。

任何语音都有个人特征，虽然100个人的发音基本相同，但是，存在一定的差异。所以机器的听觉总是存在“错误率”，这是必然的。降低机器识别错误率是必要的，这是一个基本认识，对机器不能要求过高。机器耳朵永远比不过人耳。

微软、谷歌、百度语音识别巨头都拥有各自的数万小时的语料库，但是，我们却没有，Linux社区也没有GPL可用的语料库（VoxForge不带我们玩）。怎么办？天上不会自动掉馅饼。要知道，私有公司建立自己的版权大型语料库总是要付出巨大的投入成本。而我们有人喜欢天上掉馅饼，整天坐在院子里面张着大嘴巴对着蓝天等着天上掉下馅饼来。

袁萌
7月14日

版权声明：本文为博主原创文章，未经博主允许不得转载。

时间： 2024-07-30 03:35:05

语音识别（SR）的秘密的相关文章

【VC++技术杂谈004】使用微软TTS语音引擎实现文本朗读

本文主要介绍如何使用微软TTS语音引擎实现文本朗读,以及生成wav格式的声音文件. 1.语音引擎及语音库的安装 TTS(Text-To-Speech)是指文本语音的简称,即通过TTS引擎把文本转化为语音输出. 微软TTS语音引擎提供了Windows Speech SDK开发包供编程者使用.Windows Speech SDK包含语音合成SS引擎和语音识别SR引擎两种,语音合成引擎用于将文字转换成语音输出,语音识别引擎用于识别语音命令. Windows Speech SDK可以在微软的官网上免费下

C#文本转语音并保存wav和MP3文件

回顾上次写博客至今都有4个多月了,最近工作比较的忙没时间写博文.以后会多坚持写博文,与大家分享下最近遇到的问题.最近因为项目需要,研究了下用C#开发TTS.下面把大体的思路给大家说说,希望对大家有所帮助. 首先需要了解下MS的SAPI,它是微软的语音API.它包括了语音识别SR引擎和语音合成SS引擎两种语音引擎.等下会给大家看下语音合成SS引擎.它由不同的版本,操作系统的不同使用的版本不同,不过我喜欢使用其他的合成语音包,比如:NeoSpeech公司的合成语音包.回过头来,MS 的SAPI的版本

C#中调用SAPI实现语音识别的2种方法

通过微软的SAPI,不仅仅可以实现语音合成TTS,同样可以实现语音识别SR.下面我们就介绍并贴出相关代码.主要有两种方式: 1.使用COM组件技术,不管是C++,C#,Delphi都能玩的转,开发出来的东西在XP和WIN7都能跑.(注意要引入系统组件SpeechLib,XP要安装识别引擎) 2.使用WIN7的windows api,其实最终还是调用了SAPI,所以开发出来的东西就只能在WIN7上面跑. 其实不管是哪一种,都是调用SAPI,可能后一种代码比较简单. 使用第一种方式,需要注意在COM

delphi调用百度语音识别REST API

delphi调用百度语音识别REST API-20160616-感谢魔术猫和 DelphiTeacher 兄的帮助解决了返回中文乱码的问题!-注:语音的录音格式目前只支持评测8k/16k采样率16bit位深的单声道语音压缩格式支持:pcm(不压缩).wav.opus.speex.amr.x-flac var sUrl, sLan, cuid, apiKey, secretKey, token, sR: string; response: TStringStream; Stream: TF

语音识别开源项目

语音识别项目: http://www.oschina.net/project/tag/203/tts-speech sf.net http://www.codesoso.net/Search?q=%D3%EF%D2%F4%CA%B6%B1%F0&l=c http://search.codesoso.com/Search?q=%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB http://simon-listens.blogspot.com/2012/12/simon-04

浏览器中的语音识别功能

你能用这儿的代码片段轻松地为个人网站添加语音识别功能,而且仅用原生的javascript就可实现. 上周四我有幸在西雅图的Code Fellows大会上就浏览器中的语音识别发了言. 当时许多人惊讶于用原生javascript为个人网站添加语音识别功能竟如此简单.因此我觉得可以在这里分享一些代码片段,目前这些代码只在Chrome下工作. 识别语音你可以将语音转化为文字: var sr = new webkitSpeechRecognition(); sr.onresult = function

语音识别及其应用出现“井喷式”发展

在2009-2011年期间,全球语音识别技术普遍转向"深度神经网络"(DNN)平台,DNN架构的层面数量及规模大幅度提升,研究成果频出,出现了"井喷式"发展态势,具体表现在以下8个方面: Scaling up/out and speedup DNN training and decoding; Sequence discriminative training of DNNs; Feature processing by deep models with solid

语音识别技术为何成为当今科技研究的最大热点？

语音识别(SR)技术(或称"语音科技")成为当今科技研究的最大"热点"(或"聚焦点")是有客观原因的.为什么? 在国内搞科研,往往喜欢"赶潮流",不问具备什么客观条件,喜欢"蛮干".我们干事情要搞清楚周边的环境,看看情况再上路,不能"任性". 大家知道,人与人用语音沟通,相互"说话",交换信息.我们用耳朵听别人说话并不觉得有什么困难,除非耳聋.现在的问题是,互联网大发

语音识别技术的最新进展

7月11日,我在短文"现代人工智能走在仿生学的大道上"中提出关于现代人工智能的仿生学研究方向,是一句大实话.为什么? 大家知道,在上世纪60-70年代,加拿大神经生理学专家David Hubel(1926-2013)以实验为基础,搞清楚了人类大脑视觉系统对外界刺激信号的反应机制,揭示了大脑神经皮层的多层次结构,奠定了现代人工智能的仿生学基础. 在计算机科学发展历史中,语音识别(SR)是个难题,科学家绞尽脑汁,几乎什么方法都用了,还是不见成效.人的听觉神经系统是不是具有多层次结构特征?如

猜你喜欢

JDK8的怪东西，这门语言不能优雅点吗？

import java.util.Arrays; class Add2 { int add2(int a, int b) { return a + b; } } int ...

Win7 cmd使用技巧 cd desktop cmd窗口切换到桌面

step1 step2 step3

js弹框3秒后自动消失

开发中有时候会需要最出弹框后,过几秒自动消失的效果,下面给大家分享一下我自己做的一个小案例. 案例中的弹框使用的是bootstrap里面的模态框,实现自动消失则用的是js中的setInterval方法 ...

shell脚本：收集系统和各种服务的状态信息

脚本功能:收集系统和各种服务的状态信息 ------------------ #!/bin/bash # get system and services status # by colin # rev ...

安卓第十七天笔记--简易版本音乐播放器

title:简易版本音乐播放器简易版本音乐播放器 1.布局 <?xml version="1.0" encoding="utf-8"?> < ...

，个价格坎，看，

http://www.codecademy.com/au765t9jr.htmlhttp://www.codecademy.com/au765t9jrhttp://www.codecademy.com ...

是都嘎哈金葵花功夫给还是

http://bar.cnyes.com/html/100102-1/8D238FF13DD56F0.shtml http://bar.cnyes.com/html/100102-1/8D238 ...

tint2

#---------------------------------------------# TINT2 CONFIG FILE#---------------------------------- ...

ls命令详解: ls其实就是list列出的意思缩写: 格式为:ls 选项参数选项:-l: 长格式显示,从左至右: 文件类型:- 普通文件 d 目录文件 b 块文件 l 符号链接文件 c 字符文 ...

程序员之网络安全系列

转自:程序员之网络安全系列(一):为什么要关注网络安全? 假如,明明和丽丽相互不认识,明明想给丽丽写一封情书,让隔壁老王送去如何保证隔壁老王不能看到情书内容?(保密性) 如何保证隔壁老王不修改情书的 ...

Linux常用命令之一：find

Linux常用命令之一:find find,find在不指定查找目录的情况下是对整个系统进行遍历查找使用格式 : find [指定查找目录] [查找规则] [查找完后执行的action] ...

在Linux下伪装MAC地址

由于网络接口的MAC地址是编址在接口卡硬件中的,所以并不能直接在硬件上进行修改.但是可以使用ifconfig命令为网卡设置一个伪装的MAC地址,各种网络应用程序将使用这个新的MAC地址. 一般不建议修 ...

自动化安装工具Cobbler简易安装配置

Cobbler的安装方式和传统的方式相差无几,但是相对配置简单, 提供WEB界面,不过相对运维工程师来讲,这个WEB反而不太实用. 我个人比较喜欢的是Cobbler可以在一套系统内定义多个系统和菜单, ...

怎么解决mysql远程连接报10038的错误

最近使用Navicat for MySQl访问远程mysql数据库,出现报错,显示"2003- Can't connect MySQL Server on 'localhost'(10038 ...

n a^o7 !

n a^o7 ! 题目描述 All brave and intelligent fighters, next you will step into a distinctive battleground ...

How to: Update an .edmx File when the Database Changes

https://msdn.microsoft.com/en-us/library/cc716697.aspx In the Model Browser, right-click the .edmx f ...

o gdb

GDB是GNU开源组织发布的一个强大的UNIX下的程序调试工具.如果你是在 UNIX平台下做软件,你会发现GDB这个调试工具有比VC.BCB的图形化调试器更强大的功能.同时GDB也具有例如ddd这样的 ...

hdu 2476 (string painter) 字符串刷子

String painter Time Limit: 5000/2000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)To ...

母版页的铵钮事件去获取子页的内容

本例演示在母版页中的铵钮事件去获取某些子页的内容.在母版本中,有一个铵钮事件.当浏览某些子页时,用户点一点母版页的铵钮,能去获取当前页的内容. 子页很多,但我们并不是每一个子页的内容均要去获取,而且每 ...

机器学习之 PCA

PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.026 s.