语音识别(SR)的秘密

语音识别(SR)功能是当今国外操作系统的标准特征,而国产操作系统根本不具备这种特质,而且国家队没有相关的主观动力,去开发实际可用的语音识别系统。与国外相比,国产操作系统落后了一大节子,怪谁?

怎样让机器识别人的语音?其实大道理并不复杂,首先,让机器设备听懂元音,然后听懂辅音,将两者合成起来成为单词,再做进一步的处理。但是,实际做起来就复杂了。怎么做?

建立“语料库”(Corpus),就是建立语音的声学模型库。比如,”猫“这个单词的发音,必须让机器记住“猫”的发音,设法让机器听到“猫”所对应的“声音”(所谓”生物信号“)就知道主人对它说的是“猫”。语料库就是建立单词与语音的对应关系。这是基本建设,需要投入大量的人力、物力,别无他法。

任何语音都有个人特征,虽然100个人的发音基本相同,但是,存在一定的差异。所以机器的听觉总是存在“错误率”,这是必然的。降低机器识别错误率是必要的,这是一个基本认识,对机器不能要求过高。机器耳朵永远比不过人耳。

微软、谷歌、百度语音识别巨头都拥有各自的数万小时的语料库,但是,我们却没有,Linux社区也没有GPL可用的语料库(VoxForge不带我们玩)。怎么办?天上不会自动掉馅饼。要知道,私有公司建立自己的版权大型语料库总是要付出巨大的投入成本。而我们有人喜欢天上掉馅饼,整天坐在院子里面张着大嘴巴对着蓝天等着天上掉下馅饼来。

袁萌
7月14日

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-07-30 03:35:05

语音识别(SR)的秘密的相关文章

【VC++技术杂谈004】使用微软TTS语音引擎实现文本朗读

本文主要介绍如何使用微软TTS语音引擎实现文本朗读,以及生成wav格式的声音文件. 1.语音引擎及语音库的安装 TTS(Text-To-Speech)是指文本语音的简称,即通过TTS引擎把文本转化为语音输出. 微软TTS语音引擎提供了Windows Speech SDK开发包供编程者使用.Windows Speech SDK包含语音合成SS引擎和语音识别SR引擎两种,语音合成引擎用于将文字转换成语音输出,语音识别引擎用于识别语音命令. Windows Speech SDK可以在微软的官网上免费下

C#文本转语音并保存wav和MP3文件

回顾上次写博客至今都有4个多月了,最近工作比较的忙没时间写博文.以后会多坚持写博文,与大家分享下最近遇到的问题.最近因为项目需要,研究了下用C#开发TTS.下面把大体的思路给大家说说,希望对大家有所帮助. 首先需要了解下MS的SAPI,它是微软的语音API.它包括了语音识别SR引擎和语音合成SS引擎两种语音引擎.等下会给大家看下语音合成SS引擎.它由不同的版本,操作系统的不同使用的版本不同,不过我喜欢使用其他的合成语音包,比如:NeoSpeech公司的合成语音包.回过头来,MS 的SAPI的版本

C#中调用SAPI实现语音识别的2种方法

通过微软的SAPI,不仅仅可以实现语音合成TTS,同样可以实现语音识别SR.下面我们就介绍并贴出相关代码.主要有两种方式: 1.使用COM组件技术,不管是C++,C#,Delphi都能玩的转,开发出来的东西在XP和WIN7都能跑.(注意要引入系统组件SpeechLib,XP要安装识别引擎) 2.使用WIN7的windows api,其实最终还是调用了SAPI,所以开发出来的东西就只能在WIN7上面跑. 其实不管是哪一种,都是调用SAPI,可能后一种代码比较简单. 使用第一种方式,需要注意在COM

delphi调用百度语音识别REST API

delphi调用百度语音识别REST API-20160616-感谢 魔术猫 和 DelphiTeacher 兄的帮助解决了返回中文乱码的问题!-注:语音的录音格式目前只支持评测8k/16k采样率16bit位深的单声道语音 压缩格式支持:pcm(不压缩).wav.opus.speex.amr.x-flac var sUrl, sLan, cuid, apiKey, secretKey, token, sR: string;  response: TStringStream; Stream: TF

语音识别开源项目

语音识别项目: http://www.oschina.net/project/tag/203/tts-speech sf.net http://www.codesoso.net/Search?q=%D3%EF%D2%F4%CA%B6%B1%F0&l=c http://search.codesoso.com/Search?q=%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB http://simon-listens.blogspot.com/2012/12/simon-04

浏览器中的语音识别功能

你能用这儿的代码片段轻松地为个人网站添加语音识别功能,而且仅用原生的javascript就可实现. 上周四我有幸在西雅图的Code Fellows大会上就浏览器中的语音识别发了言. 当时许多人惊讶于用原生javascript为个人网站添加语音识别功能竟如此简单.因此我觉得可以在这里分享一些代码片段,目前这些代码只在Chrome下工作. 识别语音 你可以将语音转化为文字: var sr = new webkitSpeechRecognition(); sr.onresult = function

语音识别及其应用出现“井喷式”发展

在2009-2011年期间,全球语音识别技术普遍转向"深度神经网络"(DNN)平台,DNN架构的层面数量及规模大幅度提升,研究成果频出,出现了"井喷式"发展态势,具体表现在以下8个方面: Scaling up/out and speedup DNN training and decoding; Sequence discriminative training of DNNs; Feature processing by deep models with solid

语音识别技术为何成为当今科技研究的最大热点?

语音识别(SR)技术(或称"语音科技")成为当今科技研究的最大"热点"(或"聚焦点")是有客观原因的.为什么? 在国内搞科研,往往喜欢"赶潮流",不问具备什么客观条件,喜欢"蛮干".我们干事情要搞清楚周边的环境,看看情况再上路,不能"任性". 大家知道,人与人用语音沟通,相互"说话",交换信息.我们用耳朵听别人说话并不觉得有什么困难,除非耳聋.现在的问题是,互联网大发

语音识别技术的最新进展

7月11日,我在短文"现代人工智能走在仿生学的大道上"中提出关于现代人工智能的仿生学研究方向,是一句大实话.为什么? 大家知道,在上世纪60-70年代,加拿大神经生理学专家David Hubel(1926-2013)以实验为基础,搞清楚了人类大脑视觉系统对外界刺激信号的反应机制,揭示了大脑神经皮层的多层次结构,奠定了现代人工智能的仿生学基础. 在计算机科学发展历史中,语音识别(SR)是个难题,科学家绞尽脑汁,几乎什么方法都用了,还是不见成效.人的听觉神经系统是不是具有多层次结构特征?如