廉价的语音技术

语音和图像、视频一样,是人与人之间沟通的交流方式。

语音信号处理是一门综合性的学科,它与语音学、心理学、数字信号处理、计算机科学、模式识别等有着密切联系。

语音技术一般可以分为三大类:

1.人与人之间的通信:语音增强、语音编码、语音通信、VOIP等  

简单的说,以网络为载体,实现人与人之间的语音通信,涉及到语音前端去噪,增强,语音压缩编码等。

语音增强、语音去噪等, 主要解决的是前端问题,单纯的语音、音频处理技术主要应用在嵌入式方向。

语音编码,做标准的很少,单纯做算法的也很少。主要需求集中围绕着具体的芯片在代码和性能做底层汇编优化,一般很少能涉及到算法的优化。

VOIP、语音通信主要对网络协议等需求更多一些,VOIP和传统移动语音通信相比,主要体现在价格上的优势,通话质量上和传统相比还是有一定差距。 现在移动运营商的收益也在逐渐减       低,当价格上有所调整时,VOIP估计也很难生存了。

这一类岗位主要集中在芯片类、通信类、语音类、嵌入式、少数互联网公司:高通、联发科、展讯、科大讯飞、华为、思科、爱立信、哈曼、创新科技、微软Skype、腾讯等。

2.语音合成:

简单的说,机器说话给人听,代替人把相关的信息绘声绘色的念出来。

3.语音识别和理解:

简单的说,人说话,机器能够听懂,能够按照人说的内容和指示,代替人完成相关的操作。相关的还有说话人识别、情感识别、语种识别、语音测评、语义理解等。

行业现状:

传统的语音公司:Nuance、科大讯飞、捷通华声等。

传统的软件类公司:微软、IBM等。

互联网公司:云知声、百度等。

一方面语音识别是最难的语音技术,它包含了许多个模块技术,门槛很高,这一类的人才更加稀少。

首先,必须要准备好大量的语音库,做好训练和识别。

其次,就算你只深入到语音识别的某一项技术,首先必须搭建一整套识别流程来检测实验的效果。

再者,基本上各个模块都能影响到识别率,所以也必须要熟悉这些模块。

最后,还有更难的技术还在等着你,中文分词、语言模型的训练和建立、以及后期的自然语言处理、语义识别、云端服务等。

另一方面,目前语音识别盈利模式还不是很明朗,所以也决定了投入这一块的人力也很稀缺。

早期做这一块的微软和IBM基本上也不靠这个盈利,Nuance的赢利点主要在车载、医疗转录等,最后也是与苹果合作,做了款SIRI,火了一把。

国内的科大讯飞,在识别方向盈利也很低。

http://www.huxiu.com/article/9885/1.html

该公司的营收主要依靠传统业务如普通话测评、英语测评、呼叫中心、嵌入式语音导航和毛利率很低的信息工程业务。

所以“科大讯飞”、云知声正在朝着平台开放的路径去开拓产品,将语音技术融入到互联网当中。

总而言之,语音技术做好真的很难,它也真的很廉价,它将何去何从?

廉价的语音技术

时间: 2024-10-12 11:45:41

廉价的语音技术的相关文章

网络语音技术

浅谈网络语音技术 当我们使用像Skype.QQ这样的工具和朋友流畅地进行语音视频聊天时,我们可曾想过其背后有哪些强大的技术在支撑?本文将对网络语音通话所使用到的技术做一些简单的介绍,算是管中窥豹吧. 一.概念模型 网络语音通话通常是双向的,就模型层面来说,这个双向是对称的.为了简单起见,我们讨论一个方向的通道就可以了.一方说话,另一方则听到声音.看似简单而迅捷,但是其背后的流程却是相当复杂的.我们将其经过的各个主要环节简化成下图所示的概念模型: 这是一个最基础的模型,由五个重要的环节构成:采集.

浅谈网络语音技术

转自:http://www.cnblogs.com/zhuweisky/archive/2012/06/08/2514889.html 当我们使用像Skype.QQ这样的工具和朋友流畅地进行语音视频聊天时,我们可曾想过其背后有哪些强大的技术在支撑?本文将对网络语音通话所使用到的技术做一些简单的介绍,算是管中窥豹吧. 一.概念模型 网络语音通话通常是双向的,就模型层面来说,这个双向是对称的.为了简单起见,我们讨论一个方向的通道就可以了.一方说话,另一方则听到声音.看似简单而迅捷,但是其背后的流程却

高清语音技术(WBS)及其在手机和蓝牙耳机中的实现

高清语音也被称为宽带语音,是一种能为蜂窝网络.移动电话和无线耳机传输高清.自然语音质量的音频技术.与传统的窄带电话相比,高清语音很大程度上提高了语音质量,减少了听觉负担. 通信产业链上的所有网络和设备都需支持高清语音才能体现出该技术的优点.到2011年6月为止,18个国家运营的20种蜂窝网络,以及33家领先的手机品牌都已支持高清语音.通过部署自适应多速率宽带(AMR-WB)语音编码,GSM, WCDMA(UMTS)和LTE蜂窝网络中已经引入了高清语音.此外, 通过使用改良的子带编码(mSBC)语

百度强势入场,AI们集体打 call:揭秘百度智能客服背后的语音技术与应用

两年前的今天,AI流行下围棋:今天,AI流行打电话-- 这个潮流的最近一次上演,是几天前的百度AI开发者大会上,李彦宏现场播放了百度AI客服邀请开发者的真实电话录音. 当时我就在现场,第一通电话里那位开发者方言比较重,到底说了什么我基本没听懂.但百度的AI却应对自如,在电话中回答了各种问题. 第二通电话更神了,那位女开发者发现了小度的AI身份,直接问百度给ta发钱吗,结果被小度用一句"百度给我免费充电",巧妙的"回撩"了过去. 在众人的惊叹中,我们很容易发现让AI打

微软语音技术 Windows 语音编程初步

一.SAPI简介 软件中的语音技术包括两方面的内容,一个是语音识别(speech recognition) 和语音合成(speech synthesis).这两个技术都需要语音引擎的支持.微软推出的应用编程接口API,虽然现在不是业界标准,但是应用比较广泛. SAPI全称 The Microsoft Speech API.相关的SR和SS引擎位于Speech SDK开发包中.这个语音引擎支持多种语言的识别和朗读,包括英文.中文.日文等. SAPI包括以下组件对象(接口): (1)Voice Co

IBM语音技术API说明,比较锻炼英文能力

SMAPI (Speech Manager Application Programming Interface) Reference IBM ViaVoice. SDK for Windowsa Printed in the USA Note Before using this information and the product it supports, be sure to read the general information under Appendix D "Notices&quo

iOS自带TTS技术的实现即语音播报

文本转语音技术, 也叫TTS, 是Text To Speech的缩写. iOS如果想做有声书等功能的时候, 会用到这门技术. 一,使用iOS自带TTS需要注意的几点: iOS7之后才有该功能 需要 AVFoundation 库 AVSpeechSynthesizer: 语音合成器, 可以假想成一个可以说话的人, 是最主要的接口 AVSpeechSynthesisVoice: 可以假想成人的声音 AVSpeechUtterance: 可以假想成要说的一段话 二,代码示例, 播放语音 //语音播报

智能语音人机交互产业链及关键技术分析

人机交互是一门计算机科学,主要研究关于设计.评价和实现供人们使用的交互计算系统以及相关现象的科学.人机交互的发展经历了以下几个阶段:手工作业阶段.作业控制语言与交互命令语言阶段.图形用户界面(GUI)阶段.网络用户界面,目前已经发展到多通道.多媒体的智能人机交互阶段.其中,语音人机交互是当前多通道.多媒体智能人机交互的主要方式.特别是苹果Siri.科大讯飞语点的出现,让智能语音人机交互技术实现了新的跨越,得到了社会各界的广泛关注. 一.智能语音人机交互产业发展现状 什么是智能语音人机交互技术?简

语音、音频技术的一点思考

语音和图像.视频一样,是人与人之间沟通的交流方式. 语音信号处理是一门综合性的学科,它与语音学.心理学.数字信号处理.计算机科学.模式识别等有着密切联系. 语音技术一般可以分为三大类: 1.人与人之间的通信:语音增强.语音编码.语音通信.VOIP等 简单的说,以网络为载体,实现人与人之间的语音通信,涉及到语音前端去噪,增强,语音压缩编码等. 语音增强.语音去噪等, 主要解决的是前端问题,单纯的语音.音频处理技术主要应用在嵌入式方向. 开源的像Webrtc.Speex之类. VOIP.语音通信主要