语音、音频技术的一点思考

语音和图像、视频一样,是人与人之间沟通的交流方式。

语音信号处理是一门综合性的学科,它与语音学、心理学、数字信号处理、计算机科学、模式识别等有着密切联系。

语音技术一般可以分为三大类:

1.人与人之间的通信:语音增强、语音编码、语音通信、VOIP等  

简单的说,以网络为载体,实现人与人之间的语音通信,涉及到语音前端去噪,增强,语音压缩编码等。

语音增强、语音去噪等, 主要解决的是前端问题,单纯的语音、音频处理技术主要应用在嵌入式方向。

开源的像Webrtc、Speex之类。

VOIP、语音通信主要对网络协议等需求更多一些,VOIP和传统移动语音通信相比,主要体现在价格上的优势,通话质量上和传统相比还是有一定差距。 现在移动运营商的收益也在逐渐减低,当价格上有所调整时,VOIP估计也很难生存了。

这一类岗位主要集中在芯片类、通信类、语音类、嵌入式、少数互联网公司:高通、联发科、展讯、科大讯飞、华为、思科、爱立信、哈曼、创新科技、微软Skype、腾讯等。

语音、音频编码,做标准的很少,单纯做算法的也很少。主要需求集中围绕着具体的芯片在代码和性能做底层汇编优化,一般很少能涉及到算法层面的优化。

开源的像ffmpeg 等,未来安卓平台也会像苹果一样,都支持硬解,所以这方面就业情况更窄。

2.语音合成:

简单的说,机器说话给人听,代替人把相关的信息绘声绘色的念出来。

主要流程:

语音库  训练好模型

文本分析,上下文语义分析,韵律分析,输出语音参数

语音合成器输出

技术相对较为成熟,像HTS、Straight等,每一块模块都非常重要,都需要深入研究,才能合成出高质量的语音,所以需要整个团队成员配合。

功能:由文本产生语音,解放了用户的双眼。

应用:语音合成引擎,它的优化在于大规模,任意文本组合发音,目前市场上有懒人说书、听书之类的APP。

如果是小量的语音需求,完全用录音就可以代替,成本低。

3.语音识别和理解:

简单的说,人说话,机器能够听懂,能够按照人说的内容和指示,代替人完成相关的操作。相关的还有说话人识别、情感识别、语种识别、语音测评、语义理解等。

行业现状:

传统的语音公司:Nuance、科大讯飞、捷通华声等。

传统的软件类公司:微软、IBM等。

互联网公司:云知声、百度等。

一方面语音识别是最难的语音技术,搭建好识别平台相对容易,有很多开源的项目,像HTK、Kaldi,但是本质进一步提高识别率并不简单。

它包含了许多个模块技术,门槛很高,数学功底深厚,这一类的人才更加稀少。

首先,必须要准备好大量的语音库,做好训练和识别。

其次,就算你只深入到语音识别的某一项技术,首先必须搭建一整套识别流程来检测实验的效果。

再者,基本上各个模块都能影响到识别率,特别是噪声,所以也必须要熟悉这些模块。

最后,还有其它技术还在等着你,中文分词、语言模型的训练和建立、以及后期的自然语言处理、语义识别、云端服务等。

另一方面,目前语音识别盈利模式还不是很明朗,所以也决定了投入这一块的人力也很稀缺。

早期做这一块的微软和IBM基本上也不靠这个盈利,Nuance的赢利点主要在车载、医疗转录等,最后也是与苹果合作,做了款SIRI,火了一把。

国内的科大讯飞,在识别方向盈利也很低。

http://www.huxiu.com/article/9885/1.html

该公司的营收主要依靠传统业务如普通话测评、英语测评、呼叫中心、嵌入式语音导航和毛利率很低的信息工程业务。

所以“科大讯飞”、云知声开放了自己的云平台,提供免费API,给产品应用公司提高效率,降低成本,侵占更大的市场,将语音技术融入到互联网当中,势必会有一些小语音公司或者团队将会解散。

尽管如此,语音识别仍然是解决用户与机器交互体验性最好的方式,未来前景一片光明。

语音公司向来不依赖于员工规模,关键的是几个技术大牛,所以语音公司或者部门人数比较少,令缺勿滥。

未来只有少数比较牛的团队才能生存下来,其它的都会被Kill掉。

一方面,互联网语音技术,用户肯定免费,所以未来语音公司可能向第三方公司收取费用,也就是说,语音公司是给大多数公司提供解决方案,第三方公司给报酬。因此大公司BAT都有组建自己的语音团队,不依赖第三方,效果据称不错。

另一方面,语音技术公司未来可能会转型,不单单给第三方公司提供语音技术支撑,将技术转化成产品,语音公司也将会开发直接面向用户的产品,将盈利方式多样化,所以未来应用开发的产品人员需求可能增多。

4.音乐技术:

听音识曲,放个音乐片段,能检索出歌曲的名称。

哼唱识曲:哼唱音乐片段,能检索出歌曲的名称。

这个需求主要存在于互联网音乐类软件中,目前大多数播放器都有自己的检索,其它主要依赖于音乐雷达。

从对语音、音频技术来看整个技术行业:

技术里面,掌舵好方向,提供解决方案的人才是最重要的。

技术一般依赖于团队,一个人很难撑起。

技术能细化成很多单元,每个人精力有限,只是其中的一颗螺丝钉,只能深入一部分,了解整个全局。

不能够单纯搞技术,技术的追求永远是无止境的。

技术更新是非常快的,特别是在开源的大趋势下,所以在年轻的时候必须淘到钱。

做技术要像医生一样,做些有积累性的技术,应用面、公司比较需求比较宽的技术,这样才会值钱。太窄的技术只会把人作死,除非是在大公司还可以换岗。

技术必须转化成产品,必须有盈利才会持久。

做技术的同时,结交各种各样的人才,多多开阔眼界,说不定,有一天,你需要他们,或者他们需要你。

再感兴趣的事情,干多了也会觉得没啥意思,最后都是往钱看,特别是年龄越大的时候。

尽量接触一些产品,能将自己的技术沉淀到产品中,开发出一个自己的产品。

互联网的精神是开源,最需的是创意、点子。

总而言之,技术整个产品线的一环,它是为了解决问题而存在,问题是因为用户需求在,解决需求是因为有钱在推动。

时间: 2024-10-16 00:59:38

语音、音频技术的一点思考的相关文章

客户端技术的一点思考(数据存储用SQLite, XMPP通讯用Gloox, Web交互用LibCurl, 数据打包用Protocol Buffer, socket通讯用boost asio)

今天看到CSDN上这么一篇< 彻底放弃没落的MFC,对新人的忠告!>, 作为一个一直在Windows上搞客户端开发的C++程序员,几年前也有过类似的隐忧(参见 落伍的感觉), 现在却有一些不同的想法. 首先,个人职业发展是否成功, 技术只是其中一小块,尤其是在大公司, 更多的是依靠所谓的软实力.作为一个对技术有追求的工匠,我们下面重点说技术相关的. 现在回头看计算机行业的发展,我们看到不同的发展阶段: 1. PC时代,这个时代离我们并不遥远, 也有是2000年前后, 该时代最鲜明的特征是Win

客户端技术的一点思考

今天看到CSDN上这么一篇< 彻底放弃没落的MFC,对新人的忠告!>, 作为一个一直在Windows上搞客户端开发的C++程序员,几年前也有过类似的隐忧(参见 落伍的感觉), 现在却有一些不同的想法. 首先,个人职业发展是否成功, 技术只是其中一小块,尤其是在大公司, 更多的是依靠所谓的软实力.作为一个对技术有追求的工匠,我们下面重点说技术相关的. 现在回头看计算机行业的发展,我们看到不同的发展阶段: 1. PC时代,这个时代离我们并不遥远, 也有是2000年前后, 该时代最鲜明的特征是Win

周志华:关于机器学习的一点思考

https://mp.weixin.qq.com/s/sEZM_o5D6AhyMgvocbsFhw 演讲:周志华 整理:肖琴.闻菲 [新智元导读]机器学习如今大获成功的原因有哪些?如何才能取得进一步的突破?南京大学周志华教授在AI WORLD 2018大会上分享他关于机器学习的一点思考:我们需要设计新的.神经网络以外的深度模型:让智能体在弱监督条件下也能够学习,以及考虑开放动态任务环境下的学习. 播放 震撼!AI WORLD 2018世界人工智能峰会开场视频 南京大学计算机系主任.人工智能学院院

游戏音频技术备忘 (一) 关于游戏

大家好,随着游戏工业的发展,游戏音频相关技术变得越来越复杂,然而中文世界里相关的学习资料与文档始终难以找寻,游戏音频相关技术相较图形编程渲染领域在游戏开发技术中处于比较次要的位置,同时深耕声学音乐学与计算机相关学科难以实现兼顾平衡导致音效师,作曲家与程序员之间存在较为明显的分野,在个人的学习过程中也时常感到路途陡峭.在此整理分享一些过去积累的相关技术内容,如有疏漏不妥之处,尽请匡正. 暂且不考虑艺术和社会学范畴对游戏的定义,电子游戏作为一种特殊的计算机软件能够产生的交互,本质上与我们在电视机空调

关于大型网站技术演进的思考(一)--存储的瓶颈(上)

前不久公司请来了位互联网界的技术大牛跟我们做了一次大型网站架构的培训,两天12个小时信息量非常大,知识的广度和难度也非常大,培训完后我很难完整理出全部听到的知识,今天我换了个思路是回味这次培训,这个思路就是通过本人目前的经验和技术水平来思考下大型网站技术演进的过程. 首先我们要思考一个问题,什么样的网站才是大型网站,从网站的技术指标角度考虑这个问题人们很容易犯一个毛病就是认为网站的访问量是衡量的指标,懂点行的人也许会认为是网站在单位时间里的并发量的大小来作为指标,如果按这些标准那么像hao123

关于大型网站技术演进的思考--存储的瓶颈(转)

(一)第一部分 前不久公司请来了位互联网界的技术大牛跟我们做了一次大型网站架构的培训,两天12个小时信息量非常大,知识的广度和难度也非常大,培训完后我很难完整理出全部听到的知识,今天我换了个思路是回味这次培训,这个思路就是通过本人目前的经验和技术水平来思考下大型网站技术演进的过程. 首先我们要思考一个问题,什么样的网站才是大型网站,从网站的技术指标角度考虑这个问题人们很容易犯一个毛病就是认为网站的访问量是衡量的指标,懂点行的人也许会认为是网站在单位时间里的并发量的大小来作为指标,如果按这些标准那

&quot;简单设计&quot;的一点思考

简单设计是Xp技术实践中开发实践的核心实践,“简单也是价值观中智力色彩最强烈的”,然而,提到简单设计,大家更觉得像原则或者价值观,感觉上还是比较泛,我们不妨从下面的几个角度看一下  1. 为什么要简单设计 <1>. 简单的代码更容易读懂. <2>. 好的设计更能应对变化.  这两点是基于成本和收益考虑的,这里的价值是时间及金钱.更快的满足需求,减少复杂带来的故障排查.修复成本,代码大量修改或者重写成本.  2. 什么是简单设计 对一个团队来讲,简单设计就是团队中每个人都能轻松的读懂

[总结]视音频技术零基础学习方法

一直想把视音频编解码技术做一个简单的总结,可是苦于时间不充裕,一直没能完成.今天有着很大的空闲,终于可以总结一个有关视音频技术的入门教程,可以方便更多的人学习从零开始学习视音频技术.需要注意的是,本文所说的视音频技术,指的是理论层面的视音频技术,并不涉及到编程相关的东西. 0.     生活中的视音频技术 平时我们打开电脑中自己存电影的目录的话,一般都会如下图所示,一大堆五花八门的电影.(其实专业的影视爱好者一概会把影视文件分门别类的,但我比较懒,一股脑把电影放在了一起) 因为下载的来源不同,这

一点思考和新学年目标

今天是9月10号,教师节,也是我的新学年的开始. 这一点思考是关于什么呢? 昨天一个同学打电话跟我说,他想创业,成立一个技术团队做外包,问我是否有兴趣参加. 前天,一个新起的技术团队的HR找到我,说他们在找技术“人才”,问我想不想参加. 尽管现在有人认为我是“大神”,但是我还是有自知之明的,所以我把“人才”打上引号.但是我一直迈着脚步朝着“大神”的方向前进. 或许在两个月之前,我听到创业会很亢奋的,也会不犹豫的答应.但是我现在对这些并不敏感了,这并不意味着我没有“创业”的激情,只是我现在把他放在