1.2.2 语音编码
语音编码的目的是在保证一定语音质量的前提下,尽可能降低编码比特率,以节省频率资源。
语音编码技术的鼻祖:
研究开始于1939年军事保密通信的需要,贝尔电话实验室的Homer Dudley提出并实现了在低频带宽电话电报电缆上传输语音信号的通道声码器。
20世纪70年代:国际电联(ITU-T,原CCITT)64kbit/s脉冲编码调制(PCM)语音编码算法的G.711建议,它被广泛应用于数字通信、数字交换机等领域,从而占据统治地位。
1980年:美国政府公布了一种2.4kbit/s的线性预测编码标准算法LPC-10,这使得在普通电话带宽中传输数字电话成为可能。ITU-T也于20世纪80年代初着手研究低于64kbit/s的非PCM编码算法,并于1984年通过了32kbit/s ADPCM语音编码G.721建议,它不仅可以达到与PCM相同的语音质量,而且具有更优良的抗误码性能。1988年美国又公布了一个4.8kbit/s的码激励线性预测(CELP)编码算法。与此同时,欧洲也推出了一个16kbit/s的规则脉冲激励线性预测(RPE-LPC)编码算法。
20世纪90年代:随着因特网在全球范围的兴起,人们对能在网络上传输语音的VoIP技术兴趣大增,由此,IP分组语音通信技术获得了突破性进展和实际应用。
20世纪90年代中期到现在,第三代移动通信技术逐渐成熟并走向商用,变速率语音编码和带宽语音编码得到了迅速的发展,不断有新的国际标准和地区标准公布。
语音编码技术主要有两个努力的方向:一是中低速率的语音编码的实用化及如何在实用化过程中进一步提高其抗干扰、抗噪声能能力;另一个是如何进一步降低其编码速率。
1.2.3 语音识别
与机器进行语音交流,让机器明白你说什么,这是人们长期以往梦寐以求的事情。而语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高科技。根据在不同限制条件下的研究任务,产生了不同的研究研究领域。这些领域包括:
1) 根据对说话人说话方式的要求,可以分为孤立字语音识别系统、连续字语音识别系统及连续语音识别系统
2) 根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统
3) 根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量及无限词汇量语音识别系统
语音识别工作开始:
20世纪50年代:AT&T贝尔实验室的Audry系统,它是第一个可以识别10个英语数字的语音识别系统。
1956年:RAC实验室的Olson等人也独立地研制出了10个单音节词的识别系统,系统采用从带通滤波器组获得的 频谱参数作为语音的特征。
1959年:Fry和Denes等人采用频谱分析和模式匹配进行识别决策构建音素识别器来辨别4个元音和9个辅音。
MIT林肯实验室采用声道的时变估计技术研究10个元音的识别
20世纪60年代末:重要成果是提出了动态规划(DP)和线性预测编码(LPC)分析技术,其中后者较好地解决 了语音信号产生模型的问题,对整个语音识别、语音合成、语音分析、语音编码的研究发展产 生了深远影响。
20世纪70年代:在理论上,LPC技术得到进一步发展,动态时间规整(DTW)技术基本成熟,特别是提出了矢 量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,首先在孤立词识别方面,由日本学
者Sakoe给出了使用动态规划方法(DP)进行语音识别的途径——DP算法。Itakura基于语音编 码中广泛使用的LPC技术,通过定义基于LPC频谱参数的合适的距离测度,成功地将其应用到语 音识别中。同时,以IBM为首的一些语音研究单位还着手开展了连续语音识别的研究。
20世纪70年代末到20世纪80年代初:Linda、Buzo、Gray等人解决了矢量量化码本生成的方法,并将矢量量化成 功地应用到语音编码中,从此矢量量化技术很快被推广应用到其他领域。
20世纪80年代开始:语音识别研究进一步走向深入,就是识别算法从模式匹配技术转向基于统计模型的技术,更 多地追求从整体统计的角度来建立最佳的语音识别系统。HMM技术就是其中的一个典型技 术。
20世纪80年代中期:重新开始的人工神经网络(ANN)研究,也给语音识别带来一片新的生机。
20世纪90年代初期:许多发达国家如美国、日本以及IBM、Apple、AT&T、NTT等著名公司都为语音识别系统的 实用化开发研究投以巨资。
如今,深度神经网络(DNN)在语音领域的应用,使得语音识别性能又上了一个新的台阶。
1.3 语音信号处理过程的总体结构
数字语音信号处理学习笔记——绪论(2)