数字语音信号处理学习笔记——绪论(2)

1.2.2 语音编码

语音编码的目的是在保证一定语音质量的前提下,尽可能降低编码比特率,以节省频率资源。

语音编码技术的鼻祖:

研究开始于1939年军事保密通信的需要,贝尔电话实验室的Homer Dudley提出并实现了在低频带宽电话电报电缆上传输语音信号的通道声码器。

20世纪70年代:国际电联(ITU-T,原CCITT)64kbit/s脉冲编码调制(PCM)语音编码算法的G.711建议,它被广泛应用于数字通信、数字交换机等领域,从而占据统治地位。

1980年:美国政府公布了一种2.4kbit/s的线性预测编码标准算法LPC-10,这使得在普通电话带宽中传输数字电话成为可能。ITU-T也于20世纪80年代初着手研究低于64kbit/s的非PCM编码算法,并于1984年通过了32kbit/s ADPCM语音编码G.721建议,它不仅可以达到与PCM相同的语音质量,而且具有更优良的抗误码性能。1988年美国又公布了一个4.8kbit/s的码激励线性预测(CELP)编码算法。与此同时,欧洲也推出了一个16kbit/s的规则脉冲激励线性预测(RPE-LPC)编码算法。

20世纪90年代:随着因特网在全球范围的兴起,人们对能在网络上传输语音的VoIP技术兴趣大增,由此,IP分组语音通信技术获得了突破性进展和实际应用。

20世纪90年代中期到现在,第三代移动通信技术逐渐成熟并走向商用,变速率语音编码和带宽语音编码得到了迅速的发展,不断有新的国际标准和地区标准公布。

语音编码技术主要有两个努力的方向:一是中低速率的语音编码的实用化及如何在实用化过程中进一步提高其抗干扰、抗噪声能能力;另一个是如何进一步降低其编码速率。

1.2.3 语音识别

与机器进行语音交流,让机器明白你说什么,这是人们长期以往梦寐以求的事情。而语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高科技。根据在不同限制条件下的研究任务,产生了不同的研究研究领域。这些领域包括:

1) 根据对说话人说话方式的要求,可以分为孤立字语音识别系统、连续字语音识别系统及连续语音识别系统

2) 根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统

3) 根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量及无限词汇量语音识别系统

语音识别工作开始:

20世纪50年代:AT&T贝尔实验室的Audry系统,它是第一个可以识别10个英语数字的语音识别系统。

1956年:RAC实验室的Olson等人也独立地研制出了10个单音节词的识别系统,系统采用从带通滤波器组获得的                       频谱参数作为语音的特征。

1959年:Fry和Denes等人采用频谱分析和模式匹配进行识别决策构建音素识别器来辨别4个元音和9个辅音。

MIT林肯实验室采用声道的时变估计技术研究10个元音的识别

20世纪60年代末:重要成果是提出了动态规划(DP)和线性预测编码(LPC)分析技术,其中后者较好地解决                                        了语音信号产生模型的问题,对整个语音识别、语音合成、语音分析、语音编码的研究发展产                                      生了深远影响。

20世纪70年代:在理论上,LPC技术得到进一步发展,动态时间规整(DTW)技术基本成熟,特别是提出了矢                                    量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,首先在孤立词识别方面,由日本学

者Sakoe给出了使用动态规划方法(DP)进行语音识别的途径——DP算法。Itakura基于语音编                                    码中广泛使用的LPC技术,通过定义基于LPC频谱参数的合适的距离测度,成功地将其应用到语                                  音识别中。同时,以IBM为首的一些语音研究单位还着手开展了连续语音识别的研究。

20世纪70年代末到20世纪80年代初:Linda、Buzo、Gray等人解决了矢量量化码本生成的方法,并将矢量量化成                                                                   功地应用到语音编码中,从此矢量量化技术很快被推广应用到其他领域。

20世纪80年代开始:语音识别研究进一步走向深入,就是识别算法从模式匹配技术转向基于统计模型的技术,更                                         多地追求从整体统计的角度来建立最佳的语音识别系统。HMM技术就是其中的一个典型技                                           术。

20世纪80年代中期:重新开始的人工神经网络(ANN)研究,也给语音识别带来一片新的生机。

20世纪90年代初期:许多发达国家如美国、日本以及IBM、Apple、AT&T、NTT等著名公司都为语音识别系统的                                         实用化开发研究投以巨资。

如今,深度神经网络(DNN)在语音领域的应用,使得语音识别性能又上了一个新的台阶。

1.3 语音信号处理过程的总体结构

数字语音信号处理学习笔记——绪论(2)

时间: 2024-12-30 02:12:00

数字语音信号处理学习笔记——绪论(2)的相关文章

数字语音信号处理学习笔记——绪论(1)

1.绪论 1.1概述 语言是人类交换信息最方便.最快捷的一种方式,在高度发达的信息社会中,用数字化的方法进行语音的传送.存储.识别.合成和增强等是整个数字化通信网中最重要.最基本的组成部分之一. 语音信号处理技术主要可以应用到: 1) 数字电话通信 2) 高音质的窄带语音通信系统 3) 语言学习机 4) 声控打字机 5) 自动翻译机 6) 智能机器人 7) 新一代计算机语音智能终端 8) 许多军事上的应用 语音信号处理是一门新兴的边缘科学,它是语音学与数字信号处理两个学科相结合的产物.它和认知科

数字语音信号处理学习笔记——语音信号的同态处理(2)

5.4 复倒谱和倒谱 定义       设信号x(n)的z变换为X(z) = z[x(n)],其对数为: (1) 那么的逆z变换可写成: (2) 取(1)式则有 (3) 于是式子(2)则可以写成       (4) 则式子(4)即为信号x(n)的复倒谱的定义.因为一般为复数,故称为复倒谱.如果对的绝对值取对数,得 (5) 则为实数,由此求出的倒频谱c(n)为实倒谱,简称为倒谱,即 (6) 在(3)式中,实部是可以取唯一值的,但对于虚部,会引起唯一性问题,因此要求相角为w的连续奇函数. 性质: 为

数字语音信号处理学习笔记——语音信号的数字模型(3)

2.4 语音的感知       2.4.1 几个概念       语音的听觉感知是一个复杂的人脑-心理过程.对听觉感知的研究还很不成熟.听觉感知的试验主要还在测试响度.音高和掩蔽效应等.人耳听觉界限的范围大约为20Hz~20kHz.在频率范围低端,感觉声音变成低频脉冲串,在高端感觉声音减小直至完全听不到一点儿声响.语音感知的强度范围是0~130dB声压级,声音强度太高,感到难以忍受,强度太低则感到寂静无声. 1.响度 这是频率和强度级的函数.通常用响度(单位为宋)和响度级(单位为方)来表示. 人

数字语音信号处理学习笔记——语音信号的短时时域分析(1)

3.1 概述 语音信号是一种非平稳的时变信号,它携带着各种信息.在语音编码.语音合成.语音识别和语音增强等语音处理中都需要提取语音中包含的各种信息.一般而言语音处理的目的有两种:一种是对语音信号进行分析,提取特征参数,用于后续处理:另一种是加工语音信号,例如在语音增强中对含噪语音进行背景噪声抑制,以获得相对"干净"的语音:在语音合成方中需要对分段语音进行拼接平滑,获得主观音质较高的合成语音,这方面的应用同样是建立在分析并提取语音信号信息的基础上的.总之,语音信号分析的目的就在于方便有效

数字语音信号处理学习笔记——同态处理语音信号(1)

5.1 概要 进行处理的方法,它能将两个信号通过乘法合成的信号,或通过卷积合成的信号分开. 对于语音信号.我们的目的是要从声道冲激对应与激励分量的卷积中分开各原始分量. 由卷积结果求得參与卷积的各个信号分量是涉及数字信号处理理论的一项任务,称为"解卷积"或简称"解卷". 对语音信号进行同态分析后.将得到语音信号的倒谱參数,因此同态分析也称为倒谱分析或同态处理. 5.2 叠加原理和广义叠加原理      对于一个线性系统来说,其输入输出的关系服从叠加原理.叠加原理能够

数字语音信号处理学习笔记——语音信号的短时频域分析(2)

4.3 滤波器的解释       1.短时傅里叶变换的滤波器实现形式一 watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvam9qb3poYW5nanU=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" > watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvam9qb3poYW5nanU=/font/5a6L

编译原理学习笔记 -- 绪论1

1. 语言处理器 语言处理系统 _________ 经过预 _______ 源程序 --> |预处理器| --> 处理的 --> |编译器| --> 目标汇编程序 -------- 源程序 ------- _______ 可重定位的 ______________ --> |汇编器| --> 机器代码 --> |链接器/加载器| --> 目标机器代码 ------- -------------- ↑ 库文件/可重定位对象文件 预处理器:把源程序聚合在一起,并宏

数据结构学习笔记——绪论

数据结构学习笔记——绪论 为了更贴切的描述一种数据结构,通常采用二元组表示:(对于一种数据结构其逻辑结构唯一) B=(D,R)其中,B是一种数据结构,它由数据元素的集合D和D上二元关系的集合R所组成.即D={ di | 1 <= i<= n, n > 0}R={ rj | 1 <= j<= n, n > 0}D 上的一个关系r是序偶的集合,对于r中任一序偶<x,y>(x,y属于集合D),把x叫做偶序第一节点,把y叫做偶序第二结点,又称序偶的第 一结点为第二结

[离散时间信号处理学习笔记] 11. 连续时间信号的采样与重构

这一节主要讨论采样定理,在<傅里叶变换及其应用及其学习笔记>中有进行过推导与讲解,因此下面的内容也大同小异.不过如果是从<离散时间信号处理>这一本书的内容开始学习到这一节,则应先学习本文内容所需要的一些前置知识:傅里叶变换(连续时间),主要用到的是脉冲函数$\delta$,以及周期脉冲函数Ш的傅里叶变换与相关性质. 周期采样 假设有连续信号$x_c(t)$,我们需要通过对该信号进行采样才能得到离散信号,即样本序列$x[n]$.连续信号与离散信号有以下关系: $x[n] = x_c(