语音交互技术——语音编码

1.语音编码目的:为了减少传输码率或存储量,以提高传输或存储的效率。经过这样的编码之后,同样的信道容量能传输更多路的信号,存储只需要较小容量的存储器。因而这类编码又称为压缩编码。压缩编码需要在保持可懂度与音质、降低数码率和降低编码过程的计算代价三方面折衷。

2.编码分类:波形编码、参数编码、混合编码。

波形编码器:没有使用模型,而是试图使重构的语音和原始语音之间的误差最小化。波形编码的方法简单,数码率较高,在64kbit/s至32kbit/s之间音质优良,例如脉冲编码调制PCM,自适应增量调制ADM等。

a.均匀量化PCM:

b.非均匀量化PCM:是对数压扩方法。编码时,利用语音信号的幅度统计特性,对幅度按对数变换进行压缩,然后再进行均匀量化。在语音信号中,样本的幅度值不是均匀分布的,信号大量地集中在小幅度值上。如果对小幅度样本使用小的量化间隔,进行精确量化,而对大幅度样本使用大的量化间隔,则既可成功地提高信噪比,又可避免大信号的过载。例如u
律变换、A律变换等。

c.自适应量化APCM:一个自适应量化器的量化间隔应自适应地改变,并与输入信号的幅度方差保持相匹配。

d.增量调制DM:

e.自适应预测编码APC:

f.子带编码:

参数编码:基于参数或模型的编码器提供了一种可用来模拟语音产生的模型,并从原始语音中提取可用来描述此模型的参数,然后随着语音信号特征的改变来周期地更新模型参数
。声码器编码后的码率可以做得很低,如1.2kbit/s、2.4kbit/s。缺点:合成语音质量较差,不自然,难辨认说话人。例如通道声码器、共振峰声码器、线性预测声码器等。

a.通道声码器(channel vocoder)

b.线性预测声码器(linear predictive vocoder)

c.多脉冲激励(multi-pulse excitation)

d.码激励线性预测编码(code excitation LPC)

混合编码:将波形编码和声码器的原理结合起来,数码率约在4kbit/s—16kbit/s之间,音质比较好,最近有个别算法所取得的音质可与波形编码相当,复杂程度介乎与波形编码器和声码器之间。例:多脉冲激励线性预测声码器(MPLPC),规则脉冲激励线性预测声码器(RPELPC),码激励线性预测声码器(CELP)。

3.矢量量化(vector
quantization):
将若干个取样信号分成一组,即构成一个矢量,然后对此矢量一次进行量化。将某一范围内的矢量归为某一类,即矢量量化。

矢量量化特点:有高度保密的优良性能;用于传输时,其传输速率可以进一步降低;稳定性能好。

两个问题:a.如何划分M个区域边界:这个过程称为“训练”或建立码书,方法是将大量的欲处理的信号的波形帧矢量或参数帧矢量进行统计划分,进一步确定这些划分边界的中心矢量值来得到码书。b.如何确定两矢量在进行比较时的测度:这个测度就是两矢量之间的距离,或以其中某一矢量为基准时的失真度。它描述了当输入矢量用码书所对应的矢量来表征时所应付出的代价。

均方误差:输入信号的某个k维矢量X,与码书中某个k维矢量Y进行比较,xi、yi分别表示X和Y的元素
(1≤i≤k),则定义均方误差为欧氏距离,即有

最佳码书:对于给定的区域边界Si,找出最佳码书矢量,使码书的平均失真最小,也就是得到码书yM

LBG算法:

4.语音编码的国际标准:

语音交互技术——语音编码,布布扣,bubuko.com

时间: 2024-11-18 06:20:11

语音交互技术——语音编码的相关文章

语音交互技术——语音基础

语音技术是研究用数字信号处理技术和机器学习方法对语音信号进行处理的一门学科.语音技术的目的: 得到某些参数以便高效传输或存储:或者是用于某种应用,如人工合成出语音.辨识出讲话者.识别出讲话内容.进行语音增强等. 语音编码:在保持可以接受的失真的情况下,采用尽可能少的比特数表示语音.脉冲编码调制(PCM).自适应预测编码.自适应变换编码.线性预测编码.线性预测声码器.共振峰声码器.相位声码器. 语音识别(ASR):把声音变成文字(耳朵的功能),相当于给机器装上了人工的耳朵.孤立词识别技术.连续语音

语音交互技术——语音信号特征提取

1.短时能量分析(音强),决定短时能量特性有两个条件:不同的窗口的形状和长度.窗长越长,频率分辨率越高,而时间分辨率越低(N为帧长,M为步长). *典型窗函数:矩形窗谱平滑性能好,但损失高频成分,波形细节丢失,海明窗与之相反.一帧内含1~7个基音周期,10kHz下采100~200点. 2.短时平均振幅分析:计算方法简单,但清浊音的区分不如能量明显. 3.短时过零分析:可以区分清音与浊音,浊音时具有较低的平均过零数,而清音时具有较高的平均过零数:可以从背景噪声中找出语音信号,可用于判断寂静无语音和

语音交互技术——线性预测编码(LPC)

1.LPC基本概念:一个语音的抽样能够用过去若干个语音抽样的线性组合来逼近.通过使实际语音抽样和线性预测抽样之间差值的平方和达到最小,能够决定唯一的一组预测系数.用于语音分析与合成,可估计许多语音基本参数:基音.共振峰.频谱.声道截面积等. 2.线性预测编码框架: 模型的系统函数H(z)的三种形式:AR模型易反映频谱中的峰值,MA模型易反映谷值,ARMA模型可同时反映两者. 3.LPC模型的求解(求解ai) a)自相关法: b)协方差法:参加卷积运算的语音不限于0-N-1窗内的语音,而是m=-P

简单剖析智能语音交互技术

机器学习和自然语言处理技术的进步为语音与人工智能的交互提供了可能.人们可以通过对话获得信息,并与机器互动,而机器将不再只存在于科幻小说中.语音交互是未来的发展方向.智能扬声器是语音交互着陆的第一代产品. 以市面上面流行的智能电话机器人为例,他的AI模块主要包含了4部分自动语音识别(Automatic Speech Recognition, ASR),自然语言理解(Natural Language Understanding, NLU),自然语言生成(Natural Language Genera

聚焦语音交互,引爆智能硬件——暨讯飞语音云沙龙杭州站成功举办

5月16日,"让世界聆听我们的声音"--2014年语音云开发者沙龙暨"聚焦语音交互引爆智能硬件"在杭州贝塔咖啡成功举办. 自2013年8月以来,由讯飞语音云举办的开发者沙龙已走过北京.上海.深圳.成都.合肥.厦门等地,与1000多名开发者亲密接触,爆棚的场面.忘我的分享和激烈的讨论,让我们更加坚信:移动互联网时代,语音交互将无处不在. 2014年被称为智能硬件元年,在2014全球移动互联网大会上,智能硬件成为主角, "下一个50亿"预示着智能硬件

转:IT巨头纷纷“卡位” 智能语音成人机交互入口必争之地

http://www.cs.com.cn/xwzx/hwxx/201707/t20170712_5368595.html 随着物联网的迅速发展,作为重要接口的智能语音技术已成为国内外IT巨头的必争之地.上周,阿里推出了自己的首款智能音箱产品,百度宣布收购美国语 音交互技术公司,而此前,亚马逊.谷歌.苹果.微软等硅谷巨头早已纷纷布局.有机构预计,未来几年智能语音行业将呈现爆发式增长.一场以智能音箱为终端的 物联网接口大战正如火如荼地展开. 物联网接口之争 随着人工智能从高冷的"黑科技"走

语音编码-简单理解

语音编码分为三大类: 1.波形编码 像PCM.ADPCM属于波形编码,该编码方式针对波形的每个样本点进行直接量化,或者利用波形之间的相关性进行压缩,去掉冗余,能够保持比较好的语音质量,但是编码速率要求高,压缩小. 2.参量编码 像LPC编码,Formant编码,vocoder编码等属于参量编码.该编码方式对语音信号进行建模,提取出能代表该段语音的声学参数,对代表模型的声学参数进行编码,解码端解码出模型参数,根据重建模型,恢复出语音波形.很明显,该编码方式的特点就是压缩大,速率要求低,但是语音质量

转: 智能音箱产业深度分析,你的客厅进入语音唤醒时代

原文网址: http://laoyaoba.com/ss6/html/57/n-645657.html 2014年亚马逊发布Echo音箱,率先引爆智能音箱市场,2015年,京东推出叮咚音箱,完成国内市场的从无到有.在语音交互技术发展的大背景下,智能音箱产品在提供内容娱乐.生活服务的同时,更多的接入到家庭生活场景中,成为智能家居的控制中心,以语音作为人口的物联网时代将会产生新的商业模式. 根据易观的定义,智能音箱是在传统音箱基础上增加了智能化功能,这功能体现 在两方面:一.技术上具备WiFi连接,

破局人工智能:构建AI,与腾讯云一起探索语音应用场景

本文来自腾讯云技术沙龙,本次沙龙主题为AI平台及智能语音应用解析 近年来,人工智能技术快速发展,与其他行业的结合也成为业界不断探索的方向.在人工智能基础和工具方面,AI平台已成为降低人工智能门槛的关键因素:而在人工智能应用方面,作为最成熟的应用方向之一,智能语音已在智能家居.智能车载等领域有了迅猛发展.以腾讯为代表的巨头企业,凭借强大的技术积累和在社交聊天.游戏娱乐等垂直领域定制化服务的丰富经验,在AI平台和智能语音两方面都推出了丰富的解决方案. 依照现状,AI平台如何降低人工智能门槛,帮助企业