语音交互技术——语音信号特征提取

1.短时能量分析(音强),决定短时能量特性有两个条件:不同的窗口的形状和长度。窗长越长,频率分辨率越高,而时间分辨率越低(N为帧长,M为步长)。

*典型窗函数:矩形窗谱平滑性能好,但损失高频成分,波形细节丢失,海明窗与之相反。一帧内含1~7个基音周期,10kHz下采100~200点。

2.短时平均振幅分析:计算方法简单,但清浊音的区分不如能量明显。

3.短时过零分析:可以区分清音与浊音,浊音时具有较低的平均过零数,而清音时具有较高的平均过零数;可以从背景噪声中找出语音信号,可用于判断寂静无语音和有语音的起点和终点位置。

4.短时相关分析:自相关用于研究信号本身,如信号波形的同步性、周期性等。用来区分清音和浊音,因为浊音信号是准周期性的,对浊音语音可以用自相关函数求出语音波形序列的基音周期;另外在进行语音信号的线性预测分析时,也要用到短时自相关函数。

4.短时平均幅度差:短时平均幅度差计算加、减法和和取绝对值的运算,与自相关函数的相加与相乘的运算相比,其运算量大大减小,尤其在硬件实现语音信号分析时有很大好处。为此,AMDF已被用在许多实时语音处理系统中。

5.短时傅里叶变换:

6.语音信号的倒谱分析:求语音倒谱特征参数,通过同态处理(将非线性问题转化为线性问题)来实现。同态处理(同态滤波):解卷,将卷积关系变为求和处理。
将语音信号的声门激励和声道响应分离开。

7.基音周期的提取:

a)自相关法:峰—峰值之间对应的就是基音周期。为去除声道影响,一般进行中心削波的非线性变换(削除低幅部分)。

b)倒谱法:图a为ln|X(ejw)|的示意图,包括频谱包络的慢变分量,基音谐波峰值的快变分量。再取一次傅里叶反变换,即可将快慢分量分离开。

基音周期后处理:中值平滑、线性平滑、组合平滑。

时间: 2024-11-03 03:25:25

语音交互技术——语音信号特征提取的相关文章

语音交互技术——语音基础

语音技术是研究用数字信号处理技术和机器学习方法对语音信号进行处理的一门学科.语音技术的目的: 得到某些参数以便高效传输或存储:或者是用于某种应用,如人工合成出语音.辨识出讲话者.识别出讲话内容.进行语音增强等. 语音编码:在保持可以接受的失真的情况下,采用尽可能少的比特数表示语音.脉冲编码调制(PCM).自适应预测编码.自适应变换编码.线性预测编码.线性预测声码器.共振峰声码器.相位声码器. 语音识别(ASR):把声音变成文字(耳朵的功能),相当于给机器装上了人工的耳朵.孤立词识别技术.连续语音

语音交互技术——语音编码

1.语音编码目的:为了减少传输码率或存储量,以提高传输或存储的效率.经过这样的编码之后,同样的信道容量能传输更多路的信号,存储只需要较小容量的存储器.因而这类编码又称为压缩编码.压缩编码需要在保持可懂度与音质.降低数码率和降低编码过程的计算代价三方面折衷. 2.编码分类:波形编码.参数编码.混合编码. 波形编码器:没有使用模型,而是试图使重构的语音和原始语音之间的误差最小化.波形编码的方法简单,数码率较高,在64kbit/s至32kbit/s之间音质优良,例如脉冲编码调制PCM,自适应增量调制A

Android讯飞语音云语音听写学习

讯飞语音云语音听写学习         这几天两个舍友都买了iPhone 6S,玩起了"Hey, Siri",我依旧对我的Nexus 5喊着"OK,Google".但种种原因,国内的"OK,Google"并不能展示出他的全部威力,于是上网搜索国内Android平台的语音助手,个人觉得评价最好的是讯飞的--灵犀语音助手.其实讯飞语音云平台早就注册过了,并下载了相应的SDK,只是没仔细研究.今天突然想好好学习一下,以方便以后集成到自己开发的APP中,

科大讯飞(1) 语音听写(语音转换成文字)

一.科大讯飞开放平台: http://www.xfyun.cn/ 注册.登录之后创建新应用. 因为本项目只实现了语音听写,所以在SDK下载中心勾选语音听写单项SDK就可以了 开发平台选择iOS,应用选择你要实现语音听写的应用,然后点击"下载SDK"按钮 程序中会用到Appid,程序中导入的SDK一定是要与这个应用相关联的SDK,下载下来的SDK压缩包就是以Appid结尾命名的. 二.项目配置 官方文档:http://www.xfyun.cn/doccenter/iOS 1.添加静态库

C# 语音识别(文字to语音、语音to文字)

C# 语音识别(文字to语音.语音to文字) 最近打算研究一下语音识别,但是发现网上很少有C#的完整代码,就把自己的学习心得放上来,和大家分享一下. 下载API: 1)SpeechSDK51.exe                   (67.0 MB) 2)SpeechSDK51LangPack.exe     (81.0 MB) API可以不下载,但是如果你的VS是英文版,但是想使用中文的语音,那你就需要下载API,按顺序安装好. (PS:我的VS是英文的,不能说中文,为了这个我纠结了一上午

UI进阶 科大讯飞(1) 语音听写(语音转换成文字)

一.科大讯飞开放平台: http://www.xfyun.cn/ 注册.登录之后创建新应用. 因为本项目只实现了语音听写,所以在SDK下载中心勾选语音听写单项SDK就可以了 开发平台选择iOS,应用选择你要实现语音听写的应用,然后点击"下载SDK"按钮 程序中会用到Appid,程序中导入的SDK一定是要与这个应用相关联的SDK,下载下来的SDK压缩包就是以Appid结尾命名的. 二.项目配置 官方文档:http://www.xfyun.cn/doccenter/iOS 1.添加静态库

语音交互技术——线性预测编码(LPC)

1.LPC基本概念:一个语音的抽样能够用过去若干个语音抽样的线性组合来逼近.通过使实际语音抽样和线性预测抽样之间差值的平方和达到最小,能够决定唯一的一组预测系数.用于语音分析与合成,可估计许多语音基本参数:基音.共振峰.频谱.声道截面积等. 2.线性预测编码框架: 模型的系统函数H(z)的三种形式:AR模型易反映频谱中的峰值,MA模型易反映谷值,ARMA模型可同时反映两者. 3.LPC模型的求解(求解ai) a)自相关法: b)协方差法:参加卷积运算的语音不限于0-N-1窗内的语音,而是m=-P

简单剖析智能语音交互技术

机器学习和自然语言处理技术的进步为语音与人工智能的交互提供了可能.人们可以通过对话获得信息,并与机器互动,而机器将不再只存在于科幻小说中.语音交互是未来的发展方向.智能扬声器是语音交互着陆的第一代产品. 以市面上面流行的智能电话机器人为例,他的AI模块主要包含了4部分自动语音识别(Automatic Speech Recognition, ASR),自然语言理解(Natural Language Understanding, NLU),自然语言生成(Natural Language Genera

语音信号中的特征提取

原文链接地址:http://blog.csdn.net/u010451580/article/details/51178190 一.语音的产生简介 1.1   发音器官 人体的语音是由人体的发音器官在大脑的控制下做生理运动产生的.人体发音器官由三部分组成:肺和气管.喉.声道. 肺是语音产生的能源所在.气管连接着肺和喉,是肺与声道的联系通道.喉是由一个软骨和肌肉组成的复杂系统,其中包含着重要的发音器官--声带.声带为产生语音提供主要的激励源.声道是指声门(喉)至嘴唇的所有发音器官,包括咽喉.口腔和