语音信号短时域分析之短时平均能量(四)

由于语音信号的能量随时间而变化,清音和浊音之间的能量差别相当显著,因此对短时能量和短时平均幅度进行分析,可以描述语音的这种特征变换情况。定义n时刻某语音信号的短时平均能量E为:

式中,N为窗长,可见短时能量为一帧样点值的加权平方和。当窗函数为矩形窗时

短时平均能量用途:

(1) 可以作为区分清音和浊音的特征参数;

(2) 在信噪比比较高的情况下,短时能量可以作为区分有声和无声的依据;

(3) 可以作为辅助的特征参数用于语音识别中。

其中短时能量matlab代码如下:

x = wavread('beijing.wav');
%计算N=50,帧移=20时的语音能量
s=fra(50,20,x);
s2=s.^2;                    %一帧内各样点的能量
energy=sum(s2,2);            %求一帧能量
subplot(2,2,1);               %定义画图数量和布局
plot(energy);                %画N=50时的语音能量图
xlabel('帧数');               %横坐标
ylabel('短时能量 E');         %纵坐标
legend('N=50');              %曲线标识
axis([0,1500,0,2*10^10]);      %定义横纵坐标范围

取不同帧时能量如下图:

其中,fra()为分帧函数,matlab代码如下:

function f=fra(len,inc,x)
fh=fix(((size(x,1)-len)/inc)+1)
f=zeros(fh,len);
i=1;n=1;
while i<=fh
    j=1;
    while j<=len
        f(i,j)=x(n);
        j=j+1;n=n+1;
    end
    n=n-len+inc;
    i=i+1;
end

语音信号短时域分析之短时平均能量(四)

时间: 2024-10-10 04:02:03

语音信号短时域分析之短时平均能量(四)的相关文章

语音信号短时域分析之预处理(三)

语音信号是一种非平稳的时变信号,它携带着各种信息.一般而言语音处理目的有两种,一种是对语音信号进行分析,提取特征参数,用于后续处理:一种是加工语音信号,如在语音增强中对含噪语音进行背景噪声抑制,以获得相对"干净"的语音. 根据分析参数不同,可分为时域分析和变换域(频域.倒谱域)分析,其中时域分析是最简单.最直观的方法,它直接对语音信号的时域波形进行分析提取主要有语音短时能量和平均幅度.短时平均过零率.短时自相关函数和短时平均幅度差函数等. 实际的语音信号是模拟信号,因此在对语音信号进行

《语音信号处理》《第2章 语音信号的声学基础及产生模型》

语音学三个分支: 1. 发音语音学 2. 声学语音学----进一步出现了声音模拟.语音合成.语音识别 3. 听觉语音学和心理语言学----研究人耳和大脑 本章介绍语音产生的过程及人耳的听觉过程,传统的线性语音产生模型以及目前广泛受到重视的非线性 语音产生模型,这些都是从事语音信号处理研究的基础知识. 2.1 语音信号的产生 声带振动产生声音,这是产生声音的基本声源,称为声带音源. 基音周期 基音频率 80Hz - 500Hz 声道 浊音 voiced sound 声带振动产生的 清音 unvoi

数字语音信号处理学习笔记——语音信号的短时时域分析(1)

3.1 概述 语音信号是一种非平稳的时变信号,它携带着各种信息.在语音编码.语音合成.语音识别和语音增强等语音处理中都需要提取语音中包含的各种信息.一般而言语音处理的目的有两种:一种是对语音信号进行分析,提取特征参数,用于后续处理:另一种是加工语音信号,例如在语音增强中对含噪语音进行背景噪声抑制,以获得相对"干净"的语音:在语音合成方中需要对分段语音进行拼接平滑,获得主观音质较高的合成语音,这方面的应用同样是建立在分析并提取语音信号信息的基础上的.总之,语音信号分析的目的就在于方便有效

语音信号的“短时时域”分析

语音信号的预处理 语音信号的频带范围通常是300~3400Hz,一般情况下取采样率为8kHz,本博客的部分代码采用的是已经数字化了的语音. 预加重 预加重的目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率. 一般通过使用一阶FIR高通数字滤波器来实现预加重,滤波器函数为: $$H(z)=1-\alpha z^{-1}$$ 其中$\alpha $为预加重系数,$0.9<\alpha<1.0$, 设n时刻的语音采样值为$x(n)$,经过预加重处理后的结果为$y(n)=x

语音信号中的特征提取

原文链接地址:http://blog.csdn.net/u010451580/article/details/51178190 一.语音的产生简介 1.1   发音器官 人体的语音是由人体的发音器官在大脑的控制下做生理运动产生的.人体发音器官由三部分组成:肺和气管.喉.声道. 肺是语音产生的能源所在.气管连接着肺和喉,是肺与声道的联系通道.喉是由一个软骨和肌肉组成的复杂系统,其中包含着重要的发音器官--声带.声带为产生语音提供主要的激励源.声道是指声门(喉)至嘴唇的所有发音器官,包括咽喉.口腔和

【自动语音识别课程】第二课 语音信号分析

[传送门] [自动语音识别课程]第一课 统计语音识别介绍 原文地址:http://blog.csdn.net/joey_su/article/details/36414877 转载请注明出处,欢迎交流. 概述 针对ASR的语音信号分析 特征 频谱分析 倒谱分析 标准特征:MFCC和PLP分析 动态特征 第一课的结尾提到了语音识别的框图,下图展示了信号分析技术在语音识别系统中的位置: 我们先来认识下语音的产生过程: 语音是在发音器官和声道共同作用下产生的.说话时,声带振动发出具有一定周期特性(基音

语音信号实时采集与处理

<一>基于MATLAB的语音信号采集和分析系统的可视化设计 论文摘要:设计和开发了一种基于MATLAB的语音采集与分析的可视化系统,该系统通过Realtek Ac97型声卡和MATLAB的数据采集工具箱低成本地实现了语音信号的实时采集,并利用 MATLAB 强大的数值计算和信号处理功能高精度地完成了语音信号的分析工作.系统还使用 MATLAB 的图形用户界面设计工具进行了优化,通过简单的对话框和菜单操作取代了复杂的程序修改和调试过程,使得系统的使用更加方便灵活. 论文理解:系统主要包括语音采集

语音交互技术——语音信号特征提取

1.短时能量分析(音强),决定短时能量特性有两个条件:不同的窗口的形状和长度.窗长越长,频率分辨率越高,而时间分辨率越低(N为帧长,M为步长). *典型窗函数:矩形窗谱平滑性能好,但损失高频成分,波形细节丢失,海明窗与之相反.一帧内含1~7个基音周期,10kHz下采100~200点. 2.短时平均振幅分析:计算方法简单,但清浊音的区分不如能量明显. 3.短时过零分析:可以区分清音与浊音,浊音时具有较低的平均过零数,而清音时具有较高的平均过零数:可以从背景噪声中找出语音信号,可用于判断寂静无语音和

语音信号的梅尔频率倒谱系数(MFCC)的原理讲解及python实现

梅尔倒谱系数(MFCC) 梅尔倒谱系数(Mel-scale FrequencyCepstral Coefficients,简称MFCC).依据人的听觉实验结果来分析语音的频谱, MFCC分析依据的听觉机理有两个 第一Mel scale:人耳感知的声音频率和声音的实际频率并不是线性的,有下面公式 $$f_{mel}=2595*\log _{10}(1+\frac{f}{700})$$ $$f = 700 (10^{f_{mel}/2595} - 1)$$ 式中$f_{mel}$是以梅尔(Mel)为