语音信号的“短时时域”分析

语音信号的预处理

语音信号的频带范围通常是300~3400Hz,一般情况下取采样率为8kHz,本博客的部分代码采用的是已经数字化了的语音。

预加重

  预加重的目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率

  一般通过使用一阶FIR高通数字滤波器来实现预加重,滤波器函数为:

  $$H(z)=1-\alpha z^{-1}$$

  其中$\alpha $为预加重系数,$0.9<\alpha<1.0$,

  设n时刻的语音采样值为$x(n)$,经过预加重处理后的结果为$y(n)=x(n)-\alpha x(n-1)$,这里$\alpha=0.98$,

我们先来看看高通滤波器的幅频和相频响应:

clear;
[h1,f1]=freqz([1,-0.98],[1],256,4000);%高通滤波器
pha=angle(h1);           %高通滤波器的相位
H1=abs(h1);             %高通滤波器的幅值
figure(1);subplot(211);
plot(f1,H1);title(‘高通滤波器的幅频响应‘);
xlabel(‘频率/Hz‘);ylabel(‘幅度‘);
subplot(212);plot(pha);title(‘高通滤波器的相位响应‘);
xlabel(‘频率/Hz‘);ylabel(‘角度/radians‘);

原始语音信号和经过滤波后的语音信号

fid=fopen(‘voice2.txt‘,‘rt‘);    %打开语音数字化文件
e=fscanf(fid,‘%f‘);          %读数据

ee=e(200:455);            %选取原始文件e的第200到455点的语音,也可选其他样点
figure(2);subplot(211);plot(ee);title(‘原始语音信号‘);
xlabel(‘样点数‘);ylabel(‘幅度‘);
axis([0 256 -3*10^4 2*10^4]);

r=fft(ee,1024);             %对信号ee进行1024点傅立叶变换
un=filter([1,-0.98],[1],ee);  %un为经过高频提升后的时域信号
subplot(212);plot(real(un));title(‘经高通滤波后的语音信号‘);
xlabel(‘样点数‘);ylabel(‘幅度‘);
axis([0 256 -1*10^4 1*10^4]);

原始语音信号频率和经过滤波后的语音信号频率

clear;
fid=fopen(‘voice2.txt‘,‘rt‘);    %打开语音数字化文件
e=fscanf(fid,‘%f‘);          %读数据
ee=e(200:455);            %选取原始文件e的第200到455点的语音,也可选其他样点
r=fft(ee,1024);             %对信号ee进行1024点傅立叶变换
r1=abs(r);                 %对r取绝对值 r1表示频谱的幅度值
pinlv=(0:1:255)*8000/512;    %点和频率的对应关系
yuanlai=20*log10(r1);       %对幅值取对数
signal(1:256)=yuanlai(1:256);%取256个点,目的是画图的时候,维数一致
figure(1);subplot(211);plot(pinlv,signal);title(‘原始语音信号频谱‘);
xlabel(‘频率/Hz‘);ylabel(‘幅度/dB‘);

r2(1:256)=r(1:256);
[h1,f1]=freqz([1,-0.98],[1],256,4000);%高通滤波器
u=r2.*h1‘;               % 将信号频域与高通滤波器频域相乘 相当于在时域的卷积
u2=abs(u);              %取幅度绝对值
u3=20*log10(u2);        %对幅值取对数
subplot(212);plot(pinlv,u3);title(‘经高通滤波后的语音信号频谱‘);
xlabel(‘频率/Hz‘);
ylabel(‘幅度/dB‘);

原文地址:https://www.cnblogs.com/LXP-Never/p/10452942.html

时间: 2024-08-28 23:49:18

语音信号的“短时时域”分析的相关文章

数字语音信号处理学习笔记——语音信号的短时时域分析(1)

3.1 概述 语音信号是一种非平稳的时变信号,它携带着各种信息.在语音编码.语音合成.语音识别和语音增强等语音处理中都需要提取语音中包含的各种信息.一般而言语音处理的目的有两种:一种是对语音信号进行分析,提取特征参数,用于后续处理:另一种是加工语音信号,例如在语音增强中对含噪语音进行背景噪声抑制,以获得相对"干净"的语音:在语音合成方中需要对分段语音进行拼接平滑,获得主观音质较高的合成语音,这方面的应用同样是建立在分析并提取语音信号信息的基础上的.总之,语音信号分析的目的就在于方便有效

数字语音信号处理学习笔记——语音信号的短时频域分析(2)

4.3 滤波器的解释       1.短时傅里叶变换的滤波器实现形式一 watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvam9qb3poYW5nanU=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" > watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvam9qb3poYW5nanU=/font/5a6L

语音信号分析

所谓的语音信号分析就是提取表征语音特征的信息,以进行后续的处理:语音识别.说话人识别等.语音特征信息及特征参数的提取.由于语音信号具有短时平稳特性,及在短时内特征参数稳定不变,一般时长为10~30ms,故通常将语音分帧处理,以获得稳定的特征参数.综上,对于一段语音信号,分析时通常表示为由每一帧特征参数组成的特征参数序列. 语音信号处理基本步骤: 端点检测(VAD)切除静音 1预滤波.采样.(A\D)转换 2编码(常用格式PCM ALAW MULAW) 3预处理:(处理已经数字化的信号) 预加重加

语音信号短时域分析之短时平均能量(四)

由于语音信号的能量随时间而变化,清音和浊音之间的能量差别相当显著,因此对短时能量和短时平均幅度进行分析,可以描述语音的这种特征变换情况.定义n时刻某语音信号的短时平均能量E为: 式中,N为窗长,可见短时能量为一帧样点值的加权平方和.当窗函数为矩形窗时 短时平均能量用途: (1) 可以作为区分清音和浊音的特征参数: (2) 在信噪比比较高的情况下,短时能量可以作为区分有声和无声的依据: (3) 可以作为辅助的特征参数用于语音识别中. 其中短时能量matlab代码如下: x = wavread('b

语音信号中的特征提取

原文链接地址:http://blog.csdn.net/u010451580/article/details/51178190 一.语音的产生简介 1.1   发音器官 人体的语音是由人体的发音器官在大脑的控制下做生理运动产生的.人体发音器官由三部分组成:肺和气管.喉.声道. 肺是语音产生的能源所在.气管连接着肺和喉,是肺与声道的联系通道.喉是由一个软骨和肌肉组成的复杂系统,其中包含着重要的发音器官--声带.声带为产生语音提供主要的激励源.声道是指声门(喉)至嘴唇的所有发音器官,包括咽喉.口腔和

语音信号短时域分析之预处理(三)

语音信号是一种非平稳的时变信号,它携带着各种信息.一般而言语音处理目的有两种,一种是对语音信号进行分析,提取特征参数,用于后续处理:一种是加工语音信号,如在语音增强中对含噪语音进行背景噪声抑制,以获得相对"干净"的语音. 根据分析参数不同,可分为时域分析和变换域(频域.倒谱域)分析,其中时域分析是最简单.最直观的方法,它直接对语音信号的时域波形进行分析提取主要有语音短时能量和平均幅度.短时平均过零率.短时自相关函数和短时平均幅度差函数等. 实际的语音信号是模拟信号,因此在对语音信号进行

语音信号的梅尔频率倒谱系数(MFCC)的原理讲解及python实现

梅尔倒谱系数(MFCC) 梅尔倒谱系数(Mel-scale FrequencyCepstral Coefficients,简称MFCC).依据人的听觉实验结果来分析语音的频谱, MFCC分析依据的听觉机理有两个 第一Mel scale:人耳感知的声音频率和声音的实际频率并不是线性的,有下面公式 $$f_{mel}=2595*\log _{10}(1+\frac{f}{700})$$ $$f = 700 (10^{f_{mel}/2595} - 1)$$ 式中$f_{mel}$是以梅尔(Mel)为

【转帖】MATLAB对语音信号加随机噪声及去噪程序

MATLAB对语音信号加随机噪声及去噪程序 (2011-01-28 23:26:51) %对语言信号做原始的时域波形分析和频谱分析 [y,fs,bits]=wavread('C:\Documents and Settings\Administrator\桌面\cuocuo.wav'); %  sound(y,fs)      % 回放语音信号 n=length(y)  %选取变换的点数 y_p=fft(y,n);      %对n点进行傅里叶变换到频域 f=fs*(0:n/2-1)/n;   %

【自动语音识别课程】第二课 语音信号分析

[传送门] [自动语音识别课程]第一课 统计语音识别介绍 原文地址:http://blog.csdn.net/joey_su/article/details/36414877 转载请注明出处,欢迎交流. 概述 针对ASR的语音信号分析 特征 频谱分析 倒谱分析 标准特征:MFCC和PLP分析 动态特征 第一课的结尾提到了语音识别的框图,下图展示了信号分析技术在语音识别系统中的位置: 我们先来认识下语音的产生过程: 语音是在发音器官和声道共同作用下产生的.说话时,声带振动发出具有一定周期特性(基音