语音特征的提取

一、语音特征

对于语音识别来说,好的语音特征应该:

包含区分音素的有效信息:良好的时域分辨率,良好的频域分辨率;

分离基频F0以及它的谐波成分;

对不同说话人具有鲁棒性;

对噪音或信道失真具有鲁棒性;

有着良好的模式识别特性:低维特征,特征独立(GMM需,NN无需)。

二、提取MFCC特征的整体流程

三、提取MFCC特征

(一)A/D转换(采样)

(二)预加重

为消除声门激励、口鼻辐射、传播时高频衰减更大的影响。

(三)加窗

长帧窗对应窄带语谱图,时域分辨率低,频域分辨率高,语谱图线条横向明显;

短帧窗对应宽带语谱图,时域分辨率高,频域分辨率低,语谱图线条纵向明显。

窄带语谱图清晰显示谐波结构,反映基频的时变过程;

宽带语谱图清晰显示共振峰结构和语谱包络,反映频谱快速时变过程。

通常ASR中,帧长取25ms,帧移取10ms。

帧移使得帧与帧之间过渡更加平稳,否则,帧与帧连接处的信号会因为加窗而被弱化,这部分信息就丢失了。

加窗后对每一帧计算短时平均能量(一帧样本点的加权平方和)。

(四)DFT+取平方

(五)梅尔滤波

(六)取对数

对数梅尔滤波器组输出/FBANK特征在以DNN-HMM为基础的ASR中广泛应用。

(七)IDFT

生成倒谱系数。

(八)动态特征

描述倒谱系数随着时间的变化。

注意:

通常,一阶差分是计算当前时刻的后一时刻与前一时刻的差值,二阶差分是将一阶差分结果作为当前序列,计算当前时刻的后一时刻与前一时刻的差值,所以一定程度上可以认为当前时刻的动态特征与当前时刻的倒谱系数不相关。

常用于基于GMM-HMM的SR中。

也可以用回归的方法拟合曲线,计算曲线导数/斜率作为动态特征,常前后各取4帧数据进行曲线的拟合。

(九)MFCC总结

在以HMM为基础的ASR中作为声学模型特征广泛使用;

与频谱特征相比,相关性小,更易建模;

用12维的特征描述一个25ms的数据帧,是非常紧凑的表示;

对于标准的基于HMM的系统,MFCCs比滤波器组或频谱图特征产生更好的ASR性能;

对噪声不鲁棒。

四、PLP特征

五、特征变换及归一化

(一)特征变换

1、正交变换:

DCT、PCA

2、最大化类间可分性:

LDA/Fisher‘s  Linear Discriminant、HLDA(异方差性LDA)

(二)特征归一化

CMN:倒谱均值归一化

CVN:倒谱方差归一化

实时归一化:计算移动平均线

时间: 2024-10-07 17:39:56

语音特征的提取的相关文章

02(3) 语音特征的提取2

9.IDFT 10.MFCCs 在以HMM为基础的ASR中作为声学模型特征广泛使用 与频谱特征相比,相关性小,更易建模 用12维的特征描述一个25ms的数据帧,是非常紧凑的表示 对于标准的基于HMM的系统,MFCCs比滤波器组或频谱图特征产生更好的ASR性能 对噪声不鲁棒 ?11.关于PLP特征 12.动态特征 算差分 ?13.特征变换 正交变换: DCT.PCA 最大化类间可分性: LDA/Fisher's  Linear Discriminant.HLDA(异方差性LDA) 14.特征归一化

OpenCV4Android 特征点提取演示

OpenCV4Android 特征点提取演示 前面通过两天的时间,也只是熟悉了基本的环境搭建,明确了基本的部件流程,接下来需要熟悉API,进行实际的应用编程.本篇尝试获取图片的SIFT特征点,并学习相应的API及图像处理基本知识. 目标: - 定义Native method 接口 - Bitmap 和 opencv Mat 之间的转换 - 通过org.opencv.core.Mat.getNativeObjAddr()把地址传递给底层的C++代码处理,然后更新对应地址的对象 关键代码: Andr

压缩跟踪(CT)代码详细学习_模块2(特征的提取和计算)

0.下载安装Opencv,当前版本为249. 1.下载Python,当前OPencv版本为249,不过其支持的最新版本的Python为2.7,所以可以下载276版本. 2.下载numpy,开始我使用了1.6,没有通过,错误如图.下载了最新的1.8.1版本. 3.将Opencv安装目录下opencv\build\python\2.7\x86中的cv2.pyd复制到python安装目录Lib\site-packages下. 4.找到opencv源文件内的draw.py运行. 压缩跟踪(CT)代码详细

BP神经网络的数据分类——语音特征信号分类

BP网络的训练过程包括以下几个步骤: 步骤一:网络初始化. 步骤二:隐含层输出计算. 步骤三:输出层输出计算. 步骤四:误差计算. 步骤五:权值更新. 步骤六:阈值更新. 步骤七:判断算法迭代是否结束,若没有结束,返回步骤二. 语音特征信号识别: 基于BP神经网络的语音特征信号分类算法建模包括BP神经网络构建.BP神经网络训练和BP神经网络分类三步,算法流程如图1-4所示:

特征点提取之Harris角点提取法

1. 特征点提取的意义 2.角点 3. Harris角点检測的基本原理 4.Harris角点检測算法的步骤 5.Harris角点提取算法设计 <span style="font-size:18px;">function [ptx,pty] = HarrisPoints(ImgIn,threshold) % Harris角点提取算法 %计算图像亮度f(x,y)在点(x,y)处的梯度----------------------------------------- fx = [

OpenCV中特征点提取和匹配的通用方法

OpenCV在新版本中把很多C语言的代码都重新整理成了C++代码,让我们在使用的时候更加方便灵活.其中对于特征点的提取和匹配,充分体现了C++的强大.下面直接用例子来说明.假设我们有两幅图:1.bmp和2.bmp,要从中提取体征点并匹配,代码如下: // Load image from file IplImage *pLeftImage = cvLoadImage("1.bmp", CV_LOAD_IMAGE_GRAYSCALE);IplImage *pRightImage = cvL

使用Opencv2.4.9进行SIFT特征点提取和匹配

主要使用的类:FeatureDetector FeatureExtractor FeatureMatcher#include <opencv2/core/core.hpp> ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 <em id="__mceDel">

第二篇:使用Spark对MovieLens的特征进行提取

前言 在对数据进行了初步探索后,想必读者对MovieLens数据集有了感性认识.而在数据挖掘/推荐引擎运行前,往往需要对数据预处理.预处理的重要性不言而喻,甚至比数据挖掘/推荐系统本身还重要. 然而完整的数据预处理工作会涉及到:缺失值,异常值,口径统一,去重,特征提取等等等等,可以单写一本书了,本文无法一一介绍. 本文仅就特征提取这一话题进行粗略讨论并展示. 类别特征提取 在很多场景下,数据集的很多特征是类型变量,比如MovieLens里面的职业类型.这样的变量无法作为很多算法的输入,因为这类变

Opencv 各种特征点提取和匹配

opencv 特征点的提取和匹配 1. 当中的数据结构 KeyPoint这数据结构中有如下数据结构: class KeyPoint { Point2f pt; //坐标 float size; //特征点邻域直径 float angle; //特征点的方向,值为[零,三百六十),负值表示不使用 float response; int octave; //特征点所在的图像金字塔的组 int class_id; //用于聚类的id angle:角度,表示关键点的方向,SIFT算法通过对关键点周围邻域