语音中的关于语音识别的一些知识

以下内容都是抄的,哈哈哈

1.mel频率:

是模拟人耳对不同频率语音的感知。

人类对不同频率语音有不同的感知能力:对1kHz以下,与频率成线性关系,对1kHz以上,与频率成对数关系。频率越高,感知能力就越差了。因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC。

在Mel频域内,人对音调的感知能力为线性关系,如果两段语音的Mel频率差两倍,则人在感知上也差两倍。 转换公式:B(f)=1125ln(1+f/700) 其中f为频率,B为Mel-频率。

2.倒谱:

同态处理的结果,分为复数和实数倒谱,常用实数倒谱,是语音识别中的重要系数。

3,Mel频率倒谱系数参数的提到中:有一步:分帧, 然后再加上窗,原因呢:,下面写的:

4,那现在总结下倒谱分析,它实际上是这样一个过程:

1)将原语音信号经过傅里叶变换得到频谱:X[k]=H[k]E[k];

只考虑幅度就是:|X[k] |=|H[k]||E[k] |;

2)我们在两边取对数:log||X[k] ||= log ||H[k] ||+ log ||E[k] ||。

3)再在两边取逆傅里叶变换得到:x[k]=h[k]+e[k]。

这实际上有个专业的名字叫做同态信号处理。它的目的是将非线性问题转化为线性问题的处理方法。对应上面,原来的语音信号实际上是一个卷性信号(声道相当于一个线性时不变系统,声音的产生可以理解为一个激励通过这个系统),第一步通过卷积将其变成了乘性信号(时域的卷积相当于频域的乘积)。第二步通过取对数将乘性信号转化为加性信号,第三步进行逆变换,使其恢复为卷性信号。这时候,虽然前后均是时域序列,但它们所处的离散时域显然不同,所以后者称为倒谱频域.

最后几个图:

引用:

http://www.cnblogs.com/gogly/archive/2013/11/24/3440441.html

很好的文献,可以参考哦:http://blog.csdn.net/zouxy09/article/details/9156785/

时间: 2024-12-11 20:51:25

语音中的关于语音识别的一些知识的相关文章

一文告诉你智能语音中的VAD模块为什么这么重要

计算机交互技术通过几年连续开发,语音信号中包含的情感信息越来越受到关注.通常,语音信号的感情特征多通过语音韵律的变化来表现.例如,当人们生气或惊讶时,演讲速度会增加,音量会增加,音调也会改变,而当你忧郁或伤心时,声音往往很低.因此,振幅的结构.发音的持续时间.说话速度等语音信号的特征是所有重要的研究特征. 在进行语音识别的过程中,系统的处理对象是有效语音信号.尤其在在多人说话的情况下,如果不对输入信号做分离处理而直接进行语音识别的话,识别效果会很差.这时,需要从输入信号中找到语音部分的起止点和终

关于C语言中的一些宏的小知识

关于C语言中的一些宏的小知识 1.##和# c语言中,##表示把两个宏参数贴合在一起,即,#define call(x,y) x##y ,执行call(x,y)结果为xy,例如,int x=2,y=5;int xy=90;printf("%d\n",call(x,y));//结果为90 ##被称为连接符,用来将两个宏参数连接为一个宏参数.而单个#的功能是将其后面的宏参数进行字符串化操作,简单地说就是在对它所引用的宏变量通过替换后在其左右各加上一个双引号,使其成为字符串. 以上引自百度知

Python编程中常用的12种基础知识总结

原地址:http://blog.jobbole.com/48541/ Python编程中常用的12种基础知识总结:正则表达式替换,遍历目录方法,列表按列排序.去重,字典排序,字典.列表.字符串互转,时间对象操作,命令行参数解析(getopt),print 格式化输出,进制转换,Python调用系统命令或者脚本,Python 读写文件. 1.正则表达式替换目标: 将字符串line中的 overview.gif 替换成其他字符串 1 2 3 4 5 6 7 8 9 10 11 >>> lin

C语言之数组中你所不在意的重要知识

#include<stdio.h> void simpleArray(); void main() { simpleArray(); } //数组的简单操作 void simpleArray() { //数组的声明并赋值 int c[5] = { 1, 2, 3, 4, 5 }; printf("\nC数组内存中占%d个字节",sizeof(c));// /0在内存中会占一个字节,但是只针对于字符串 printf("\nC数组中有%d个元素",sizeo

Python 编程中常用的 12 种基础知识总结

Python 编程中常用的 12 种基础知识总结:正则表达式替换,遍历目录方法,列表按列排序.去重,字典排序,字典.列表.字符串互转,时间对象操作,命令行参数解析(getopt),print 格式化输出,进制转换,Python调用系统命令或者脚本,Python 读写文件. 1.正则表达式替换 目标:将字符串line中的 overview.gif 替换成其他字符串 >>> line = '<IMG ALIGN="middle" SRC=\'#\'" /s

巨人大哥谈Java面试中常考的信息安全方面知识(MD5)

巨人大哥谈Java面试中常考的信息安全方面知识(MD5) Java MD5 加密算法介绍以及使用 MD5 算法的介绍 特点 1.压缩性:任意长度的数据,算出的MD5值长度都是固定的. 2.容易计算:从原数据计算出MD5值很容易. 3.抗修改性:对原数据进行任何改动,哪怕只修改1个字节,所得到的MD5值都有很大区别. 4.强抗碰撞:已知原数据和其MD5值,想找到一个具有相同MD5值的数据(即伪造数据)是非常困难的. 用途 1.可以用于加密用户密码 2.可以用于应用安装包的一致性验证 MD5 的简单

SQL Server 与MySQL中排序规则与字符集相关知识的一点总结

原文:SQL Server 与MySQL中排序规则与字符集相关知识的一点总结 字符集&&排序规则 字符集是针对不同语言的字符编码的集合,比如UTF-8字符集,GBK字符集,GB2312字符集等等,不同的字符集使用不同的规则给字符进行编码排序规则则是在特定字符集的基础上特定的字符排序方式,排序规则是基于字符集的,是对字符集在排序方式维度上的一个划分.排序规则是依赖于字符集的,一种字符集可以有多种排序规则,但是一种排序规则只能基于某一种字符集的比如中文字符集,也即汉字,可以按照“拼音排序”.“

语音中的风格转换

图像中的风格转换 风格转换是最早来源于图像领域的概念,一言以蔽之,即是:将一张图片的艺术风格应用到另外一张图片上. 深度卷积网络具有良好的特征提取能力,不同层提取的特征具有不同的含义.深度卷积网络由一层层的非线性函数组成,可以视为复杂的多元线性函数,该函数完成从输入图像到输出的映射.一般而言,训练风格转换深度网络的损失函数来源于两个方面: 内容损失 可以使用均方误差度量内容图片\(\vec p\)和生成的feature map即\(\vec x\)之间的距离: \[ L_{content}(\v

小程序语音红包中遇到的 语音识别silk转wav格式 如何在线转 或者mp3转wav格式

公司在开发一个小程序语音红包,现在遇到的问题就是通过微信的小程序文档接口拿到的录音文件要么是silk格式的,要么是mp3格式的 但是呢,如果要调用百度的语音接口,又必须是wav格式的.也就是说通过微信小程序接口拿到的两种格式,都无法直接调用百度的语音识别接口. 必需想办法来转换成wav格式的.百度上搜了各种解决方案,有些是需要安装软件的,但是无法实现自动转,比如我给一个这个silk的url地址,能否直接返回wav格式的给我. 正在摸索中...还没解决...看看大家有没有什么好的方法? 我,秋峰,