人工智能我见及特征提取mfcc算法理解

一、人工智能

  从LeNex手写数字识别,AlexNet图像识别,到无人驾驶汽车,再到Alpha Go、Alpha Go Zero的横空出世,人工智能无疑已经成为了当下科技的大热。那么什么是人工智能呢?直白点,人工智能就是让机器拥有人的智能。科学家们为了让机器拥有智能,从人是如何识别、思考、解决问题的角度出发,为机器量身订做了一套方案。

  神经网络就是一个最好的例子:早期,科学家们从鸟儿的翅膀发明了飞机,现在,科学家们从人是如何思考的,大脑是如何运作的出发,进而发明了神经网络。下面我们要引出本篇博客的重点mfcc特征提取算法,这也是基于人类的行为而发明出来的。

二、mfcc算法

  mfcc是为了完成声音识别而开发出来的一套算法,基于人是如何识别声音的。首先明确四点:

  1.语音信号的大部分信息包含在低频分量中;

  2.语音信号的大部分信息包含在低幅部分中;

  3.人耳听到的声音高低与声音频率不成线性关系,但是与该声音频率的对数近似成线性正比关系;

  4.人并不能区分所有频率分量,只有两个频率分量相差一定带宽时(1000hz以下,带宽恒定100hz;1000hz以上,带宽与中心频率成指数关系),人类才能区分,否则人就会把两个音调听成一个,这称为屏蔽效应,带宽称为临界带宽;(中心频率:声音高低主要与频率有关,由于可听声声频太宽(从20Hz到20000Hz),为便于进行频率分析,将其分为若干段,称为频程。每频程的上限与下限频率的几何平均值称为该频程的中心频率)

  MFCC在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的研究成果,采用这种技术语音识别系统的性能有一定提高。

  mfcc是一种特征,这个特征在自动语音和说话人识别中广泛的使用。

  如果现在给我们一段语音,我们首先得到它的频谱包络(连接所有共振峰值点的平滑曲线,共振峰值携带了声音的辨识属性,如同人的身份证),但是对于人类来说,人类听觉的感知至聚焦在某些特定的区域而不是整个频谱包络,而MEL频率分析就是基于人类听觉感知实验的。实验观测发现人耳就像一个滤波器组一样,它只关注某些特定的频率分量。它在低频区域有很多的滤波器,在高频区域则较少。

  人耳听觉的特性与Mel频率的增长一致,Mel滤波器能向人一样的去提取特征。(而gfcc是基于GT滤波器的)

时间: 2024-10-10 20:45:16

人工智能我见及特征提取mfcc算法理解的相关文章

Horn–Schunck 光流法与其算法理解(gup cuda)

1. 基于Horn-Schunck模型的光流算法 1.1     光流的约束条件 光流 的假设条件认为图像序列,在时间t 的某一像素点与在时间t+1的这一像素点的偏移量保持不变,即 .这就是灰度值守恒假设,通过Taylor展开,就能得到光流的约束条件(OFC): ,其中下标表示图像的梯度. 1.2     Horn-Schunck 模型 1981年,Horn和Schunck根据同一个运动物体的光流场具有连续.平滑的特点, 提出一个附加约束条件,将光流场的整体平滑约束转换为一个变分的问题.它的能量

关于SVM数学细节逻辑的个人理解(三) :SMO算法理解

第三部分:SMO算法的个人理解 接下来的这部分我觉得是最难理解的?而且计算也是最难得,就是SMO算法. SMO算法就是帮助我们求解: s.t.   这个优化问题的. 虽然这个优化问题只剩下了α这一个变量,但是别忘了α是一个向量,有m个αi等着我们去优化,所以还是很麻烦,所以大神提出了SMO算法来解决这个优化问题. 关于SMO最好的资料还是论文<Sequential Minimal Optimization A Fast Algorithm for Training Support Vector

[数据挖掘] - 聚类算法:K-means算法理解及SparkCore实现

聚类算法是机器学习中的一大重要算法,也是我们掌握机器学习的必须算法,下面对聚类算法中的K-means算法做一个简单的描述: 一.概述 K-means算法属于聚类算法中的直接聚类算法.给定一个对象(或记录)的集合,将这些对象划分为多个组或者“聚簇”,从而使同组内的对象间比较相似而不同组对象间差异比较大:换言之,聚类算法就是将相似的对象放到同一个聚簇中,而将不相似的对象放到不同的聚簇中.由于在聚类过程中不使用到类别标签,所以相似性的概念要基于对象的属性进行定义.应用不同则相似性规则和聚类算法一般不太

几大排序算法理解

1.插入排序算法 跟我们平时打扑克时排序相似,左手先拿起一张牌,不需要比较,当拿起第二张牌时需要和之前的牌进行比较,如果小于之前的牌i,并且有大于牌i-1时,i就是该张牌要插入的位置,牌i及其以后的牌需要给它腾位置 a[k+1] = a[k];腾好位置之后就把它插入到i的位置即可. 实现算法: void InsertSort(int s[],int n) { int i, j, k; for(i = 1;i<n;i++) { //为a[i]在前面的a[0...i-1]有序区间中找一个合适的位置(

KNN算法理解

一.算法概述 1.kNN算法又称为k近邻分类(k-nearest neighbor classification)算法. 最简单平庸的分类器或许是那种死记硬背式的分类器,记住全部的训练数据,对于新的数据则直接和训练数据匹配,假设存在同样属性的训练数据,则直接用它的分类来作为新数据的分类.这样的方式有一个明显的缺点,那就是非常可能无法找到全然匹配的训练记录. kNN算法则是从训练集中找到和新数据最接近的k条记录,然后依据他们的主要分类来决定新数据的类别.该算法涉及3个主要因素:训练集.距离或相似的

EM算法理解

最近一直研究和看EM算法,尝试理解它的含义和用途,一直被人们称为"上帝的算法",现在我就谈一下几点自己的看法. 它主要运用的场景应该是含有隐变量的地方,其中一个典型的情况就是混合高斯模型.用通俗的话来说,当一个模型很难描述数据的分布的情况时,需要多个模型的时候,便会引入隐变量的概念.一般问题,假设一堆观测数据属于两个集合,但是我们事先不知道每个观测点来自哪个集合,知识后还要我们求出这两个分布的模型参数. 假设知道属于哪一类求模型的参数,那么就是极大似然估计可以解决:假如知道高斯模型参数

KMP算法理解

字符串匹配算法之KMP算法一直以来都很难理解,虽然知道要减少不必要的匹配,但是仍然不懂里面的思想,即使看着代码.后来看到(2)中博客中的解释才清晰了许多,不至于在什么DFA,前缀表,部分匹配表等概念中迷失自己.主要的指导思想在于当发生不匹配的时候如何更有效的利用现在已经匹配的字符串的信息来加速移动过程,部分匹配表的存在正是挖掘一个字符串中前缀和后缀中最长公共串,比如ABCABCD,在匹配'D'时失败,考察字符"ABCABC",得到pmt['ABCABC']=3,所以外围循环索引直接前进

最大流最小割 算法理解

by   http://blog.csdn.net/chinacoy/article/details/45040897 理解算法. 首先从最简单的开始,先看一幅图:  有3个节点S,a,T,边[S,a]的容量是10,边[a,T]的容量是5,假设从S处要传送数据到T,问最大传送数据量是多少?应该是min(10,5)=5.如果超出5,[a,T]边容不下,因此传不过去,此时的最大流量就是5,[a,T]边就是该图的一条最小割.该图可以想象成从S到T通水,需要修建水管,a是中间站点,S到a修建的水管可以容

图论入门算法理解

1.Dijsktra 算法 Dijsktra算法是基于贪心的,从源点开始扩展,将当前已经是最短路的点加入集合中.dist[i]表示源点s到i的距离,那么初始的时候,找距离源点最近的一个点t0,那么dist[t0]必定是s到t0最短的距离,因为不可能通过其他的点转到t0再让t0最短了(这也是为什么Dijsktra不能处理负权边的原因),同理,扩展第二点的时候也是一样,因为 在扩展第二个点的时候,已经用 第一个点 优化了所有其他的点,那么最近的那个点,一定无法 通过剩余的其他的那个点来 优化自己的距