本实验中,我们将基于HTK工具集建立一个2-单词识别系统,词汇集是{Yes,No}。这是可以设计出来的最基本的自动语音识别(Automatic speech recognition,ASR)系统。
目标:建立一个孤立词识别系统,只包含yes和no两个词。
步骤:
A: 创建一个语料库,确定识别基本元(如单词yes,no等),yes和no各录5次
B: 声学分析,把waveform的声音文件转换为mfcc()格式 ,即对语音材料库中的声音文件提取MFCC声纹特征 (梅尔频率倒谱系数,这个部分的详解见教程10)。
C: 模型定义: 为词典里的每一个词(基本元)建立一个HMM原型
D: 模型训练: HMM模型初始化和迭代,利用MFCC声纹特征对每一个HMM模型进行训练,使模型参数与其描述的识别基本元对应。
E: 问题定义,即语法定义,定义输入语音的语法规则等,从发音对应到文字。
F: 对测试集合进行识别
G: 评测
使用的教程:
1. HTK(V3.1)基础指南中文版 2. 语音识别工具箱之HTK安装与使用 http://www.cnblogs.com/mingzhao810/archive/2012/08/03/2617674.html 3. 语音识别系统之htk------孤立词识别(yesno) http://blog.csdn.net/wbgxx333/article/details/17535033 4. HTK(yesno)教程 http://www.doc88.com/p-7748040237188.html 5. HTK孤立词识别回顾 6. 一个简单的HTK入门参考例子 http://wenku.baidu.com/view/91639fd7195f312b3169a584.html 7. 利用HTK工具包快速建立一个语音命令识别系统 http://baidutech.blog.51cto.com/4114344/904388 8. Windows 安装HTK3.4.1语音识别工具(这里有HSLab运行失败的原因) http://www.cnblogs.com/eboard/archive/2012/02/20/HTK.html 9. Htk error book http://read.pudn.com/downloads38/sourcecode/comm/127382/htk-3.3/HTKBook/.%23errors.tex.1.7__.htm 10. 语音信号处理之(四)梅尔频率倒谱系数(MFCC) |