2.4 Which CMUSphinx should I use?
- 按平台来说,sphinx2可以作为嵌入式平台的选择
- 按研究来说,如果研究声学模型和快速GMM计算的研究,选sphinx3;如果研究搜索算法,选sphinx4;如果做自适应和声学模型生成,可以用sphinxtrain中的estimation(估计)模块
- 你的要求真的可行吗? 一般来说,如果没有语言学的限制,识别率会很差。影响系统的主要两个因素是:声学复杂度和语言学复杂度。
- 建立一个有1000个人名的通讯录系统,难度要超过建立一个3000个词的对话系统,因为人名有很多相似很难区分
- 为语音识别系统设计语法,可以用ngram和有限状态机。语法不能太少到不足以覆盖所有单词,会产生很多OOV单词。而如果只是盲目的增加新词也不可以。在加入新词之前,需要一些决策和基准。
- sphinx是一个基于音素的识别工具,识别的过程,就是会建立一个巨大的HMM模型,而搜索就是找到最佳的路径,给出这个hmm模型。
- 最好的词典中含有的是最适合你的用户的发音,而并非是官方发音。
- cmu官网上开源的broadcast模型,是来自于140个小时的数据训练。http://www.speech.cs.cmu.edu/sphinx/models/。其中建立语言模型用到的词条有约13w。
- Adding stress markers degrades perfromance by about 5within-word and cross-word triphone HMMs with
no skips permitted between states. 开源的broadcast模型中,音素级未标记重音,如果标记饿了,会降低性能。状态之间不允许跳过。 - HMM模型中的元素:Sphinx’s HMM definition are spread in five different files. They are mean,
variance, mixture weight, transition matrices and model definition. - model definition:模型描述,在model_arch目录中。
时间: 2024-10-03 13:39:01