Python使用Speech_Recognition实现普通话识别

最近因学习任务,对语音识别需要了解,所以现在就把一些学习过程遇到的问题解决方法分享给大家。首先pyhon提供了许多语音识别库,大致包含:

上述语音识别软件库各个之间的侧重点不同,如:谷歌云语音侧重语音向文本转换,又如wit与apiai还提供超出基本语音识别的内置功能(识别讲话者意图的自然语言处理功能)。由于我仅仅是做简单的中文语音识别,所以使用的是SpeechRcognition这个语音识别库。

SpeechRcognition的特点优势

  • 满足几种主流语音 API ,灵活性高;
  • Google Web Speech API 支持硬编码到 SpeechRecognition 库中的默认 API 密钥,无需注册就可用;
  • SpeechRecognition无需构建访问麦克风和从头开始处理音频文件的脚本, 只需几分钟即可自动完成音频输入、检索并运行。因此易用性很高。

怎么使用SpeechRcognition?

安装SpeechRcognition

下载地址:https://pypi.org/project/SpeechRecognition/
安装命令: pip install SpeechRcognition
不过仅仅安装这个是不够的,还需要安装对应需要的资源库,如下图:

SpeechRcognition的识别类(器)

Python开发案例
以上七个中只有 recognition_sphinx()可与CMU Sphinx 引擎脱机工作, 其他六个都需要连接互联网。另外,SpeechRecognition 附带 Google Web Speech API 的默认 API 密钥,可直接使用它。其他六个 API 都需要使用 API 密钥或用户名/密码组合进行身份验证。

下面进行中文语音识别

我在这里使用的是recognize_sphinx()语音识别器,它可以脱机工作,但是必须安装pocketsphinx库(详细安装过程见https://blog.csdn.net/zouxy09/article/details/7942784),若要进行中文识别,还需要两样东西

  • 一、语音文件 (SpeechRecognition对文件格式有要求)
  • 二、中文声学模型、语言模型和字典文件
    下面进行详细描述
    SpeechRecognition支持语音文件类型

WAV: 必须是 PCM/LPCM 格式
AIFF
AIFF-C
FLAC: 必须是初始 FLAC 格式;OGG-FLAC 格式不可用
pocketsphinx需要安装的中文语言、声学模型
下载地址:http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/

安装步骤

下载cmusphinx-zh-cn-5.2.tar.gz并解压


在python安装目录下找到Lib\site-packages\speech_recognition


点击进入pocketsphinx-data文件夹,并新建文件夹zh-CN

在这个文件夹中添加进入刚刚解压的文件,需要注意:把解压出来的zh_cn.cd_cont_5000文件夹重命名为acoustic-model、zh_cn.lm.bin命名为language-model.lm.bin、zh_cn.dic中dic改为dict格式

用声音控制Windows程序
开发案例

原文地址:https://www.cnblogs.com/lishangzhi/p/12089981.html

时间: 2024-10-13 16:10:50

Python使用Speech_Recognition实现普通话识别的相关文章

python使用opencv实现人脸识别系统

1.首先安装过python环境,在这里就不过说    检测是否安装成功如下,在cmd中输入Python     2.安装numpy 现在开始安装numpy,打开cmd,输入pip install numpy 我的电脑已经安装过了,忘记截屏了.就在网上找了图片 测试是否成功 3.安装opencv 在官网自行下载,这里下载的是opencv2.4.10安装. ### (1)复制cv2.pyd 将"\opencv\build\python\2.7\x64"或"\opencv\buil

python网络爬虫之如何识别验证码

有些网站的登录方式是验证码登录的方式,比如今天我们要测试的网站专利检索及分析. http://www.pss-system.gov.cn/sipopublicsearch/portal/uilogin-forwardLogin.shtml 登录此类网站的关键是识别其中的验证码.那么如何识别验证码呢.我们首先来看下网页源代码.在网页中,验证码的是通过下载一个图片得到的.图片的下载地址是src=/sipopublicsearch/portal/login-showPic.shtml 我们从实际的fi

Python 实现的猫脸识别、人脸识别器。

代码地址如下:http://www.demodashi.com/demo/13071.html 前言: OpenCV是开源的跨平台计算机视觉库,提供了Python等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法. opencv中内置了基于Viola-Jones目标检测框架的Harr分类器,只需要载入一个配置文件(haarcascade_frontalface_alt.xml)就能直接调用detectObject去完成检测过程,同时也支持其他特征的检测(如鼻子.嘴巴等). 本程序用wxP

[Python][爬虫]利用OCR技术识别图形验证码

ocr图片识别通常可以利用tesserocr模块,将图片中内容识别出来并转换为text并输出 Tesserocr是python的一个OCR识别库,是对tesseract做的一层python APT封装.在安装Tesserocr前,需要先安装tesseract tessrtact文件: https://digi.bib.uni-mannheim.de/tesseract/ python安装tessocr: 下载对应的.whl文件安装(这个包pip方式容易出错) tesseract 与对应的tess

python三步实现人脸识别

原文地址https://www.toutiao.com/a6475797999176417550 Face Recognition软件包 这是世界上最简单的人脸识别库了.你可以通过Python引用或者命令行的形式使用它,来管理和识别人脸. 该软件包使用dlib中最先进的人脸识别深度学习算法,使得识别准确率在<Labled Faces in the world>测试基准下达到了99.38%. 它同时提供了一个叫face_recognition的命令行工具,以便你可以用命令行对一个文件夹中的图片进

kNN算法python实现和简单数字识别

kNN算法 算法优缺点: 优点:精度高.对异常值不敏感.无输入数据假定 缺点:时间复杂度和空间复杂度都很高 适用数据范围:数值型和标称型 算法的思路: KNN算法(全称K最近邻算法),算法的思想很简单,简单的说就是物以类聚,也就是说我们从一堆已知的训练集中找出k个与目标最靠近的,然后看他们中最多的分类是哪个,就以这个为依据分类. 函数解析: 库函数 tile() 如tile(A,n)就是将A重复n次 a = np.array([0, 1, 2]) np.tile(a, 2) array([0,

python实现中文图片文字识别--OCR about chinese text--tesseract

0.我的环境: win7 32bits python 3.5 pycharm 5.0 1.相关库 安装pillow: pip install pillow 安装tesseract: tesseract-ocr-setup-3.02.02.exe 自带了英文语言包,如果需要中文语言包往下找即可. 或者在安装的时候,在选项lang处,点选chi-sim即可. 安装完毕后,会儿自动加入系统环境变量中. 安装pytesseract: pip install pytesseract 2.修改pytesse

python 基础语法 _的识别方法

子类可以不重写__init__,实例化子类时,会自动调用超类中已定义的__init__ 意思是 子类不要写__init__ 以双下划线开头的 __foo 代表类的私有成员 __foo__ 代表 Python 里特殊方法专用的标识 以单下划线开头 _foo 的代表不能直接访问的类属性,需通过类提供的接口进行访问,不能用from xxx import * 而导入:

python之OpenCv(四)---人脸识别

对特定图像进行识别,最关键的是要有识别对象的特征文件.OpenCV已经内置了人脸识别特征文件,我们只要使用OpenCV的CascadeClassifier类即可进行识别. 语法: https://github.com/opencv/opencv.git 在这里可以下载特征文件,在data目录下 识别对象变量 = cv2.CascadeClassifier(特征文件).. 识别对象 识别结果变量 = 识别对象变量.detectMultiScale(图片,参数1,参数2,...) 参数有: 1.sc