科大讯飞离线语音识别安装与运行

先从官网下载sdk,有点不懂下载的逻辑..

文件解析:

bin/inc下有四个头文件:msp_errors.h  msp_types.h  qisr.h  qtts.h

msp_errors.h  msp_types.h为通用数据结构的头文件,qisr.h是语音识别用的头文件,qtts.h是语音合成用的头文件。

这是sdk中原代的解释:

1.doc目录下存放开发文档等;

2.lib目录下存放SDK需要调用的动态库以及需要引用的头文件。

3.example目录下存放提供的示例demo,每个例子下都有Makefile文件,在当前目录make即可;

4.bin目录下存放符合标准的语音文件样例、配置文件和资源文件等,make之后的example可执行程序也会拷贝至此,请在此目录下运行,否则会运行失败;

5.prj目录下提供make脚本,可以快速编译例子。

然后我按照它的指示,在example下的asrdome下make,然而报错:找不到 lasound,去看它的makefile文件,其中需要这个库,在网上搜了一下,解决方案如下:

sudo apt-get install alsa-base alsa-utils alsa-source libasound2-dev

重新编译,又报错,警告:检测到时钟错误。您的创建可能是不完整的。

将之前编译创建的 “asrdemo.o” 删除 继续,编译成功。

然后再bin下生成了"asrdemo"可执行文件,在bin目录下运行(./asrdemo)

运行成功。

然而 输出的结果是一堆代码,里面夹杂识别的话。在网上查了一下,代码的函数逻辑大概如下

1.先要调用QISRInit()函数,参数是自己的appid,每个SDK都是注册才能下载的,所以是唯一的,用来区分用户的,不同级别的用户每天可以使用SDK的次数有限制,毕竟人用的多了语音识别的性能肯定会下降;

2.之后就是把GrammarID,输入输出的参数param和调用状态返回值ret作为参数传入QISRSessionBegin()函数中进行初始化,返回值是sessionID,这个是后面所有函数的主要参数之一;

3.打开自己的音频文件,调用QISRAudioWrite()函数写入,可以分段也可以一次,第一个参数是sessionID,上面初始化函数返回的值,第二个参数是音频数据头指针,第三个参数是音频文件大小,第四个参数是音频发送的状态,表示发送完了没有,剩下两个是服务器端检测语音状态和识别状态的返回值;

4.调用QISRGetResult()函数获取识别的结果,第一个参数还是sessionID,第二个参数是输出识别的状态,第三个参数是与服务器交互的间隔时间,官方建议5000,我取为0,第四个参数是调用状态返回值ret,最后这个函数的返回值就是上面结果的json数据了

录制语音时,使用“ffmpeg”录音,简单方便,符合语音识别的要求。

讯飞语音对语音的要求如下:采样率16K或8KHz,采样位是16位,单声道,格式是PCM或WAV。自带的录音软件都是默认32位采样,只能用ffmpeg或自己写代码录制,ffmpeg命令如下:

ffmpeg -f alsa  -ar 16000 -ac 1 -i hw:0 lib.wav

时间: 2024-10-25 02:59:26

科大讯飞离线语音识别安装与运行的相关文章

树莓派——科大讯飞离线语音识别

申请到树莓派库后,下载SDK,基本配置如 Linux 在运行之前,要先进行如下配置: 要将libmsc.so 复制到 /usr/local/lib/ 下,  方便编译的可执行文件时寻找 sudo cp libs/x86/libmsc.so /usr/local/lib/ sudo ldconfig 否则,运行程序时,将出现如下错误: ./test: error while loading shared libraries: libmsc.so: cannot open shared object

Xcode5.1离线下载安装及使用iOS5模拟器进行开发调试的方法

Xcode5.1默认不支持iOS5版本的模拟器开发调试,在OS X Mavericks(10.9.x)下默认只能支持iOS6.1及以上版本的模拟器,在OS X Mountain Lion(10.8.x)下默认只能支持iOS6.0及以上版本的模拟器进行开发和调试,在此条件之下的版本只能使用硬件设备进行开发调试.虽然现在低版本的iOS设备越来越少了,但是有时客户的需求可能会要求我们一定要兼容iOS5(或更低版本)及以上版本,如果我们手头找不到低版本硬件设备用于调试或者完全使用硬件设备而没有对应的模拟

Android离线语音识别(PocketSphinx)

最近做项目,用到离线语音识别,整了好久,查了好多方法,终于完成,网上资料有点乱,而且大部分就是那几个人写的,一群人转!下面我总结一下,也为后来人行个方便. 关于环境配置我就不多说了,我就是按照这个教程一步步来的,绝对是可行的.http://gaebolg.blog.163.com/blog/static/19826906820136232810723/ 下面重点讲解一下demo的运行和语音库的配置(注意:上面那个教程的运行demo最后写的一塌糊涂,可以从拷贝声学模型和语音库那里开始看我的!) 首

在CentOS上安装GO运行环境及其开发工具LiteIDE

早在五年前,我就想着要是微软出一套基于C语言的易于开发的Web框架该多好,那性能肯定比Asp.Net要高很多.后来知道有个PHP性能不错,但是又由于讨厌在HTML页面里面写蛋疼的后台代码,于是一度很鄙视PHP.最近由于云计算的风行,GO语言也被追捧,下面我就在CentOS系统上安装GO运行时和开发工具做尝试. 一.安装GO运行环境 1.安装GO运行环境,必须确保机子上已经安装了GCC编译器.想知道机子上有没有安装GCC简单,只需输入"gcc --version"查看即可,如果提示了GC

CentOS6.5中ansible的离线编译安装

Ansible离线编译安装 (1)python2.7安装 准备编译环境    yum install zlib-devel bzip2-devel  openssl-devel gcc python-devel     https://www.python.org/ftp/python/2.7.8/Python-2.7.8.tgz    tar xvzf Python-2.7.8.tgz    cd Python-2.7.8    ./configure --prefix=/usr/local/

安装Python运行环境

可以直接在python的官网下载相应操作系统平台的python安装包:https://www.python.org/downloads 点击下载后出现的安装界面,建议选中界面下方的Add Python 3.x to PATH复选框,这样安装的程序就会自动将Python的路径加到PATH环境变量中. 2.配置环境变量 在Windows平台配置PATH环境变量的步骤如下: (1)右击 “计算机”,在弹出的快捷菜单中选择“属性”菜单项,会显示如下图窗口,点击高级系统设置,选择环境变量 在环境对话框中有

Visual Studio for Mac Preview离线下载安装

Visual Studio for Mac离线下载安装. 环境:OS X EI Caption 10.11.2 .NET Core SDK 1.1 需预先安装 .NET Core 1.1 SDK macOS版下载地址:https://go.microsoft.com/fwlink/?LinkID=835011 安装SDK需先安装openssl. brew update brew install openssl mkdir -p /usr/local/lib ln -s /usr/local/op

请自行检查是否安装VC9运行库??

phpStudy是一款PHP调试环境的程序集成包,该程序包集成最新的Apache+PHP+MySQL+phpMyAdmin+ZendOptimizer,一次性安装,无须配置即可使用,是非常方便.好用的PHP调试环境. 1.程序自带FTP服务器,支持多用户,无需再安装FTP服务器.自带网站挂马监视器,随时记录文件的修改情况,让挂马文件无处可逃. 2.启动失败,原因一是防火墙拦截,二是80端口已经被别的程序占用,如IIS,迅雷等:三是没有安装VC9运行库,php和apache都是VC9编译.解决以上

Coding.net代码托管空间申请与使用-安装并运行WordPress博客

参考: http://www.freehao123.com/coding-net/ Coding.net这是一个国内新兴的代码托管平台,功能主要包括:代码托管.在线运行环境.监控代码质量,兼有一定的社交功能,在线运行环境支持Java.Ruby.Node.js.PHP.Python.Go等多种语言,每个账号可以创建1000个项目. Coding.net与Github不同的是,免费配额并不区分共有项目和私有项目.每个项目运行空间1G,需要指出的是coding.net的初衷并非用来建站,而是一个协作开