<交流贴>android语音识别之科大讯飞语音API的使用


因为最近在研究语音识别,所以借鉴了一下CreAmazing网友的帖子

Android系统本身其实提供有语音识别模块,在它的APIDemo里也有关于语音识别的sample,不过经过大多开发者的真机测试,发现很多真机并不能使用哪个sample,在网上查找了一下原因,大部分是因为开发者在刷机的时候,大部分的ROM都阉割掉了语音识别和语音合成TTS(Text To Speech)部分,所以运行sample的时候会有异常抛出。

如果不用google提供的语音识别,要怎么实现语音识别喃?科大讯飞的语音API就可以到,这里是关于它的官网介绍:http://dev.voicecloud.cn/developer.php?vt=1 下面我就用一个简单的实例来介绍一下它基本的使用

首先做一个简单的界面

上面的TextView显示识别的内容,三个Button分别为语音识别,语音合成并朗读和语音后台朗读三个功能

布局文件:

  1. <font color="#000"><font face="Arial"><?xml version="1.0" encoding="utf-8"?>
  2. <LinearLayout xmlns:android="http://schemas.android.com/apk/res/android"
  3. android:layout_width="fill_parent"
  4. android:layout_height="fill_parent"
  5. android:orientation="vertical" >
  6. <EditText
  7. android:id="@+id/et"
  8. android:layout_width="fill_parent"
  9. android:layout_height="wrap_content" />
  10. <Button
  11. android:id="@+id/bt_recognize"
  12. android:layout_width="fill_parent"
  13. android:layout_height="wrap_content"
  14. android:gravity="center"
  15. android:text="Recognize" />
  16. <Button
  17. android:id="@+id/bt_speek"
  18. android:layout_width="fill_parent"
  19. android:layout_height="wrap_content"
  20. android:gravity="center"
  21. android:text="Speek" />
  22. <Button
  23. android:id="@+id/bt_speek_bg"
  24. android:layout_width="fill_parent"
  25. android:layout_height="wrap_content"
  26. android:gravity="center"
  27. android:text="Speek-Background" />
  28. </LinearLayout>  </font></font>

复制代码

Activity代码如下:

  1. <font color="#000"><font face="Arial">package sina.CreAmazing.voice;
  2. import java.util.ArrayList;
  3. import com.iflytek.speech.RecognizerResult;
  4. import com.iflytek.speech.SpeechError;
  5. import com.iflytek.speech.SynthesizerPlayer;
  6. import com.iflytek.ui.RecognizerDialog;
  7. import com.iflytek.ui.RecognizerDialogListener;
  8. import com.iflytek.ui.SynthesizerDialog;
  9. import com.iflytek.ui.SynthesizerDialogListener;
  10. import android.app.Activity;
  11. import android.os.Bundle;
  12. import android.view.View;
  13. import android.view.View.OnClickListener;
  14. import android.widget.Button;
  15. import android.widget.EditText;
  16. public class Voice1Activity extends Activity {
  17. /** Called when the activity is first created. */
  18. // 声明控件
  19. private EditText et;
  20. private Button bt1;
  21. private Button bt2;
  22. private Button bt3;
  23. //全局只设一个String,因为String为final类型,这样做节省内存
  24. String text = "";
  25. private static final String APPID = "appid=4f2d3a06";
  26. @Override
  27. public void onCreate(Bundle savedInstanceState) {
  28. super.onCreate(savedInstanceState);
  29. setContentView(R.layout.main);
  30. bt1 = (Button) findViewById(R.id.bt_recognize);
  31. bt2 = (Button) findViewById(R.id.bt_speek);
  32. bt3 = (Button) findViewById(R.id.bt_speek_bg);
  33. et = (EditText) findViewById(R.id.et);
  34. // 初始化监听器
  35. initListener();
  36. }
  37. private void initListener() {
  38. bt1.setOnClickListener(myListener);
  39. bt2.setOnClickListener(myListener);
  40. bt3.setOnClickListener(myListener);
  41. }
  42. OnClickListener myListener = new OnClickListener() {
  43. @Override
  44. public void onClick(View v) {
  45. // 根据不同View的id调用不同方法
  46. switch (v.getId()) {
  47. case R.id.bt_recognize:
  48. // 这是语言识别部分,最重要的实例化一个
  49. // RecognizerDialog并把你在官方网站申请的appid填入进去,非法id不能进行识别
  50. RecognizerDialog isrDialog = new RecognizerDialog(
  51. Voice1Activity.this, APPID);
  52. /*
  53. * 设置引擎目前支持五种 ”sms”:普通文本转写 “poi”:地名搜索 ”vsearch”:热词搜索
  54. * ”video”:视频音乐搜索 ”asr”:命令词识别
  55. */
  56. isrDialog.setEngine("sms", null, null);
  57. isrDialog.setListener(recoListener);
  58. isrDialog.show();
  59. break;
  60. case R.id.bt_speek:
  61. // 这是语言合成部分 同样需要实例化一个SynthesizerDialog ,并输入appid
  62. SynthesizerDialog syn = new SynthesizerDialog(
  63. Voice1Activity.this, APPID);
  64. syn.setListener(new SynthesizerDialogListener() {
  65. @Override
  66. public void onEnd(SpeechError arg0) {
  67. }
  68. });
  69. // 根据EditText里的内容实现语音合成
  70. syn.setText(et.getText().toString(), null);
  71. syn.show();
  72. break;
  73. case R.id.bt_speek_bg:
  74. // 这是后台朗读,实例化一个SynthesizerPlayer
  75. SynthesizerPlayer player = SynthesizerPlayer
  76. .createSynthesizerPlayer(Voice1Activity.this, APPID);
  77. // 设置语音朗读者,可以根据需要设置男女朗读,具体请看api文档和官方论坛
  78. player.setVoiceName("vivixiaomei");
  79. player.playText(et.getText().toString(), "ent=vivi21,bft=5",
  80. null);
  81. break;
  82. default:
  83. break;
  84. }
  85. }
  86. };
  87. // 语言识别监听器,有两个方法
  88. RecognizerDialogListener recoListener = new RecognizerDialogListener() {
  89. @Override
  90. public void onResults(ArrayList<RecognizerResult> results,
  91. boolean isLast) {
  92. // 服务器识别完成后会返回集合,我们这里就只得到最匹配的那一项
  93. text += results.get(0).text;
  94. System.out.println(text);
  95. }
  96. @Override
  97. public void onEnd(SpeechError error) {
  98. if (error == null) {
  99. // 完成后就把结果显示在EditText上
  100. et.setText(text);
  101. }
  102. }
  103. };
  104. }</font></font>

复制代码

最后别忘了把科大讯飞的jar包引入工程的buildPath里面。

运行画面:

语音识别:

语音合成:

其实功能还不止这些,还有数据上传,关键字识别,获取上行下行流量,设置采样频率设置发音人,语速,音量等等等,如果感兴趣可以自己深入研究。

接上文,如何实现语音控制呢?比如当我们说天气的时候,界面会自动呈现的天气预报的界面,当我们说UC的时候,会自动跳转到UC浏览器上等等。其实方法很简单,仅仅需要对识别到的字符串进行判断,当它符合特定的字符串是就对Activity进行跳转,跳转到自己写好的Activity上,或者跳转到已安装的应用上,下面来看具体怎么实现:

首先我们在layout布局里增加一个ToggleButton用于开关语音控制:

然后我们就在获取结果的RecognizerDialogListener下面改变几行代码:

  1. <font color="#333333"><font face="Arial">RecognizerDialogListener recoListener = new RecognizerDialogListener() {
  2. @Override
  3. public void onResults(ArrayList<RecognizerResult> results,
  4. boolean isLast) {
  5. //新增加了一个ToggleButton tb,首先检查tb是否被按下,如果被按下才进行语言控制,没被按下就进行文字识别
  6. if (tb.isChecked()) {
  7. //doVoice方法就是进行识别
  8. doVoice(results);
  9. } else {
  10. // 服务器识别完成后会返回集合,我们这里就只得到最匹配的那一项
  11. text += results.get(0).text;
  12. System.out.println(text);
  13. }
  14. }</font></font>

复制代码

如果进行语言识别就把返回的结果传入上面的doVoice方法里,doVoice如下:

  1. <font color="#333333"><font face="Arial">//首先迭代结果,然后获取每个结果,并进行对比,如果包含有特定字符串,那么就执行相应Intent跳转。
  2. //注意 凡是Intent能办到的(发邮件,跳到已安装应用,拨号,发短信,发彩信,浏览网页,播放多媒体。。。。),它就都能办到。
  3. private void doVoice(ArrayList<RecognizerResult> results) {
  4. Intent i = new Intent();
  5. for(RecognizerResult result : results){
  6. if(result.text.contains("天气")){
  7. //天气界面的跳转
  8. i.setClass(Voice1Activity.this, Weather.class);
  9. startActivity(i);
  10. }else if(result.text.contains("新闻")){
  11. //新闻界面的跳转
  12. i.setClass(Voice1Activity.this, News.class);
  13. startActivity(i);
  14. }else if(result.text.contains("短信")){
  15. //短信界面的跳转
  16. i.setAction(Intent.ACTION_VIEW);
  17. i.setType("vnd.android-dir/mms-sms");
  18. startActivity(i);
  19. }else{
  20. //如果没有相应指令就用Toast提示用户
  21. Toast.makeText(Voice1Activity.this, "无法识别", Toast.LENGTH_SHORT).show();
  22. }
  23. }
  24. } </font></font>

复制代码

如下是做得相应简单界面:

<ignore_js_op>

<ignore_js_op>

其实在主UI里执行那么耗时操作比如语音的识别与控制并不是很好的方法,其实完全可以把这些耗时的操作交给Service来做只要在主Activity的开始,启动一个Service,定义好各种逻辑接口并把那些耗时的操作交给Service就行了,在Service里面实现语音的识别,控制和逻辑的跳转。

源码地址:

游客,如果您要查看本帖隐藏内容请回复

时间: 2024-11-04 21:11:55

<交流贴>android语音识别之科大讯飞语音API的使用的相关文章

转:基于科大讯飞语音API语音识别开发详解

最近项目需要用到android语音识别,立马就想到科大讯飞,结合官方实例及阅读API文档,初步的完成了Android语音识别,下面是实现过程实录. 一.准备工作 1.你需要android手机应用开发基础 2.科大讯飞语音识别SDK android版 3.科大讯飞语音识别开发API文档 4.android手机 关于科大讯飞SDK及API文档,请到科大语音官网下载:http://open.voicecloud.cn/ 当然SDK和API有多个版本可选,按照你的需要下载,其次,下载需要填写资料申请注册

Android 通过调用系统,如接口 谷歌语音、百度语音、科大讯飞语音等语音识别方法对话框

现在app在发展过程中会集成一些语音识别功能,不具有其自己的显影剂一般正在开发的语音识别引擎,所以在大多数情况下,它是选择一个成熟的语音识别引擎SDK集成到他们的app在. 平时,这种整合被分成两个,一种是直接调用SDK开发商设计了弹出框.互界面:另一种是开发人员仅仅利用SDK提供的语音识别服务,自己开发一个属于自己的交互设计. 本文介绍最简单直接调起弹出框的方法. 首先.測试机须要安装如谷歌语音.百度语音.讯飞语音等产品的语音软件,这时能够在系统设置界面的语言与输入处找到相关的语音识别功能列表

利用百度语音API进行语音识别。

由于项目需要,这几天都在试图利用百度语音API进行语音识别.但是识别到的都是“啊,哦”什么的,我就哭了. 这里我只是分享一下这个过程,错误感觉出现在Post语音数据那一块,可能是转换问题吧. API请求地址::http://vop.baidu.com/server_api 语音上传模式:显示发送:将语音数据直接放在 HTTP-BODY 中 其他参数:cuid:用户id,token:密钥 ,lan:语言等要了解更多请查看官方文档:http://developer.baidu.com/wiki/in

【Util】科大讯飞语音听写接口使用的封装

在 科大讯飞开放平台——语音听写接口的使用 这篇文章里介绍了科大讯飞语音听写接口的简单使用方法,但是在实际开发中发现仅仅那样做在使用起来还是不方便,于是想到把语音听写接口的调用.Json数据解析.听写结果的处理等操作进行封装,使用异步回调的方式进行调用,这样在使用到语音听写的地方只需创建一个监听接口并重写语音识别返回结果的处理方法即可.梳理了一下步骤如下: (一)前期准备工作(略,见科大讯飞开放平台——语音听写接口的使用一文) 注:将获取到的AppId存到一个常量类里,后面便于管理: 1 pub

基于讯飞语音API应用开发之——离线词典构建

最近实习在做一个跟语音相关的项目,就在度娘上搜索了很多关于语音的API,顺藤摸瓜找到了科大讯飞,虽然度娘自家也有语音识别.语义理解这块,但感觉应该不是很好用,毕竟之前用过百度地图的API,有问题也找不到人帮忙解决(地图开发者群里都是潜水的)...不得不说,科大讯飞在语音这块尤其是中文识别方面做的真心不错,而且Android还支持离线识别. 讯飞官方给的文档内容很详细,在这我就不赘述了.在开发中,由于一些原因需要用到离线识别这块,就学习了一下.讯飞离线识别只支持Android系统,使用时需要安装讯

基于科大讯飞语音云windows平台开发

前记: 前段时间公司没事干,突发奇想想做一个语音识别系统,看起来应该很简单的,但做起来却是各种问题,这个对电气毕业的我,却是挺为难的.谷姐已经离我们而去,感谢度娘,感谢CSDN各位大神,好歹也做的是那么回事了,虽然还是不好用,但基本功能实现了. 该软件使用VS2008C++/CLR开发,由于科大讯飞提供的是C的API接口,结果到这边就是各种不兼容,CLR是基于托管堆运行的,而这个API有是非托管堆的,使用了各种指针,原本打算使用C#来做,最后门外汉的我也没能做到C#和C指针完美结合,真怀恋单片机

IOS开发学习笔记(二)-语音识别(科大讯飞)

上次简单地讲解了如何利用科大讯飞完成语音合成,今天接着也把语音识别整理一下.当然,写代码前我们需要做的一些工作(如申请appid.导库),在上一篇语音合成的文章当中已经说过了,不了解的可以看看我上次的博文,那么这次直接从堆代码开始吧. 详细步骤: 1.导完类库之后,在工程里添加好用的头文件.在视图里只用了一个UITextField显示识别的内容,两个UIButton(一个开始监听语音,一个结束监听),然后引入类.添加代理,和语音合成的一样. MainViewController.h 1 #imp

【语音从零之五】用科大讯飞语音包实现语音打开已安装应用程序

[更新]有人说不会使用科大讯飞的语音包.这里是传送门,能够參考从零系列的前四篇文章 (一)利用科大讯飞语音包实现Android语音识别Demo (二)科大讯飞语音包Mscdemo的使用 (三)自己定义类中调用讯飞语音包错误解决的方法 (四)运用Handler另起线程执行科大讯飞语音识别 本文主要介绍怎样利用语音包实现口语控制打开应用程序,比如:说"打开计算器",计算器就彭地打开了. 要完毕这个功能,首先要识别出指令是"打开",然后识别出应用程序名称是"计算

android语音识别和合成第三方 .

讯飞语音云 http://open.voicecloud.cn/index.php 目前支持6大类型的SDK下载,包括Android. iPhone平台移动应用的接入,Windows.Linux平台PC应用的接入,以及Flash.Java网页应用的接入 开发文档和API下载:http://open.voicecloud.cn/download.php http://blog.csdn.net/goodshot/article/details/9966713 android语音识别和合成第三方 .