使用Olami SDK实现一个语音输入数字进行24点计算的iOS程序

前言

在目前的软件应用中,输入方式还是以文字输入方式为主,但是语音输入的方式目前应用的越来越广泛。这是一个利用 Olami SDK 编写的一个24点iOS程序,是通过语音进行输入。

Olami SDK的介绍在下面这个网址

https://cn.olami.ai/wiki/?mp=sdk&content=sdk/ios/reference.html

在这个网址中详细的介绍了Olami SDK包含了那些函数和定义的委托。

App实现

下面就通过24点这个程序来介绍一下如何使用这个SDK。

这个APP可在 https://github.com/lym-ay/OlamiRecognizerMath24 下载

  1. 去上面的网址下载Olami SDK.包括两个文件,其中的一个是Olami的静态函数库,一个是其头文件

    第一步是初始化Olami的语音识别对象,并设置代理

olamiRecognizer= [[OlamiRecognizer alloc] init];
olamiRecognizer.delegate = self;

2.调用setAuthorization函数进行授权

[olamiRecognizer setAuthorization:@"d13bbcbef2a4460dbf19ced850eb5d83"
    api:@"asr" appSecret:@"3b08b349c0924a79869153bea334dd86" cusid:OLACUSID];

这个函数的参数的说明在OlamiRecognizer中有说明,也可以去在线API说明去查看

https://cn.olami.ai/wiki/?mp=sdk&content=sdk/ios/reference.html

有些参数必须去Olami的开发平台上注册才可以获的,网址是https://olami.ai

3.设置语系

[olamiRecognizer setLocalization:LANGUAGE_SIMPLIFIED_CHINESE];

在进行录音之前必须要先进行设置,否则会得不到结果。目前只支持简体中文(LANGUAGE_SIMPLIFIED_CHINESE)

4.开始录音

调用 start()接口开始进行录音

[olamiRecognizer start];

5.得到录音的文字和语义,并对其进行处理

通过调用stop()函数或者自动停止,都会获得录音的文字和对其进行的语义分析的结果

实现OlamiRecognizerDelegate onResult函数可以获得结果,其结果以一个json字符串的形式回调过来,对这个字符串进行解析,就可以获得想要的数字。例如对着话筒说”2345算24点”,得到的结果如下

{
    "data": {
        "asr": {
            "result": "二 三 四 五 算 二 十 四 点",
            "speech_status": 0,
            "final": true,
            "status": 0
        },
        "nli": [
            {
                "desc_obj": {
                    "status": 0
                },
                "semantic": [
                    {
                        "app": "math24",
                        "input": "二三四五算二十四点",
                        "slots": [
                            {
                                "num_detail": {
                                    "recommend_value": "",
                                    "type": "number"
                                },
                                "name": "number3",
                                "value": "4"
                            },
                            {
                                "num_detail": {
                                    "recommend_value": "",
                                    "type": "number"
                                },
                                "name": "number4",
                                "value": "5"
                            },
                            {
                                "num_detail": {
                                    "recommend_value": "",
                                    "type": "number"
                                },
                                "name": "number1",
                                "value": "2"
                            },
                            {
                                "num_detail": {
                                    "recommend_value": "",
                                    "type": "number"
                                },
                                "name": "number2",
                                "value": "3"
                            }
                        ],
                        "modifier": [
                            "play_calculate"
                        ],
                        "customer": "58df685e84ae11f0bb7b4893"
                    }
                ],
                "type": "math24"
            }
        ]
    },
    "status": "ok"
}

这个是根据OSL语法描述语言定义的一套规则,返回的结果。这个结果的说明在 https://cn.olami.ai/wiki/?mp=api_nlu&content=api_nlu3.html 这个网址上有说明。

看到这里大家可能会有疑惑,APP怎么知道我说的是什么意思呢?这就涉及到了OSL语法描述语言,OLAMI 语法描述语言(OLAMI Syntax Language,简称:OSL)是 OLAMI 平台针对自然语言处理所发展出的独特语法标记语言,自然语言语义互动(Natural Language Interaction, 简称:NLI)管理系统采用 OSL 取代复杂的编码编程,使用简单、容易学习而且灵活有弹性。可以在这个网址查看详细的说明

https://cn.olami.ai/wiki/?mp=osl&content=osl1.html

在编写这个APP之前,会按照OSL的要求编写好一套语法,这套语法可以被Olami的服务器所理解,并进行语义分析然后给出结果,就是上面的json字符串。在Olami官网上有写好的一些领域的模块,可以直接使用。在 https://cn.olami.ai/wiki/?mp=nli&content=nli1.html 网址可以看到介绍如何使用以后的模块。这个24点就是利用已有的模块来编写代码的。

6.onResult 函数的说明

在整个程序中,最主要的一个函数就是onResult函数

- (void)onResult:(NSData *)result {
    NSError *error;
    __weak typeof(self) weakSelf = self;
    NSDictionary *dic = [NSJSONSerialization JSONObjectWithData:result
                        options:NSJSONReadingMutableContainers
                        error:&error];
    if (error) {
        NSLog(@"error is %@",error.localizedDescription);
    }else{
        NSString *jsonStr=[[NSString alloc]initWithData:result
                          encoding:NSUTF8StringEncoding];
        NSLog(@"jsonStr is %@",jsonStr);
        NSString *ok = [dic objectForKey:@"status"];
        if ([ok isEqualToString:@"ok"]) {
            NSDictionary *dicData = [dic objectForKey:@"data"];
            NSDictionary *asr = [dicData objectForKey:@"asr"];
            if (asr) {//如果asr不为空,说明目前是语音输入
                [weakSelf processASR:asr];
            }
            NSDictionary *nli = [[dicData objectForKey:@"nli"] objectAtIndex:0];
            NSDictionary *desc = [nli objectForKey:@"desc_obj"];
            int status = [[desc objectForKey:@"status"] intValue];
            if (status != 0) {// 0 说明状态正常,非零为状态不正常
                NSString *result  = [desc objectForKey:@"result"];
                dispatch_async(dispatch_get_main_queue(), ^{
                    _resultTextView.text = result;
                });

            }else{
                NSDictionary *semantic = [[nli objectForKey:@"semantic"]
                                         objectAtIndex:0];
                [weakSelf processSemantic:semantic];

            }

        }else{
            dispatch_async(dispatch_get_main_queue(), ^{
                _resultTextView.text = @"请说出10以内的4个数";
            });
        }
    }

}

在这个函数中,调用了三个函数,分别来处理josn格式中的三个比较重要的节点

- (void)processASR:(NSDictionary*)asrDic {
    NSString *result  = [asrDic objectForKey:@"result"];
    if (result.length == 0) { //如果结果为空,则弹出警告框
        UIAlertController *alertController = [UIAlertController
                                              alertControllerWithTitle:@"没有接受到语音,请重新输入!"
                                              message:nil
                                              preferredStyle:UIAlertControllerStyleAlert];
        [self presentViewController:alertController animated:YES completion:^{
            dispatch_time_t time=dispatch_time(DISPATCH_TIME_NOW, 1*NSEC_PER_SEC);
            dispatch_after(time, dispatch_get_main_queue(), ^{
                [alertController dismissViewControllerAnimated:YES completion:nil];

            });

        }];

    }else{
        dispatch_async(dispatch_get_main_queue(), ^{
            NSString *str = [result stringByReplacingOccurrencesOfString:@" " withString:@""];//去掉字符中间的空格
            _inputTextView.text = str;
        });
    }

}

这个用来处理ASR节点,获得语音识别的结果,显示在第一个TextView中

- (void)processSemantic:(NSDictionary*)semanticDic {
    NSArray *slot = [semanticDic objectForKey:@"slots"];
    [_slotValue removeAllObjects];
    if (slot.count != 0) {
        for (NSDictionary *dic in slot) {
            NSString* val = [dic objectForKey:@"value"];
            [_slotValue addObject:val];
        }

    }

    NSArray *modify = [semanticDic objectForKey:@"modifier"];
    if (modify.count != 0) {
        for (NSString *s in modify) {
            [self processModify:s];

        }

    }

}

这个用来处理Semantic节点,这个节点中包含了slot的值。OSL 语法描述语言中的 slot 可理解为语义中的变量,用于传递、提取信息。关于slot的值可以参考 https://cn.olami.ai/wiki/?mp=osl&content=osl_slot.html,这里有详细说明。在24点程序中我们的要计算的数字就是从这里获得的。

- (void)processModify:(NSString*) str {
    if ([str isEqualToString:@"play_want"]
        || [str isEqualToString:@"play_want_ask"]
        || [str isEqualToString:@"needmore"]
        || [str isEqualToString:@"needmore_ask"]) {//要求用户输入值
        dispatch_async(dispatch_get_main_queue(), ^{
            _resultTextView.text = @"请说出10以内的4个数";
        });
    }else if ([str isEqualToString:@"rules"]){
        dispatch_async(dispatch_get_main_queue(), ^{
            _resultTextView.text = @"四个数字运算结果等于二十四";
        });

    }else if ([str isEqualToString:@"play_calculate"]){
        NSString* str = [[Math24 shareInstance] calculate:_slotValue];
        dispatch_async(dispatch_get_main_queue(), ^{
            _resultTextView.text = str;
        });

    }else if ([str isEqualToString:@"attention"]){
        dispatch_async(dispatch_get_main_queue(), ^{
            _resultTextView.text = @"四个数字必须是10以内的,不能超过10";
        });
    }

}

这个用来处理语音和语义的结果。这个函数主要是处理json字符串中的modifier节点。modifier 语法描述规则是 OSL 语法描述语言中,除了 slot 以外的另一种内置的信息传递机制,一般用来表示语义目的,也可以理解为对于语义的一种注释方式,以便让应用程序的开发者得知 grammar 所代表的相应意图。详细说明参考

https://cn.olami.ai/wiki/?mp=osl&content=osl_regex.html#11通过modifier,我们才能知道程序的意图是什么?例如是想发问,还是计算结果。

如上代码所示,在24点钟我们定义了7个modifier,根据字面意思大家也可以猜出来。这些都可以在OSL语法中自定义,然后通过Josn字符串获得,在程序中进行处理。

时间: 2024-11-23 09:49:42

使用Olami SDK实现一个语音输入数字进行24点计算的iOS程序的相关文章

2014年去哪儿网笔试题--一个10*10的矩阵(可以理解为棋盘),随时生成一组数据填入矩阵,任何一个位置的数字除4进行计算,按余数着色...

一个10*10的矩阵(可以理解为棋盘),随时生成一组数据填入矩阵,任何一个位置的数字除4进行计算,按余数着色,余数为0着色为red,1为blue,2为green,3为black,可以理解为生成4中颜色的棋子放入棋盘,如果存在其中同色五星连珠的情况(规则通五子棋),找出任意一组,输出5个棋子的位置下标值. 只是用最笨的方法实现一下: public class FiveColor { public void test(){ int a[][]=new int[10][10]; for(int i=0

在WPF中,有没有一个只能输入数字的控件啊!

目前没有吧,你可以有两种选择: 1.重写控件,截获消息 2.为TextBox加事件,屏蔽按键 以下给出第二种方案: 为TextBox加两个事件:TextChanged和KeyDown事件,具体如下: KeyDown事件: private void TextBox_KeyDown(object sender, System.Windows.Input.KeyEventArgs e) { TextBox txt = sender as TextBox; //屏蔽非法按键 if ((e.Key >=

iOS 10中如何搭建一个语音转文字框架

在2016WWDC大会上,Apple公司介绍了一个很好的语音识别的API,那就是Speech framework.事实上,这个Speech Kit就是Siri用来做语音识别的框架.如今已经有一些可用的语音识别框架,但是它们要么太贵要么不好.在今天的教程里面,我会教你怎样创建一个使用Speech Kit来进行语音转文字的类似Siri的app. 设计App UI 前提:你需要Xcode 8 beta版本和一个运行iOS 10 beta系统版本的iOS 设备.先从创建一个新的命名为SpeechToTe

js控制input框输入数字时,累计求和

input框输入数字时,自动开始计算累加 <div class="form-group"> <label for="inputPassword3" class="col-sm-2 control-label"><?php echo $this->translate('申请类型');?></label> <div class="col-sm-5"> <div

使用Olami SDK 语音控制一个支持HomeKit的智能家居的iOS程序

前言 HomeKit是苹果发布的智能家居平台.通过HomeKit组件,用户可以通过iphone.iPad和ipod Touch来控制智能灯泡,风扇.空调等支持HomeKit的智能家居,尤其是可以通过Siri进行语音控制. 但是通过Siri进行语音控制有个很大的问题,就是Siri支持的语料无法进行自由的扩展,没办法添加更多的说法.而Olami SDK则可以通过OSL(OLAMI 语法描述语言 OLAMI Syntax Language,简称:OSL)自由的进行扩展,对智能对话的能力扩展变得非常容易

利用Olami SDK 实现语音控制计算器(iOS)

博客链接:http://blog.csdn.net/scarlettzhao0602/article/details/76576836 一.简介: Olami Calculator是一款在键盘输入算式的普通计算器的基础上,增加了支持语音控制输入算式输出结果的人工智能计算器.此外还增加了多种动画效果,计算结果提示音功能,多元化主题换肤功能,以及保存计算公式,侧滑栏查看收藏记录等功能.网上也有许多语音计算器,但是打开看,只是添加了按钮提示音等,并不能识别我们对着计算器说的内容,而Olami Calc

执行这些代码, Edit1只能输入数字,小数点和负号,负号和小数点只能输入一个,负号必须在最前,粘贴的数字必须完全正确.

执行这些代码, Edit1只能输入数字,小数点和负号,负号和小数点只能输入一个,负号必须在最前,粘贴的数字必须完全正确. type TForm1 = class(TForm) Edit1: TEdit; procedure FormCreate(Sender: TObject); private Edit1OldProc: TWndMethod; procedure Edit1NewProc(var Message: TMessage); public { Public declarations

面试题3:在一个长度为n的数组里的所有数字都在0到n-1的范围内。 数组中某些数字是重复的,但不知道有几个数字是重复的。也不知道每个数字重复几次。请找出数组中任意一个重复的数字。 例如,如果输入长度为7的数组{2,3,1,0,2,5,3},那么对应的输出是第一个重复的数字2。

package siweifasan_6_5; /** * @Description:在一个长度为n的数组里的所有数字都在0到n-1的范围内. * 数组中某些数字是重复的,但不知道有几个数字是重复的.也不知道每个数字重复几次. * 请找出数组中任意一个重复的数字. * 例如,如果输入长度为7的数组{2,3,1,0,2,5,3},那么对应的输出是第一个重复的数字2. * @Parameters: // Parameters: // numbers: an array of integers //

剑指offer(Java版)第一题:在一个长度为n的数组里的所有数字都在0到n-1的范围内。 数组中某些数字是重复的,但不知道有几个数字重复了,也不知道每个数字重复了几次。 *请找出数组中任意一个重复的数字。 *例如,如果输入长度为7的数组{2, 3, 1, 0, 2, 5, 3},那么对应的输出是重复的数字2或者3。

/*在一个长度为n的数组里的所有数字都在0到n-1的范围内. * 数组中某些数字是重复的,但不知道有几个数字重复了,也不知道每个数字重复了几次. * 请找出数组中任意一个重复的数字. * 例如,如果输入长度为7的数组{2, 3, 1, 0, 2, 5, 3},那么对应的输出是重复的数字2或者3.*/ import java.util.*; public class Class1 { static class findRepeatedNumber{ public int findRepeatedN