智能语音人机交互产业链及关键技术分析

人机交互是一门计算机科学,主要研究关于设计、评价和实现供人们使用的交互计算系统以及相关现象的科学。人机交互的发展经历了以下几个阶段:手工作业阶段、作业控制语言与交互命令语言阶段、图形用户界面(GUI)阶段、网络用户界面,目前已经发展到多通道、多媒体的智能人机交互阶段。其中,语音人机交互是当前多通道、多媒体智能人机交互的主要方式。特别是苹果Siri、科大讯飞语点的出现,让智能语音人机交互技术实现了新的跨越,得到了社会各界的广泛关注。

一、智能语音人机交互产业发展现状

什么是智能语音人机交互技术?简单说,就是一种以语音为主要信息载体,让机器具有像人一样“能听会说、自然交互、有问必答”能力的综合技术,它涉及自然语言处理、语义分析和理解、知识构建和自学习能力、大数据处理和挖掘等前沿技术领域。这种技术既可以作为独立的软件系统运行在用户的计算机和智能手机上,也可以嵌入到具有联网能力的设备中。

近几年,随着语音技术的不断发展,人机交互逐渐走入语音时代,特别是Siri的出现推动了智能语音人机交互产业发展迎来了新的高峰。主要体现在:一是技术水平不断提高,特别是语音合成和基础语音识别技术发展较快;二是产业规模持续扩大,带动了家电、汽车、移动互联网等一批相关产业的发展;三是优秀企业大幅涌现,出现了如Nuance、谷歌、科大讯飞、捷通华声等一批优秀的企业。

同时,产业发展也存在一些问题:一方面,语音识别技术主要还是用于识别一些命令词汇和固定的语法格式,大规模的语音数据识别技术仍有待提高;另一方面缺乏成熟的商业模式极大地制约着产业的可持续发展。

二、智能语音人机交互产业链分析

经过多年的发展,智能语音人机交互产业形成了从核心技术研发到知识库提供再到应用、服务的完善的产业链。

图1 智能语音人机交互产业链

(一)核心技术研发

包括人工智能机器人厂商、人机交互技术和渠道提供商,以及基础平台支撑和关联技术提供商。

1、人工智能机器人厂商

主要包括小i机器人等智能机器人厂商,以及清华、中科院等人工智能技术研究院校和科研院所。

2、人机交互技术或渠道提供商

包括Nuance、科大讯飞、捷通华声、车音网等语音技术提供商,以及短信(移动、电信、联通)、QQ、MSN等服务提供商。

3、基础平台支撑和关联技术提供商

包括IDC、云计算平台、数据挖掘等技术提供商。

(二)知识库提供

主要是指数据和内容提供商,包括影视(百事通、优酷、土豆、奇异、华数等)、电影票(格瓦拉等)、音乐、餐饮(大众点评、订餐小秘书)、股票(新浪财经、东方财富网等)、天气(问天网)、航班(携程、去哪儿)、旅游(携程、驴妈妈)、导航(高德、凯立德等)、政府、行业知识库等。

(三)应用、服务

1、智能电视提供商

包括长虹、创维等智能电视提供商、机顶盒提供商,以及东方有线、百事通、中国电信IPTV以及机顶盒生产厂商、服务运营商等,也可以包括费通、盛付通等支付渠道商。

2、智能车载设备提供商

包括各车厂、汽车安全信息服务提供商(如安吉星等)、车载信息服务提供商(如高德、凯立德等)等。

3、电话呼叫中心

包括移动、电信、联通各运营商,以及以金融为代表的大型现代服务企业,还有面向中小型企业的综合服务平台等。

4、智能移动终端厂商

包括以华为、联想、盛大、中兴等为代表的智能移动终端厂商。

5、智能家居厂商

包括以海尔、典众智能为代表的智能家居厂商。

三、智能语音人机交互产业竞争格局

随着人机交互技术对语音技术的强烈需求,除了传统的智能机器人厂商以外,语音技术提供商和传统的搜索厂商也纷纷推出自己的产品,进入智能语音人机交互行列,形成了智能机器人厂商、语音技术提供商、传统搜索厂商和移动客户端开发者四大阵营,产业竞争进一步加剧。

(一)智能机器人厂商

智能机器人厂商是目前主要的智能交互技术提供商,是智能交互产业的重要组成部分。Gartner报告指出,截止2011年初,全球大约有36家智能客服系统服务商。如美国加州的eGain,主要为客户提供“云计算”交互中心方案或内部部署,客户超过上百家,遍及电信、金融、零售、公共事业、政府、制造、媒体、电子商务、旅游、汽车、外包、科技以及服务等行业。瑞典的Artificial Solutions定位于为企业和政府机构开发客服机器人,他们已经成功的为欧洲近几十个政府部门提供客服机器人,从而减轻人工工作压力。

智能客服机器人在国内的发展应用于近几年呈现出了快速增长的势头,其中有代表性的是小i机器人推出的智能客服机器人系列产品。

(二)语音技术提供商

语音技术提供商纷纷借助这次智能语音人机交互产业发展高潮,不断推出相关产品,提升自己提供智能机器人解决方案的能力。Nuance除了在北美市场拥有自己类似的解决方案Dragon go!,也在亚洲市场和一些当地合作伙伴合作,共推解决方案。国内语音技术引领者科大讯飞也推出了讯飞语点这样的产品。但语音厂商推出的智能机器人有明显的语音技术的痕迹,主要是命令格式的识别,而自然语言处理和智能交互性存在一定的不足。

(三)搜索厂商

虽然Siri也整合多家搜索引擎,但在很多情况下,是直接给了用户答案,这种方式的易用性和效率以及用户体验远比传统的搜索引擎要强,也是对传统搜索的挑战。因此国际搜索巨头谷歌,以及国内的搜索公司百度、搜搜、搜狗等都在准备智能语音人机交互产品,提升自我竞争力。谷歌发布Google Now,能自动从互联网寻找知识,能回答的内容甚至比Siri更多。

(四)移动客户端开发者

Siri出现和移动互联网的空前繁荣,引来的无数移动客户端开发者开发智能语音人机交互相关的应用。他们采用第三方免费的语音识别服务(如讯飞语音云和谷歌语音搜索等),用简单的关键词匹配或全文检索引擎实现文本交互功能,做了大量的控件在客户端上展示信息,整合了一些诸如指南针的实用小功能等。

四、智能语音人机交互关键技术分析

基于语音的智能人机交互是当前人机交互技术的主要表现形式,语音人机交互过程包括信息输入和输出的交互、语音处理、语义分析、智能逻辑处理以及知识和内容的整合。

图2 智能语音人机交互过程

结合语音人机交互过程,可以看出智能语音人机交互关键技术主要如下:

(一)自然语言处理

包括中文分词、词性标注、实体识别、句法分析、自动文本分类等技术。

(二)语义分析和理解

包括知识表示、本体理论、分领域的语义网络、机器推理等。

(三)知识构建和学习体系

包括搜索技术、网络爬虫、数据挖掘、知识获取、机器学习等技术。

(四)语音技术

包括语音识别、语音合成和声纹识别等。

(五)整合通信技术

包括跨平台即时通讯整合技术、超大负载消息集群处理技术、移动客户端开发技术。

(六)云计算基础技术

包括海量数据分布式存储、统计和分析技术。

五、智能语音人机交互技术在典型行业的应用

语音交互方式替代文本交互方式,可以增强信息输入方式,能和更多的设备进行整合,市场前景广阔。目前,智能语音人机交互技术已经广泛应用到智能客服、智能终端等领域,切实深入到人们的生活。

(一)智能客服

智能客服是以自然语言处理和智能人机交互等多种人工智能技术为基础,通过即时通讯、网页、短信等形式,以拟人化方式与用户进行实时交互的软件系统,能够实现智能客服咨询和产品营销推广等功能。如果在智能客服的交互前端接入经过领域语料训练的语音识别能力,智能客服机器人就可以顺利的接入到目前的电话呼叫中心。

传统的客户服务中心以电话呼叫中心为主,并且很多大型服务企业在不断拓展更为经济高效的电子渠道,如网上在线客服、短信、智能手机应用等。而以领域客户化知识库建设为核心工作,并通过文本或语音等方式交互的智能客服系统则可以有效地和多渠道的客户服务中心做整合。在大幅缩减客服成本的同时,能够有效减少人工成本,增强用户体验,从而提升服务的质量和企业创新的品牌形象。

图3 客服系统技术和产业化路径

国外的智能客服系统市场发展较早,信息系统发展相对完善(尤其是CRM系统),人工服务的成本较高,促使企业有较大的动力采用智能客服系统,智能客服技术提供商和客户较多。

而在国内,由于企业的信息系统发展相对滞后,人力成本相对较低,企业采用智能客服系统的动力严重不足。近几年,随着大家对智能客服的认知的提高,对新技术采用相对比较积极的电信运营商、金融领域已有多家采用了智能客服系统。

随着人们对智能客服系统服务价值的认知度的提高,以及交互习惯的形成,智能客服系统的社会价值和经济价值将会进一步显现。以中国移动的客服机器人测算,目前移动集团在全国的人工客服坐席以10万计,一个坐席一年的运营平均成本为10万,采用智能客服可以节约20%的开销,仅移动行业一年就可以节约成本20亿。据Gartner预计,到2013年全球1000强公司中至少有15%会采用智能客服系统来提高服务水平。

(二)智能终端

以智能手机、平板电脑、智能电视、智能车载为代表的智能终端是智能语音人机交互技术最广泛的应用。在苹果Siri的带动下,包括Android、WP以及采用这些操作系统的平板电脑,都有采用类似Siri的智能应用的强烈需求。谷歌预计目前大约有25%的Android设备通过语音进行搜索。Datamonitor预计到2014年语音识别系统在全球移动终端市场的份额将达到2009年的3倍,移动终端有望成为智能语音技术的一个快速增长市场。

在智能手机领域,随着苹果Siri的推出,三星、LG等一些国际手机厂商,也借助Nuance的Dragon Dictation接入了不错的语音识别能力。

表1 国内外主要语音产品一览


产品


公司名称


应用终端


语音技术提供商


应用平台


首次发布时间


Siri


苹果


智能手机、平板电脑、车载


纽昂斯


iOS


2011年4月


Voice Action


谷歌


智能手机、平板电脑、智能电视


谷歌


Android、iOS、win


2010年8月


Dragon


纽昂斯


智能手机、平板电脑、智能电视、车载


纽昂斯


iOS


2012年3月


Vlingo


Vlingo


智能手机、平板电脑、智能电视、车载


Vlingo


Android、iOS


2011年11月


讯飞语点


科大讯飞


智能手机、平板电脑


科大讯飞


Android、iOS


2012年3月


智能360


上海聚熵


智能手机、平板电脑


谷歌、捷通华声

科大讯飞


Android


2012年1月


百度语音助手


百度


智能手机


捷通华声、

百度


Android、iOS


2012年12月


搜狗语音助手


搜狗


智能手机


捷通华声、

云知声、

科大讯飞


Android、iOS


2012年10月


快说语音助手


快说网络


智能手机


捷通华声、

云知声、

科大讯飞


Android


2012年6月


小智


TCL


智能电视


科大讯飞


Android、win


2011年7月


AppLink


福特


车载


纽昂斯


Android


2012年3月


iVoka


上汽


车载


科大讯飞


Andriod


2012年10月


Ciri


长虹


智能电视


科大讯飞


Android


2012年2月

数据来源:工业和信息化部电子科学技术情报研究所

在智能电视领域,创维、长虹、康佳、TCL、联想、海信等等纷纷推出具有语音功能的智能电视。全新的语音技术也让电视屏幕菜单变得互动(如菜单、频道/音量调节、节目表)、智能操控变得更加有趣、生动和富有情感,真正意义上拉近了电视机与用户之间的距离。

语音技术的发展,为人机交互产业发展带来了新的跨越,极大的增加了人机交互的便捷性,为移动互联网、家电等行业发展带来新的契机。展望未来,随着语音技术和人机交互技术的逐渐成熟,以及高速无线网络(3G/4G/Wifi)、云计算、物联网以及移动互联网等基础技术的发展,以语音为主的人机交互技术的应用将会越来越广泛,并逐渐渗入到人们生活的方方面面。

时间: 2024-08-01 22:47:17

智能语音人机交互产业链及关键技术分析的相关文章

ARM流水线关键技术分析与代码优化

引 言    流水线技术通 过多个功能部件并行工作来缩短程序执行时间,提高处理器核的效率和吞吐率,从而成为微处理器设计中最为重要的技术之一.ARM7处理器核使用了典型三级流 水线的冯·诺伊曼结构,ARM9系列则采用了基于五级流水线的哈佛结构.通过增加流水线级数简化了流水线各级的逻辑,进一步提高了处理器的性能. ARM7的三级流水线在执行单元完成了大量的工作,包括与操作数相关的寄存器和存储器读写操作.ALU操作以及相关器件之间的数据传输.执行单元的工作往 往占用多个时钟周期,从而成为系统性能的瓶颈

实时视频应用之QoS关键技术分析

转自:http://www.aiweibang.com/m/detail/104476372.html?from=p 随着WebRTC标准的逐步推广,实时音视频通讯技术受到越来越多公司和技术人员的关注.对于交互式音视频应用而言,稳定.低延时.通话质量清晰可靠是其基本需求.在互联网环境下,音视频的通话质量与以下因素有关:一是编码码率.帧率和分辨率等编码因素:二是网络的接入类型和接入设备性能:三是对丢包.抖动.乱序以及网络拥塞的自适应调整能力,即QoS(Quality of Service,服务质量

Kafka高性能吞吐关键技术分析

Apache Kafka官网提供的性能说明: Benchmarking Apache Kafka: 2 Million Writes Per Second (On Three Cheap Machines) 原文地址:https://www.cnblogs.com/HopkinsCybn/p/10013966.html

转:IT巨头纷纷“卡位” 智能语音成人机交互入口必争之地

http://www.cs.com.cn/xwzx/hwxx/201707/t20170712_5368595.html 随着物联网的迅速发展,作为重要接口的智能语音技术已成为国内外IT巨头的必争之地.上周,阿里推出了自己的首款智能音箱产品,百度宣布收购美国语 音交互技术公司,而此前,亚马逊.谷歌.苹果.微软等硅谷巨头早已纷纷布局.有机构预计,未来几年智能语音行业将呈现爆发式增长.一场以智能音箱为终端的 物联网接口大战正如火如荼地展开. 物联网接口之争 随着人工智能从高冷的"黑科技"走

蔚来智能语音助手 NOMI 的技术创新

现在一提到蔚来会说服务好,别忘了车里也有硬实力哦.好的服务模式和用车体验,也都基于技术实力. 德国汽车管理中心(CAM)评选的全球豪华汽车创新排行榜,蔚来名列第十.这是中国品牌首次上榜. CAM 很认可蔚来的分布式快速换电和智能语音助手 NOMI 的技术创新.蔚来还有自主研发的 NIO OS 车载信息系统和 NIO Pilot 辅助驾驶系统,使用体验都很棒.不信?来试驾体验下. 原文地址:https://www.cnblogs.com/focus-z/p/12064146.html

手机直播连麦技术分析

直播火了,连麦直播也火了,那么说明是直播,连麦直播是什么. 手机直播连麦功能的特点,我们按下面三部分来聊一聊手机直播和直播连麦: 手机直播连麦功能的特点 人物画像和设计思维 一个有趣的连麦功能交互建议 手机直播连麦功能的特点 体验了斗鱼.NOW直播.美拍直播.淘宝直播.新浪直播.映客.me直播等直播平台.发现只有映客和me直播推出了手机直播的连麦功能. 我们从以下三点来展开分析直播连麦的特点: 连麦功能的权限 连麦人数和显示位置 连麦交互流程 连麦权限 ME直播的连麦功能是没有权限设定的,所有的

5G关键技术评述

业内重大事件: 张  平:无线通信领域专家,北京邮电大学教授,博士生导师,现任北京邮电大学无线新技术研究所(WTI)所长.泛网无线通信教育部重点实验室主任以及中德软件研究所副所长.张平教授是国家宽带无线通信重大专项建议书起草人之一,并担任信息产业部第三代移动通信技术实验专家组成员.国家863未来移动通信FuTURE计划项目总体组成员.中国FuTURE论坛副主席.世界无线研究论坛(WWRF)愿景委员会2005年副主席等,享受政府特殊津贴,北京市第十一届政协委员. 陶运铮:北京邮电大学博士生,主要研

简单剖析智能语音交互技术

机器学习和自然语言处理技术的进步为语音与人工智能的交互提供了可能.人们可以通过对话获得信息,并与机器互动,而机器将不再只存在于科幻小说中.语音交互是未来的发展方向.智能扬声器是语音交互着陆的第一代产品. 以市面上面流行的智能电话机器人为例,他的AI模块主要包含了4部分自动语音识别(Automatic Speech Recognition, ASR),自然语言理解(Natural Language Understanding, NLU),自然语言生成(Natural Language Genera

一文告诉你智能语音中的VAD模块为什么这么重要

计算机交互技术通过几年连续开发,语音信号中包含的情感信息越来越受到关注.通常,语音信号的感情特征多通过语音韵律的变化来表现.例如,当人们生气或惊讶时,演讲速度会增加,音量会增加,音调也会改变,而当你忧郁或伤心时,声音往往很低.因此,振幅的结构.发音的持续时间.说话速度等语音信号的特征是所有重要的研究特征. 在进行语音识别的过程中,系统的处理对象是有效语音信号.尤其在在多人说话的情况下,如果不对输入信号做分离处理而直接进行语音识别的话,识别效果会很差.这时,需要从输入信号中找到语音部分的起止点和终