一首叫作《阿里巴巴》的儿歌这样唱道:阿里巴巴是个快乐的青年,芝麻开门芝麻开门。2017年7月5日,阿里人工智能实验室在北京时间博物馆发布了首个产品:一款名为“天猫精灵”的智能语音音箱。这一天,与1687年7月5日时隔330年,那一天牛顿正式发表了万有引力定律,人类历史从此改变。
一个智能语音音箱显然不能与万有引力定律相提并论,但它对于阿里的意义来说却可大可小。2003年5月淘宝成立,当年10月推出支付宝。此后迄今14年,淘宝一路超越ebay易趣、雅虎等成为亚洲第一大网络零售商。2008年推出淘宝商城,2012年1月更名为天猫,2017年7月“天猫精灵”公测。如今,淘宝加天猫已经晋身为全球最大的网络零售商之一。
阿里公众与客户沟通部张启说:“感觉现在的天猫精灵有点像2003年淘宝刚开始发展的时候,一切都刚开始。”从当年淘宝第一版非常丑陋的网页入口到今天精工细作的智能语音音箱入口,“天猫精灵”会不会成为阿里的下一个进化奇点?人工智能时代,阿里的进化之路又将如何演进?
语音交互是思维方式的变革
自从亚马逊推出Echo智能语音音箱以来,全世界都把目光投向了下一代人机交互方式:智能语音。今年恰逢iPhone十周年,10年前iPhone用手写人机交互方式彻底颠覆了之前的键盘式人机交互,当年很多IT和手机企业都死守键盘交互而最终被甩出历史的舞台。
iPhone的手写人机交互是苹果公司的首创么?当然不是,之前已经有包括微软在内的多家科技公司研发出了手写触屏人机交互技术,但在PC键盘思维统治之下,没有一家公司愿意相信一个没有键盘的手机会成功。苹果推出第一代iPhone,不仅仅是一个技术和产品路线的选择,而是思维方式和观念的彻底变革。
没有键盘的手机,到底如何成功?十年后的今天,同样的问题又出现了。没有手写触屏的智能终端,到底如何成功?如果仅仅把智能语音人机交互看成是一种技术和产品路线,显然无法成功。就像当年的iPhone一样,智能语音人机交互本质上是一种思维方式的变革。
怎么理解智能语音人机交互是一种思维方式的变革呢?很简单,如果一个智能终端只剩下一个麦克和音箱来完成人机交互的话,就将失去手写和键盘输入的丰富而明确的选项与空间,而只剩上下句对话之间的极为有限的选项和空间,这种极简、有限而又模糊的方式,势必倒逼整个互联网产品与生态的重新思考与再设计。
一款智能语音音箱,仅仅是这个重新思维与再设计过程的起点。只有通过学习和积累实际使用智能语音音箱产品的用户行为大数据,才有可能完成这个重新思维与再设计。经过这个过程的洗礼,下一个阿里的形态,才有可能浮出水面。
阿里的“航天飞船”
2016年,阿里人工智能实验室(A.I. Labs)成立,负责阿里巴巴集团旗下消费级AI产品的研发。A.I. Labs的使命是探索人机交互新大陆,带领人们体验探索未知世界的乐趣。在2017年3月,阿里宣布“NASA计划”,聚焦于核心领域的研究,解决未来10年到20年后的困难。而“天猫精灵”作为阿里自研的硬件产品,实际上承担了类似“航天飞船”的硬件功能。
阿里人工智能实验室负责人陈丽娟(花名:浅雪)在“天猫精灵”发布会上介绍,天猫精灵X1机身126mm X 83mm X 83mm、重量400g,比亚马逊Echo和苹果的Homepod都小巧,这样的设计是为了进入家庭时没有侵入感。当然,“天猫精灵”的小巧外形很有可能是针对中国家庭的面积而设计。
为了实现小巧的外形设计,天猫精灵X1采用了首颗专门为智能语音行业开发的芯片,芯片面积减少25%、功耗降低32%、效率提高25%,在解码、降噪、声音处理、多声道的协同等方面做了专门的优化处理。针对需要进行大量音频处理、声音合成的工作环境,定制芯片加入了独立的NEON处理单元,可加速音频和语音处理、电话和声音合成等,带来更优秀的语音识别及音频处理效果。
在收音方案上,天猫精灵X1采用了业界公认的优秀方案——六麦克风收音阵列技术,即顶部的六颗高灵敏麦克风有助于收集到来自不同方向的声音,从而更容易在周围的噪音中识别出有用的信息,来达到更好的远场交互效果。天猫精灵X1还使用了回声对消和远近场拾音等技术,即使在播放音乐的同时也能正常接收语音指令。
由于家庭中有各种各样的噪音,天猫精灵X1开发人员在厨房、客厅、卧室、书房等环境里面,对玻璃、木材、混凝土、金属、石材等各种材质和环境进行了上千次实验,其中对中国家庭环境大量使用的石材和木头材质进行了针对性的测定,让天猫精灵X1能够适应在家庭环境噪音下被唤醒。天猫精灵X1还具备一定的学习功能,可以根据环境噪音进行学习和进化,经过7天左右优化就会更加适应所在家庭环境。
天猫精灵X1内置中文人机交流系统AliGenie,AliGenie实际上与阿里人工智能大脑ET共享技术成果。依靠阿里云强大的机器学习技术和计算能力,AliGenie作为人工智能系统就已经很成熟。因此,天猫精灵X1的难点并不在语音识别、智能语音交互等人工智能功能,反而在于硬件的设计、制造、供应链管理等阿里之前没有涉及到的业务领域。
陈丽娟表示,阿里之所以没有选择外包的方式来完成天猫精灵X1的硬件设计、生产和制造等工作,是因为智能语音音箱涉及到了非常复杂的软硬件集成与硬件工程,目前在市场上还找不到一家能够满足所有上下游零部件集成研发、生产与制造的厂商,因此阿里只好自己来承担这个硬件产业集成的角色。
从这个角度来讲,天猫精灵X1就是阿里NASA的“航天飞船”,它让阿里开始获得硬件产业的知识与实践,也只有很好的软硬件集成,才能最终实现499元的超低市场定价。而与“航天飞船”的“上天”目标相反,天猫精灵X1的目标是“入地”,通过499元的硬件产品把阿里的互联网产品固定到上亿家庭中。
全面激活阿里技术生态体系
天猫精灵X1和AliGenie应用了阿里积累多年的语音识别、自然语言处理、人机交互等技术。
在美国国家标准署2016年的全球说话人识别竞赛(NIST SRE2016),阿里采用了基于深度学习网络的特征提取,借助距离测度学习来提高数据的泛化能力,开创性提出利用对称性支持向量机器来提高系统性能。在近两百多支参赛队伍中,阿里的系统性能在大中华区声纹识别性能排第一、美国赛区第二。这一声纹识别技术也被运用到了X1上,基于声纹识别技术,X1还推出了声纹购功能,这也是是第一个商用的声纹购物系统。
阿里人工智能实验室正在对声纹识别、声纹购、NLP中文对话引擎等核心技术申请专利。阿里人工智能实验室在自然语言理解的基础上,加入了“决策引擎”机制,能够理解语音的上下文语境,并判断当前应该响应的是哪一个模块,从而进行决策。这一套人机交互和自然语言处理系统也在国际顶级学术论坛KDD 2017上发表了重要的论文,也正在申请技术专利。
考虑到中文语言对话过程中的各种实际案例,阿里人工智能实验室还对北方语言的儿化音、干净利素的问法、小朋友经常叠字叠词、南方人与普通话混淆的中文表达方法进行了深度处理。针对中国人语言发音的特色,对吞字、咬字、缺字、北京话习惯、河南话习惯进行了特别优化、补偿和修正。 这套语义理解系统还带有记忆功能和总结归纳能力,加入了模拟的“长期记忆”和“短期记忆”功能,能够针对不同的场景和时间度,让语义理解系统更加贴近用户。除此之外,阿里人工智能实验室还已经着手其他多个语种的研究。
现在,这些阿里技术生态体系,也随着AliGenie开发者平台对外开放,包括了语音技术、服务入口以及硬件方案,并整合阿里生态体系中丰富的互联网服务和商业链接能力,共同为消费者提供智能体验。
AliGenie开发者平台主要面向四种类型的开发者:内容开发者、应用开发者、智能家居开发商和硬件生产商,开放的核心技术包括深度学习、自然语言处理、搜索/推荐算法 、知识表示及推理问答系统等,将免费开放给开发者和硬件厂商,无需从头搭建AI语音系统。AliGenie目前支持100多个智能家电品牌,包括接入阿里智能联盟、涂鸦科技、broadlink等智能家居方案的产品,更多智能家电正在接入中。
据了解,X1目前已经具备音乐音频内容的播放、听故事、讲笑话、查运势、玩游戏、查天气、找手机、问百科、设闹钟/定时器、查食物热量、充话费、查快递、查价格、天猫魔盒控制、天猫超市购物、智能家电操控等功能。随着开发者的入驻,天猫精灵X1能够实现的功能还将快速增加。而随着X1的大规模商用,阿里技术生态体系也将得以全面激活和检验。
至于为什么叫X1,阿里表示在数学中“X”代表未知数和变量,天猫精灵X1作为阿里消费级AI产品的开端,也充满着未知和变量,阿里人工智能实验室推出的第一款产品因此命名为X1。 天猫精灵X1将于7月5日开始限量公测,用户和开发者可以在天猫精灵官网(bot.tmall.com)申请公测并下载天猫精灵APP,8月8日将面向天猫会员用户进行首批正式发售。
2017年7月5日,阿里的未来或将再次“芝麻开门”,而这次是用说的方式。(文/宁川)