阿里再次芝麻开门,这次是用说的

一首叫作《阿里巴巴》的儿歌这样唱道:阿里巴巴是个快乐的青年,芝麻开门芝麻开门。2017年7月5日,阿里人工智能实验室在北京时间博物馆发布了首个产品:一款名为“天猫精灵”的智能语音音箱。这一天,与1687年7月5日时隔330年,那一天牛顿正式发表了万有引力定律,人类历史从此改变。

一个智能语音音箱显然不能与万有引力定律相提并论,但它对于阿里的意义来说却可大可小。2003年5月淘宝成立,当年10月推出支付宝。此后迄今14年,淘宝一路超越ebay易趣、雅虎等成为亚洲第一大网络零售商。2008年推出淘宝商城,2012年1月更名为天猫,2017年7月“天猫精灵”公测。如今,淘宝加天猫已经晋身为全球最大的网络零售商之一。

阿里公众与客户沟通部张启说:“感觉现在的天猫精灵有点像2003年淘宝刚开始发展的时候,一切都刚开始。”从当年淘宝第一版非常丑陋的网页入口到今天精工细作的智能语音音箱入口,“天猫精灵”会不会成为阿里的下一个进化奇点?人工智能时代,阿里的进化之路又将如何演进?

语音交互是思维方式的变革

自从亚马逊推出Echo智能语音音箱以来,全世界都把目光投向了下一代人机交互方式:智能语音。今年恰逢iPhone十周年,10年前iPhone用手写人机交互方式彻底颠覆了之前的键盘式人机交互,当年很多IT和手机企业都死守键盘交互而最终被甩出历史的舞台。

iPhone的手写人机交互是苹果公司的首创么?当然不是,之前已经有包括微软在内的多家科技公司研发出了手写触屏人机交互技术,但在PC键盘思维统治之下,没有一家公司愿意相信一个没有键盘的手机会成功。苹果推出第一代iPhone,不仅仅是一个技术和产品路线的选择,而是思维方式和观念的彻底变革。

没有键盘的手机,到底如何成功?十年后的今天,同样的问题又出现了。没有手写触屏的智能终端,到底如何成功?如果仅仅把智能语音人机交互看成是一种技术和产品路线,显然无法成功。就像当年的iPhone一样,智能语音人机交互本质上是一种思维方式的变革。

怎么理解智能语音人机交互是一种思维方式的变革呢?很简单,如果一个智能终端只剩下一个麦克和音箱来完成人机交互的话,就将失去手写和键盘输入的丰富而明确的选项与空间,而只剩上下句对话之间的极为有限的选项和空间,这种极简、有限而又模糊的方式,势必倒逼整个互联网产品与生态的重新思考与再设计。

一款智能语音音箱,仅仅是这个重新思维与再设计过程的起点。只有通过学习和积累实际使用智能语音音箱产品的用户行为大数据,才有可能完成这个重新思维与再设计。经过这个过程的洗礼,下一个阿里的形态,才有可能浮出水面。

阿里的“航天飞船”

2016年,阿里人工智能实验室(A.I. Labs)成立,负责阿里巴巴集团旗下消费级AI产品的研发。A.I. Labs的使命是探索人机交互新大陆,带领人们体验探索未知世界的乐趣。在2017年3月,阿里宣布“NASA计划”,聚焦于核心领域的研究,解决未来10年到20年后的困难。而“天猫精灵”作为阿里自研的硬件产品,实际上承担了类似“航天飞船”的硬件功能。

阿里人工智能实验室负责人陈丽娟(花名:浅雪)在“天猫精灵”发布会上介绍,天猫精灵X1机身126mm X 83mm X 83mm、重量400g,比亚马逊Echo和苹果的Homepod都小巧,这样的设计是为了进入家庭时没有侵入感。当然,“天猫精灵”的小巧外形很有可能是针对中国家庭的面积而设计。

为了实现小巧的外形设计,天猫精灵X1采用了首颗专门为智能语音行业开发的芯片,芯片面积减少25%、功耗降低32%、效率提高25%,在解码、降噪、声音处理、多声道的协同等方面做了专门的优化处理。针对需要进行大量音频处理、声音合成的工作环境,定制芯片加入了独立的NEON处理单元,可加速音频和语音处理、电话和声音合成等,带来更优秀的语音识别及音频处理效果。

在收音方案上,天猫精灵X1采用了业界公认的优秀方案——六麦克风收音阵列技术,即顶部的六颗高灵敏麦克风有助于收集到来自不同方向的声音,从而更容易在周围的噪音中识别出有用的信息,来达到更好的远场交互效果。天猫精灵X1还使用了回声对消和远近场拾音等技术,即使在播放音乐的同时也能正常接收语音指令。

由于家庭中有各种各样的噪音,天猫精灵X1开发人员在厨房、客厅、卧室、书房等环境里面,对玻璃、木材、混凝土、金属、石材等各种材质和环境进行了上千次实验,其中对中国家庭环境大量使用的石材和木头材质进行了针对性的测定,让天猫精灵X1能够适应在家庭环境噪音下被唤醒。天猫精灵X1还具备一定的学习功能,可以根据环境噪音进行学习和进化,经过7天左右优化就会更加适应所在家庭环境。

天猫精灵X1内置中文人机交流系统AliGenie,AliGenie实际上与阿里人工智能大脑ET共享技术成果。依靠阿里云强大的机器学习技术和计算能力,AliGenie作为人工智能系统就已经很成熟。因此,天猫精灵X1的难点并不在语音识别、智能语音交互等人工智能功能,反而在于硬件的设计、制造、供应链管理等阿里之前没有涉及到的业务领域。

陈丽娟表示,阿里之所以没有选择外包的方式来完成天猫精灵X1的硬件设计、生产和制造等工作,是因为智能语音音箱涉及到了非常复杂的软硬件集成与硬件工程,目前在市场上还找不到一家能够满足所有上下游零部件集成研发、生产与制造的厂商,因此阿里只好自己来承担这个硬件产业集成的角色。

从这个角度来讲,天猫精灵X1就是阿里NASA的“航天飞船”,它让阿里开始获得硬件产业的知识与实践,也只有很好的软硬件集成,才能最终实现499元的超低市场定价。而与“航天飞船”的“上天”目标相反,天猫精灵X1的目标是“入地”,通过499元的硬件产品把阿里的互联网产品固定到上亿家庭中。

全面激活阿里技术生态体系

天猫精灵X1和AliGenie应用了阿里积累多年的语音识别、自然语言处理、人机交互等技术。

在美国国家标准署2016年的全球说话人识别竞赛(NIST SRE2016),阿里采用了基于深度学习网络的特征提取,借助距离测度学习来提高数据的泛化能力,开创性提出利用对称性支持向量机器来提高系统性能。在近两百多支参赛队伍中,阿里的系统性能在大中华区声纹识别性能排第一、美国赛区第二。这一声纹识别技术也被运用到了X1上,基于声纹识别技术,X1还推出了声纹购功能,这也是是第一个商用的声纹购物系统。

阿里人工智能实验室正在对声纹识别、声纹购、NLP中文对话引擎等核心技术申请专利。阿里人工智能实验室在自然语言理解的基础上,加入了“决策引擎”机制,能够理解语音的上下文语境,并判断当前应该响应的是哪一个模块,从而进行决策。这一套人机交互和自然语言处理系统也在国际顶级学术论坛KDD 2017上发表了重要的论文,也正在申请技术专利。

考虑到中文语言对话过程中的各种实际案例,阿里人工智能实验室还对北方语言的儿化音、干净利素的问法、小朋友经常叠字叠词、南方人与普通话混淆的中文表达方法进行了深度处理。针对中国人语言发音的特色,对吞字、咬字、缺字、北京话习惯、河南话习惯进行了特别优化、补偿和修正。 这套语义理解系统还带有记忆功能和总结归纳能力,加入了模拟的“长期记忆”和“短期记忆”功能,能够针对不同的场景和时间度,让语义理解系统更加贴近用户。除此之外,阿里人工智能实验室还已经着手其他多个语种的研究。

现在,这些阿里技术生态体系,也随着AliGenie开发者平台对外开放,包括了语音技术、服务入口以及硬件方案,并整合阿里生态体系中丰富的互联网服务和商业链接能力,共同为消费者提供智能体验。

AliGenie开发者平台主要面向四种类型的开发者:内容开发者、应用开发者、智能家居开发商和硬件生产商,开放的核心技术包括深度学习、自然语言处理、搜索/推荐算法 、知识表示及推理问答系统等,将免费开放给开发者和硬件厂商,无需从头搭建AI语音系统。AliGenie目前支持100多个智能家电品牌,包括接入阿里智能联盟、涂鸦科技、broadlink等智能家居方案的产品,更多智能家电正在接入中。

据了解,X1目前已经具备音乐音频内容的播放、听故事、讲笑话、查运势、玩游戏、查天气、找手机、问百科、设闹钟/定时器、查食物热量、充话费、查快递、查价格、天猫魔盒控制、天猫超市购物、智能家电操控等功能。随着开发者的入驻,天猫精灵X1能够实现的功能还将快速增加。而随着X1的大规模商用,阿里技术生态体系也将得以全面激活和检验。

至于为什么叫X1,阿里表示在数学中“X”代表未知数和变量,天猫精灵X1作为阿里消费级AI产品的开端,也充满着未知和变量,阿里人工智能实验室推出的第一款产品因此命名为X1。 天猫精灵X1将于7月5日开始限量公测,用户和开发者可以在天猫精灵官网(bot.tmall.com)申请公测并下载天猫精灵APP,8月8日将面向天猫会员用户进行首批正式发售。

2017年7月5日,阿里的未来或将再次“芝麻开门”,而这次是用说的方式。(文/宁川)

时间: 2024-10-12 14:43:22

阿里再次芝麻开门,这次是用说的的相关文章

阿里买来的生态,投出来的局

阿里巴巴(马云)最近频繁的投资并购引起了各界的关注,几乎每月都会有阿里的重磅投资并购新闻刊登于各大财经头条,从2014年初入股中信21世纪.零售百货银泰,再到4月与优酷联姻.收购高德地图,6月又鲸吞UC.搅局恒大足球……完全停不下来. 花了周末一整个下午去梳理了阿里近十年主要的投资并购事件,让我非常震惊.如果单看如下统计表,很多人肯定会认为这是一家投资公司而不是电商企业. 阿里近10年的投资收购事件 特 别是,阿里在上市前投资并购动作频繁,不完全统计,仅从2013年起到最近6月,阿里发起的投资收

困知,勉行—阿里云服务观

文 / 郭雪梅 虽然道歉无法弥补给大家带来的麻烦,但是,我们可以用更快的访问速度,更好的用户体验,更贴心的体验去弥补,虽然故障的事实无法改变,但我们的努力可以创造更少故障的未来! —杜勇<进步集> 2014年10月15日,北京飞往杭州的飞机上,绝大多数乘客都是中国的一线开发者.他们和我的目标一样,向着同一个地方:杭州转塘,参加2014阿里云开发者大会.安静的路途中,不时能听到关于创业.产品.技术.实践的轻声讨论.我的脑海中盘旋的也是与多位2014阿里云开发者大会的演讲嘉宾沟通时提到的阿里云近期

像智能手机一样管理云端应用:阿里云联合微软全球首发开放应用模型(OAM)

2019 年 10 月 17 日上午 9 点 15 分,阿里巴巴合伙人.阿里云智能基础产品事业部总经理蒋江伟在 QCon 上海<基于云架构的研发模式演进>主题演讲中,正式宣布: "今天,我们同微软联合发布了一个全新的项目,叫做开放应用模型 Open Application Model(OAM)." 项目主页:https://openappmodel.io 蒋江伟在发布中讲道:"OAM 这个项目是业界第一个云原生应用标准定义与架构模型.我们希望通过这样的架构模型,以

漫谈监控摄像头

新来咋到,希望审批通过. 谈起监控摄像头,给我的第一印象就是——哇塞,这玩意好高级!!!完全不知道这该死的东西到底是怎么工作的,它是另外一种神一样的存在.然后我就去度娘那输入——监控摄像头.好嘛,给我一堆阿里巴巴的连接,我不是想买监控设想头,我只是想知道这玩意是怎么工作的,或者说,别人(单片机或者别的芯片)是通过什么手段去读取它的数据.然而,并无结果. 无图无真相,先来一发,让我们看看今天的主角!(盗来的图,希望不要被查水表) 对,就是它了!!帅气吧,超级萌萌哒的脸,两只大眼睛还有一张大嘴巴,和

更换Qt QtEmbedded库的版本出现问题及解决(交叉编译OpenSSL)

近日将QtEmbedded库的版本由4.7.0更新到4.7.4.工具链并未改变,仍为 Target: arm-none-linux-gnueabiConfigured with: ......Thread model: posixgcc version 4.3.2 (Sourcery G++ Lite 2008q3-72) 所有依赖的库根据需要重新下载最新版本编译.现将在此过程中出现的问题及解决方法列出,以供下次移植时参考. 1.browser程序重新编译,在开发板的命令行运行:./browse

PCL库配置出现的问题(WIN10+VS2013)

边看电影边配终于配好了,中间出现了一些问题,在网上很难搜到,可能每个人都碰到的不同.摸索了一会终于都解决了,记录在这里,免得又碰到. PCL是什么东西就不在此介绍了. 主要是参考这篇博客做得,不过我后来碰到了一些问题,这篇博客并没有碰到,可能是版本原因吧 http://blog.csdn.net/aptx704610875/article/details/49947049 准备工作: 编译PCL前首先要编译几个PCL依赖的第三方库,主要是下面几个: 1.Boost 1.59.0 Boost有两种

sqoop job local 和 Cannot initialize Cluster 问题

hadoop版本:Hadoop 2.3.0-cdh5.0.0 sqoop版本:Sqoop 1.4.4-cdh5.0.0 配置好sqooop-env.xml: #Set path to where bin/hadoop is available export HADOOP_COMMON_HOME=/my/hadoop #Set path to where hadoop-*-core.jar is available export HADOOP_MAPRED_HOME=/my/hadoop/shar

Cloud Card是否能干掉App

算下来有一年没写blog了.这一年算是潜心做一件事情,随着云OS 3.0已公布.总算能够向外界表达了我们想做个啥,非常多人也開始质疑,Cloud Card究竟是个啥?云OS 3.0算不算自主研发的OS?等等,今天想就Cloud Card是否能干掉App这个主题聊聊这些事情. 昨天三丰和我们开会讲到一个观点.IOS&Android以App为核心的OS过时了,用户使用各种移动设备,要的不是App,是服务,尽管App也是承载服务的形式,但App与App之间是割裂的. 细致想想确实如此,我们如今为了做一

拨云见日,任重道远 ——第六届云计算大会感悟

在本月20-23日我代表山东大学(威海)参加了在北京国家会议中心隆重召开的第六届云计算大会.在本次汇集了国内外众多专家学者的高端峰会中感触良多,也收获颇丰! 当下,在IT学术界和产业界以及广大普通用户的共同努力下,云计算在中国已经有了显著的进步和提高,业内对云计算的认识更加的准确到位,云计算的运用规模也在不断的加大和扩展,专用云也在各个领域得到广泛应用和拓展.与其相辅相成的大数据也带给了大家对技术.创新以及实践更多的认识,可以预见的是大数据与云计算结合的时代已然到来,这将在未来得到更加广泛的关注