近60年来,人工智能的研究者都预测说人工智能时代即将到来,但是直到几年前,人工智能好像还是遥不可及。人们甚至发明了一个词来描述这个研究结果匮乏、研究基金更加匮乏的时代:人工智能之冬。那么事情真的有变化吗?
数月前,我长途跋涉来到位于纽约州约克城高地的IBM研究实验室的林间园区,为的就是能早早一窥那近在眼前却让人期待许久的人工智能的未来。这儿是超级电脑“沃森”(Watson)的研发地,而沃森在2011年就在“危险边缘”(Jeopardy!)[1]节目的比赛里拔得头筹。
最初的沃森电脑仍留于此处——它是一个体积约与一个卧室相当,由10台直立的冷柜式机器围成四面墙的计算机系统。技术人员可以通过系统内部的小细孔把各种线缆接到机器背部。系统内部温度高得出奇,仿佛这个计算机集群是活生生的一般。
如今的沃森系统与之前相比有了显著差异。它不再仅仅存在于一排机柜之中,而是通过大量对用户免费开放的服务器传播,这些服务器能够即时运行上百种人工智能的“情况”。同所有云端化的事物一样,沃森系统为世界各地同时使用的客户服务,他们能够用手机、台式机以及他们自己的数据服务器连上该系统。这类人工智能可以根据需求按比例增加或减少。
鉴于人工智能会随人们的使用而逐步改进,沃森将始终变得愈发聪明;它在任何一次情况中所获悉的改进点都会立即传送至其他情况中。并且,它也不是一个单一的程序,而是各种软件引擎的集合——其逻辑演绎引擎和语言解析引擎可以在不同的代码、芯片以及位置上运行——所有这些智慧的因素都汇集成了一个统一的智能流。
用户可以直接接入这一永久连接(always-on)的智能系统,也可以通过使用这一人工智能云服务的第三方应用程序接入。正如许多高瞻远瞩的父母一样,IBM想让沃森电脑从事医学工作,因此他们正在开发一款医疗诊断工具的应用程序,这倒也不足为奇。
之前,诊疗方面的人工智能尝试大多以惨败告终,但沃森却卓有成效。简单地说,当我输入我曾经在印度感染上的某种疾病症状时,它会给我一个疑似病症的清单,上面一一列明了可能性从高到低的疾病。它认为我最可能感染了贾第鞭毛虫病(Giardia)——说的一点儿也没错。这一技术尚未直接对患者开放;IBM将沃森电脑的智能提供给合作伙伴接入使用,以帮助他们开发出用户友好界面为预约医生及医院方面服务。
“我相信类似沃森这种——无论它是机器还是人——都将很快成为世界上最好的诊疗医生”,创业公司Scanadu的首席医疗官艾伦·格林(Alan Greene)说道,该公司受到电影《星际迷航》中医用三录仪[2]的启发,正在利用云人工智能技术制造一种诊疗设备。“从人工智能技术改进的速率来看,现在出生的孩子长大后,很可能不太需要通过看医生来得知诊疗情况了。”
随着人工智能发展,我们可能要设计出一些阻止它们拥有意识的方式——我们所宣称的最优质的人工智能服务将是无意识服务。
医学仅仅只是一个开始。所有主流的云计算公司,加上数十家创业公司都在争先恐后地开展类似沃森电脑的认知服务。根据量化分析公司Quid的数据,自2009年以来,人工智能已经吸引了超过170亿美元的投资。仅去年一年,就有322家拥有类似人工智能技术的公司获得了超过20亿美元的投资。
Facebook和谷歌也为其公司内部的人工智能研究小组招聘了研究员。自去年以来,雅虎、英特尔、Dropbox、LinkedIn、Pinterest以及推特也都收购了人工智能公司。过去四年间,人工智能领域的民间投资以平均每年62%的增长速率增加,这一速率预计还会持续下去。
纵观所有这些活动,人工智能的未来正进入我们的视野之中,它既非如那种哈尔9000(HAL 9000)(译者注:小说及电影《2001:太空漫游》中的超级电脑)——一台拥有超凡(但有潜在嗜杀倾向)的类人意识并依靠此运行的独立机器那般——也非让奇点[3]论者心醉神迷的超级智能。
即将到来的人工智能颇似亚马逊的网络服务——廉价、可靠、工业级的数字智慧在一切事物的背后运行,偶尔在你的眼前闪烁几下,其他时候近乎无形。这一通用设施将提供你所需要的人工智能而不超出你的需要。和所有设施一样,即使人工智能改变了互联网、全球经济以及文明,它也将变得令人厌倦。
正如一个多世纪以前电力所做的那样,它会让无生命的物体活跃起来。之前我们电气化的所有东西,现在我们都将使之认知化。而实用化的新型人工智能也会增强人类个体(加深我们的记忆、加速我们的认知)以及人类群体的生活。
通过加入一些额外的智能因素,我们想不到有什么东西不能变得新奇、不同且有趣。实际上,我们能轻易地预测到接下来的一万家创业公司的商业计划:“做某项事业,并加入人工智能”。兹事体大,近在眼前。
大约在2002年时,我参加了谷歌的一个小型聚会——彼时谷歌尚未IPO,还在一心一意地做网络搜索。我与谷歌杰出的联合创始人、2011年成为谷歌CEO的拉里·佩奇(Larry Page)随意攀谈起来。“拉里,我还是搞不懂,现在有这么多搜索公司,你们为什么要做免费的网络搜索?你是怎么想到这个主意的?”我那缺乏想象力的无知着实证明了我们很难去做预测,尤其是对于未来的预测。
但我要辩解的是,在谷歌增强其广告拍卖方案并使之形成实际收益,以及进行对YouTube的并购或其他重要并购之前,预测未来是很难的。我并不是唯一一个一边狂热地用着谷歌的搜索引擎一边认为它撑不了多久的用户。但佩奇的回答让我一直难以忘怀:“哦,我们实际上是在做人工智能。”
过去数年间,关于那次谈话我想了很多,谷歌也收购了14家人工智能以及机器人方面的公司。鉴于搜索业务为谷歌贡献了80%的收入,因此乍一看去,你可能会觉得谷歌正在扩充其人工智能方面的投资组合以改善搜索能力。但是我认为正好相反。
谷歌正在用搜索技术来改善人工智能,而非使用人工智能来改进搜索技术。每当你输入一个查询词,点击搜索引擎生成的链接,或者在网页上创造一个链接,你都是在训练谷歌的人工智能技术。当你在图片搜索栏中输入“复活节兔子”(Easter Bunny)并点击看起来最像复活节兔子的那张图片时,你都是在告诉人工智能,复活节兔子是长成什么样的。
谷歌每天拥有12亿搜索用户,产生1210亿搜索关键词,每一个关键词都是在一次又一次地辅导人工智能进行深度学习。如果再对人工智能的算法进行为之10年的稳固改进,加之一千倍以上的数据以及一百倍以上的计算资源,谷歌将会开发出一款无与伦比的人工智能产品。我的预言是:到2024年,谷歌的主营产品将不再是搜索引擎,而是人工智能产品。
这个观点自然也会招来怀疑的声音。近60年来,人工智能的研究者都预测说人工智能时代即将到来,但是直到几年前,人工智能好像还是遥不可及。人们甚至发明了一个词来描述这个研究结果匮乏、研究基金更加匮乏的时代:人工智能之冬。那么事情真的有变化吗?
是的。近期的三大突破让人们期待已久的人工智能近在眼前:
1. 成本低廉的并行计算
思考是一种人类固有的并行过程,数以亿计的神经元同时放电以创造出大脑皮层用于计算的同步脑电波。搭建一个神经网络——即人工智能软件的主要结构——也需要许多不同的进程同时运行。神经网络的每一个节点都大致模拟了大脑中的一个神经元——其与相邻的节点互相作用,以明确所接收的信号。
一项程序要理解某个口语单词,就必须能够听清(不同音节)彼此之间的所有音素;要识别出某幅图片,就需要看到其周围像素环境内的所有像素——二者都是深层次的并行任务。但直到最近,标准的计算机处理器也仅仅能一次处理一项任务。
事情在十多年前就已经开始发生变化,彼时出现了一种被称为图形处理单元(graphics processing unit -GPU)的新型芯片,它能够满足可视游戏中高密度的视觉以及并行需求,在这一过程中,每秒钟都有上百万像素被多次重新计算。
这一过程需要一种专门的并行计算芯片,该芯片添加至电脑主板上,作为对其的补充。并行图形芯片作用明显,游戏可玩性也大幅上升。到2005年,GPU芯片产量颇高,其价格便降了下来。2009年,吴恩达(Andrew Ng)(译者注:华裔计算机科学家)以及斯坦福大学的一个研究小组意识到,GPU芯片可以并行运行神经网络。
这一发现开启了神经网络新的可能性,使得神经网络能容纳上亿个节点间的连接。传统的处理器需要数周才能计算出拥有1亿节点的神经网的级联可能性。而吴恩达发现,一个GPU集群在一天内就可完成同一任务。现在,一些应用云计算的公司通常都会使用GPU来运行神经网络,例如,Facebook会籍此技术来识别用户照片中的好友,Netfilx也会依其来给5000万订阅用户提供靠谱的推荐内容。
2. 大数据
每一种智能都需要被训练。哪怕是天生能够给事物分类的人脑,也仍然需要看过十几个例子后才能够区分猫和狗。人工思维则更是如此。即使是(国际象棋)程序编的最好的电脑,也得在至少对弈一千局之后才能有良好表现。
人工智能获得突破的部分原因在于,我们收集到来自全球的海量数据,以给人工智能提供了其所需的训练。巨型数据库、自动跟踪(self-tracking)、网页cookie、线上足迹、兆兆字节级存储、数十年的搜索结果、维基百科以及整个数字世界都成了老师,是它们让人工智能变得更加聪明。
3. 更优的算法
20世纪50年代,数字神经网络就被发明了出来,但计算机科学家花费了数十年来研究如何驾驭百万乃至亿级神经元之间那庞大到如天文数字一般的组合关系。这一过程的关键是要将神经网络组织成为堆叠层(stacked layer)。一个相对来说比较简单的任务就是人脸识别。
当某神经网络中的一组比特被发现能够形成某种图案——例如,一只眼睛的图像——这一结果就会被向上转移至该神经网络的另一层以做进一步分析。接下来的这一层可能会将两只眼睛拼在一起,将这一有意义的数据块传递到层级结构的第三层,该层可以将眼睛和鼻子的图像结合到一起(来进行分析)。
识别一张人脸可能需要数百万个这种节点(每个节点都会生成一个计算结果以供周围节点使用),并需要堆叠高达15个层级。2006年,当时就职于多伦多大学的杰夫·辛顿(Geoff Hinton)对这一方法进行了一次关键改进,并将其称之为“深度学习”。他能够从数学层面上优化每一层的结果从而使神经网络在形成堆叠层时加快学习速度。
数年后,当深度学习算法被移植到GPU集群中后,其速度有了显著提高。仅靠深度学习的代码并不足以能产生复杂的逻辑思维,但是它是包括IBM的沃森电脑、谷歌搜索引擎以及Facebook算法在内,当下所有人工智能产品的主要组成部分。
这一由并行计算、大数据和更深层次算法组成的完美风暴使得持续耕耘了60年的人工智能一鸣惊人。而这一聚合也表明,只要这些技术趋势继续下去——它们也没有理由不延续——人工智能将精益求精。
随着这一趋势的持续,这种基于云技术的人工智能将愈发成为我们日常生活中不可分割的一部分。但天上没有掉馅饼的事。云计算遵循收益递增(increasing returns)[4]法则,这一法则有时也被称为网络效应(network
effect),即随着网络发展壮大,网络价值也会以更快的速度增加。
网络(规模)越大,对于新用户的吸引力越强,这又让网络变得更大,又进一步增强了吸引力,如此往复。为人工智能服务的云技术也遵循这一法则。越多人使用人工智能产品,它就会变得越聪明;它变得越聪明,就有越多人来使用它;然后它变得更聪明,进一步就有更多人使用它。
一旦有公司迈进了这个良性循环中,其规模会变大、发展会加快,以至于没有任何新兴对手能望其项背。因此,人工智能的未来将有两到三家寡头公司统治,它们会开发出大规模基于云技术的多用途商业智能产品。
1997年,沃森电脑的前辈、IBM公司的深蓝电脑在一场著名的人机大赛中击败了当时的国际象棋大师加里·卡斯帕罗夫(Garry Kasparov)。
在电脑又赢了几场比赛之后,人们基本上失去了对这类比赛的兴趣。你可能会认为故事到此就结束了,但卡斯帕罗夫意识到,如果他也能像深蓝一样立即访问包括以前所有棋局棋路变化在内的巨型数据库的话,他在对弈中能表现得更好。
如果这一数据库工具对于人工智能设备来说是公平的话,为什么人类不能使用它呢?为了探究这一想法,卡斯帕罗夫率先提出了“人加机器”(man-plus-machine)比赛的概念,即用人工智能增强国际象棋选手水平,而非让人与机器之间对抗。
这种比赛如今被称为自由式国际象棋比赛,它有点儿像混合武术对抗赛,选手们可以使用任何他们想要用的作战技巧。你可以单打独斗;也可以接受你那装有超级聪明的国际象棋软件的电脑给出的帮助,你要做的仅仅是按照它的建议来移动棋子;或者你可以当一个卡斯帕罗夫所提倡的那种“半人半机”的选手。
半人半机选手会听取人工智能设备在其耳边提出的棋路建议,但是也间或不会采用这些建议——颇似我们开车时候用的GPS导航一般。在接受任何模式选手参赛的2014年自由式国际象棋对抗锦标赛上,纯人工智能的国际象棋引擎赢得了42场比赛,而半人半机选手则赢得了53场。当今世上最优秀的国际象棋选手就是半人半机选手Intagrand,它是一个由多人以及数个不同国际象棋程序所组成的小组。
但最令人惊讶的是:人工智能的出现并未让纯人类的国际象棋棋手的水平下降。恰恰相反,廉价、超级智能的国际象棋软件吸引了更多人来下国际象棋,比赛比以前增多了,棋手的水平也比以前上升了。现在的国际象棋大师(译者注:国际象棋界的一种等级)人数是深蓝战胜卡斯帕罗夫那时候的两倍多。
现在的排名第一的人类国际象棋棋手马格努斯·卡尔森(Magnus Carlsen)就曾接受人工智能的训练,他被认为是所有人类国际象棋棋手中最接近电脑的棋手,同时也是有史以来积分最高的人类国际象棋大师。
如果人工智能能帮助人类成为更优秀的国际象棋棋手,那么它也能帮助我们成为更为优秀的飞行员、医生、法官以及教师。大多数由人工智能完成的商业工作都将是有专门目的的工作,严格限制在智能软件能做到的工作之内,比如,(人工智能产品)把某种语言翻译成另一种语言,但却不能翻译成第三种语言。
再比如,它们可以开车,但却不能与人交谈。或者是能回忆起YouTube上每个视频的每个像素,却无法预测你的日常工作。在未来十年,你与之直接或者间接互动的人工智能产品,有99%都将是高度专一、极为聪明的“专家”。
实际上,这并非真正的智能,至少不是我们细细想来的那种智能。的确,智能可能是一种倾向——尤其是如果我们眼中的智能意味着我们那特有的自我意识、一切我们所有的那种狂乱的自省循环以及凌乱的自我意识流的话。我们希望无人驾驶汽车能一心一意在路上行驶,而不是纠结于之前和车库的争吵。
医院中的综合医生“沃森”能专心工作,不要去想自己是不是应该专攻英语。随着人工智能的发展,我们可能要设计出一些阻止它们拥有意识的方式——我们所宣称的最优质的人工智能服务将是无意识服务。
我们想要的不是智能,而是人工智慧。与一般的智能不同,智慧(产品)具有专心、可衡量、种类特定的特点。它也能够以完全异于人类认知的方式来思考。
这儿有一个关于非人类思考的一个很好的例子,今年三月在德克萨斯州奥斯汀举行的西南偏南音乐节(South by Southwest festival)上,沃森电脑就上演了一幕厉害的绝技:IBM的研究员给沃森添加了由在线菜谱、美国农业部(USDA)出具的营养表以及让饭菜更美味的味道研究报告组成的数据库。
凭借这些数据,沃森依靠味道配置资料和现有菜色模型创造出了新式的菜肴。其中一款由沃森创造出的受人追捧的菜肴是美味版本的“炸鱼和炸薯条”(fish and chips),它是用酸橘汁腌鱼和油炸芭蕉制成。在约克城高地的IBM实验室里,我享用了这道菜,也吃了另一款由沃森创造出的美味菜肴:瑞士/泰式芦笋乳蛋饼。味道挺不错!
非人类的智能不是错误,而是一种特征。人工智能的主要优点就是它们的“相异智能”(alien intelligence)。一种人工智能产品在思考食物方面与任何的大厨都不相同,这也能让我们以不同的方式看待食物,或者是以不同的方式来考虑制造物料、衣服、金融衍生工具或是任意门类的科学和艺术。相较于人工智能的速度或者力量来说,它的相异性对我们更有价值。
实际上,人工智能将帮助我们更好地理解我们起初所说的智能的意思。过去,我们可能会说只有那种超级聪明的人工智能产品才能开车,或是在“危险边缘”节目以及国际象棋大赛中战胜人类。而一旦人工智能做到了那些事情,我们就会觉得这些成就明显机械又刻板,并不能够被称为真正意义上的智能。人工智能的每次成功,都是在重新定义自己。
但我们不仅仅是在一直重新定义人工智能的意义——也是在重新定义人类的意义。过去60年间,机械加工复制了我们曾认为是人类所独有的行为和才能,我们不得不改变关于人机之间区别的观点。随着我们发明出越来越多种类的人工智能产品,我们将不得不放弃更多被视为人类所独有能力的观点。
在接下来的十年里——甚至,在接下来的一个世纪里——我们将处于一场旷日持久的身份危机(identity crisis)中,并不断扪心自问人类的意义。在这之中最为讽刺的是,我们每日接触的实用性人工智能产品所带来的最大益处,不在于提高产能、扩充经济或是带来一种新的科研方式——尽管这些都会发生。人工智能的最大益处在于,它将帮助我们定义人类。我们需要人工智能来告诉我们,我们究竟是谁。
译注:
[1] “危险边缘”节目:美国哥伦比亚广播公司益智问答游戏节目,已有数十年历史。该节目的比赛以一种独特的问答形式进行,问题设置的涵盖面非常广泛,涉及到历史、文学、艺术、流行文化、科技、体育、地理、文字游戏等等各个领域。根据以答案形式提供的各种线索,参赛者必须以问题的形式做出简短正确的回答。
[2] 三录仪、医用三录仪:《星际迷航》中的一个万用工具,能够感知环境四周,并将这些数据记录下来,然后进行计算。它也可以探测生命信号、入侵操作者指定的计算机系统、录音、扫描地形等等;医用三录仪式专门对人体进行扫描以检测病患的工具。
[3] 奇点:本是物理学词汇,指“时空中的一个普通物理规则不适用的点”。在美国未来学家雷蒙德·库兹韦尔的理论中,“奇点”是指人类与其他物种(物体)的相互融合。确切来说,是指电脑智能与人脑智能兼容的那个神妙时刻。
[4] 收益递增:一种经济现象,表现为投入增加会导致产出以更大的比例增加。