亲爱的,你已经连阅读理解都做不过AI了

提起阅读理解这四个字,你会想到什么?

被四六级雅思托福支配的恐惧?语文试卷上连原作者都搞不懂的选择题?

不管哪种答案,肯定都逃不出一个规律:进行阅读理解这项有益身心运动的主体,必然是跟你我一样的人类。

毕竟嘛,这东西堪称考试中最费脑筋,也最考验综合能力的一个环节。所以你的英语老师一定说过这样一句话:得阅读理解者得天下。

然而,可是,但是,如果告诉你今天得这个天下的已经不再是人类,而是AI了,你会怎么想?可事实就是这样,1月11日,斯坦福大学著名的机器阅读理解赛事SQuAD刷新了全球排名,令人惊奇的是阿里巴巴凭借82.440的精准率打破了世界纪录。最重要的是,这个成绩超越了人类82.304的平均得分,正式宣布AI在精准阅读能力上超越了人类。

当然了,AI是不会去跟你比托福刷分的。但AI通过机器阅读理解,撬动理解力这扇大门开启,意义也远远不是测试和排名所能概括的。国外网友和AI从业者,面对这个中国公司完成的壮举纷纷脱帽致敬,将其列为2018伊始AI的重要突破,卡内基梅隆发现计算机科学学院机器人研究所的研究教授Jeff Schneider等等业界大牛也对阿里团队表示了致敬。

所以说,机器做阅读理解这件事的背后,脑洞有点大哦…

什么是机器阅读理解?

机器阅读理解,虽然看起来只是让AI上阵来一场考试。但是却是自然语言处理技术中,继语音判断、语义理解之后最大的挑战:让智能体理解全文语境。所以这个领域的“跑分”,一直是AI界的大事件。

而斯坦福大学发起的SQuAD挑战赛,则是业内公认的机器阅读理解最高水平赛事,甚至可以说是标准水平测试。其参赛者来自全球学术界和产业界的研究团队,比如我们耳熟能详的微软亚洲研究院、IBM、Facebook、谷歌以及卡内基·梅隆大学、斯坦福大学等等。

SQuAD挑战赛的基本规则,是通过众包的方式构建一个包含10万个问题左右的大规模数据集,并给出来源于维基百科长度大约在几百个单词左右的文章。参赛者提交的AI模型在阅读完数据集中的一篇短文之后,回答若干个基于文章内容的问题,答案与标准答案进行比对,最终得出成绩。

这项测试的得分,包括确匹配(Exact Match)和模糊匹配(F1-score)两项结果,这次阿里巴巴提交的模型,在精准匹配领域超越了人类的得分能力。模糊匹配还差2.5分,但是也已经比较接近。

由于阅读理解这项“智能”调整,需要运用到大量逻辑、细节和结构分析能力,并且直接作用于现实中的文本资料,所以实际价值巨大。

比如说,我们首先要面对的问题就是,假如人工智能已经比人类平均水平更擅长在对文本中精准信息进行理解和回答,会带给我们什么呢?

当AI的“阅读理解”得分超越人类,意味着什么

如何理解阿里的AI阅读理解能力,超越人类得分的价值呢?

举个例子或许可以很简单的理解这个问题:英语考试上,当机器可以翻译单词的时候,我们一点都不惊奇;但机器可以听写整句话的时候,我们会感叹技术进步了;当机器自己做阅读理解的时候,我们大概会想:还要我考这个试干什么?

这里面的差别,在于处理阅读理解相关问题时,AI不只是要运算和记录,而是要主动去分析和理解,所以阅读理解问题一直被人问是NLP的标志性临界点。但这个点被AI破解,直接意味着很多必须人类才能完成的工作已经正式能够被AI接管。

因为阅读理解问题处理和关注词汇、语句、篇章结构、思维逻辑、辅助语句和关键句等等元素构成的复杂组织网络。

当超越人类均值这个时刻真正到来,或许意味着在语言交互领域,机器智能将可以从感知应用向着理解应用进发。从学术到产业应用的角度讲,背后都有无数种可能蔓延开来。

最直接的产业影响,是大多数今天还必须由人工完成的规则、对话、服务信息类的相关理解工作,都可以被人工智能所取代。比如说客服、信息管理和推荐类的工作,都可以考虑用不眠不休、高运算速度的机器来取代。

或许阿里产业线是最大赢家

或许我们都注意到了这样一个问题:今天的互联网世界,在生产越来越多文本内容。太多你知道的、你不知道的、你以为自己知道的却实际不知道的事情呼啸而过。甚至你双11想要剁个手,都有各种各样的游戏规则等着你。

这里或许就可以用机器阅读理解来解决了。比如客户对某个电商促销规则有疑问,就可以直接向AI提问,而AI就可以把这个问题当做一道阅读理解问题来进行解决方案回馈。

机器阅读理解能力,将在如何向客户提供非模板式的智能客服服务中迈出关键一步。而当AI在这些能力上超越人工,那么机器客服的利用价值和空间当然飞速上涨。

由此不难看出,这种关键能力的标杆性突破,对大量强调与普通消费者交互的产业线益处最多。阿里投入这项技术突破,显然也是看到了其与自身产业线结合的可能性。

事实上,致力于新零售和大规模人机协同的阿里,显然对机器阅读理解能力有着多方面的需求。比如说阿里小蜜已经应用了这项能力,提高双11时机器客服的处理效率与精准度。而进一步扩大来看,各种线下新零售场景、物流服务和在线金融服务都离不开机器阅读理解能力的帮助,来构建高效低成本的客户交互体系。

推而广之,机器阅读能力也是文娱领域进行内容寻找和推荐的有效方式,比如阅读用户提出的复杂需求,进行精准推荐;而与天猫精灵等硬件相结合,给出对用户大段语言的回馈,乃至对话互动,都必须以机器理解能力为依托。

而当机器可以大量阅读互联网资料,形成自己的知识谱系甚至专家系统,那么反向提供服务的能力更加令人期待。

理解力,让我们在未来面前不仅是个孩子

除了知道AI可以充当更好的客服之外,究竟我们为什么应该关注机器阅读理解这件事?或许关键,是我们应该知道“理解力”在目前AI世界中的重要程度和期待指数。

就像上文所说的那样,阿里这次是在精准匹配领域超越了人类得分,而下一步就是在模糊匹配领域完成突破。如果这个突破很快到来,显然意味着AI模型在理解力的指数上进一步提升了。这个人类期盼已久的能力,终于开始启动它的轴承。

AI先天具备的是运算能力,而希望进行仿人类智慧的智能模拟,第二步就是模仿人类的感知。今天我们看到的机器视觉、语音识别、语义理解,都是在做这件事。而第三步,就是让AI产生理解力。

假如单纯的识别出却无法产生输出,那么AI无非是更灵活的传感器而已。

从这个逻上看,阅读理解这道题绝不仅仅是个测试,或者商业应用的技术加持,更重要的是开启AI纪元里理解力的加速器,让人类漫长的制造、学习和掌握机器历史逐步画上句号,开启机器去学习和理解人类的新纪元。

阿里所达到的新记录和超越人类的数值,更广阔的意义在于,我们或许距离永远不用测试机器阅读理解更近了一步。当我们不再考虑机器是否能理解人类文本和语言,那么DeepNLP将达成,人机交互的范围将几何级扩大。机器智能可以清晰捕捉到人类的逻辑和函指。

可能那还很远,也可能很近,但理解力的意义,是让我们在未来面前不止是个孩子,应该是毫无疑问的。

原文地址:http://blog.51cto.com/naojiti/2060875

时间: 2024-10-08 13:27:51

亲爱的,你已经连阅读理解都做不过AI了的相关文章

用Keras搞一个阅读理解机器人

catalogue 1. 训练集 2. 数据预处理 3. 神经网络模型设计(对话集 <-> 问题集) 4. 神经网络模型设计(问题集 <-> 回答集) 5. RNN神经网络 6. 训练 7. 效果验证 1. 训练集 1 Mary moved to the bathroom. 2 John went to the hallway. 3 Where is Mary? bathroom 1 4 Daniel went back to the hallway. 5 Sandra moved

机器阅读理解中文章和问题的深度学习表示方法

/* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 .*/ author: 张俊林 注:本文是<深度学习解决机器阅读理解任务的研究进展>节选,该文将于近期在"深度学习大讲堂"公众号发布. 2.1文章和问题的表示方法 用神经网络处理机器阅读理解问题,首先面临的问题就是如何表示文章和问题这两个最重要的研究对象.我们可以从现有机器阅读理解相关文献中归纳总结出常用的表示方法,当然这些表示方法不仅仅局限于阅读理解问题,也经常见于NLP其他子领域中. 图4.文档表示方法:

js new都做了什么 prototype __proto__

现在对自己之前理解的东西,总结下,整理到这,看我那会画的一张图,我都不知道在说什么,那会的瞬间都疏通的感觉,现在基本都模糊了,我这脑子真是... 言归正传 开始: 一:思考new都做了什么,下面一个例子 function A (){ var a1=111; this.a2=222; function fa(){ console.log(a1); } fa(); } A.prototype.a3="333"; var b = new A(); new一个构造函数, 1:会先新建一个对象,

如果在之前阶段都做的很好,是否到探索性测试阶段,就不会发现Bug了

首先提出一个问题: 如果在探索性测试阶段发现很多bug,是否是之前卡中AC写的不够详尽?或者是开卡时候QA.开发.BA等人一起讨论的不够深入? 好吧,我换一个问题,如果在之前阶段都做的很好,是否到探索性测试阶段,就不会发现Bug了? 对于这个问题,我的想法是: 在一个开发团队里有十多个人,大家都使用同样的研发流程,在每张卡中的AC也尽量写的详尽,但是你可以看到,大约10年开发经验的人和2,3年开发经验的人最后测出的Bug数差别很大.我的问题是,为什么同样的流程,类似的卡的AC描述详细程度,对于开

Java对象的创建 —— new之后JVM都做了什么?

Java对象创建过程 1. 类加载检查 虚拟机遇到一条new指令时,首先将去检查这个指令的参数是否能在常量池中定位到一个类的符号引用,并且检查这个符号引用代表的类是否已经被加载.解析和初始化过.如果没有则进行相应的类加载过程.(我之后会写一篇关于类加载顺序和过程的博客,并在此补充连接地址) 2. 分配内存空间 类加载检查通过之后,JVM将为新生对象在堆中分配内存.对象所需内存的大小在类加载完成后已经完全确定了(关于怎样计算对象所需内存大小我稍后会写一篇博客并补充链接).为对象分配空间就相当于在J

后端程序员都做些什么?

后端程序员都做些什么? 2017-12-25 刘欣 程序猿 来自:码农翻身(微信号:coderising) 这个问题来自于QQ网友,一句两句说不清楚,索性写个文章. 我刚开始做Web开发的时候,根本没有前端,后端之说. 原因很简单,那个时候服务器端的代码就是一切:接受浏览器的请求,实现业务逻辑,访问数据库,用JSP生成HTML,然后发送给浏览器. 即使后来Javascript在浏览器中添加了一些AJAX的效果,那也是锦上添花,绝对不敢造次.因为页面的HTML主要还是用所谓"套模板"的方

Linux在按下开机键之后都做了什么?

今天小编要跟大家分享的文章是关于Linux再按下开机键之后都做了什么?计算机开机是一个神秘的过程.我们只是按了开机键,就看到屏幕上的进度条或者一行行的输出,直到我们到达登录界面.然而,计算机开机又是个异常脆弱的过程,我们满心期望的登录界面可能并不会出现,而是一个命令行或者错误信息.了解计算机开机过程有助于我们修复开机可能出现的问题.下面我们就一起来看一看,Linux在按下开机键之后都做了哪些? Linux入门新手和正在Linux学习的小伙伴快来看一看吧,希望能够对大家有所帮助 ! <img sr

linux 内核网络协议栈阅读理解--带详尽注释以及相关流程调用注释,附 github 注释后源码

linux 内核网络协议栈阅读理解--带详尽注释以及相关流程调用注释,对理解内核协议栈源码很有帮助 对理解阅读 linux 协议栈源码很用帮助 github 地址: https://github.com/y123456yz/Reading-and-comprehense-linux-Kernel-network-protocol-stack

scikit-learn:CountVectorizer提取tf都做了什么

http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer class sklearn.feature_extraction.text.CountVectorizer(input=u'content', encoding=u'utf-8', decode_er