给人工智能「好奇心」会变成什么样?答案不出所料

如果赋予人工智能好奇心,它会去做些什么?科学家们尝试用「好奇心」来驱动人工智能自主学习。这群工程师想知道,在没有人类事先提供引导时,人工智能的「好奇心」会使它对什么产生兴趣?他们在七月发表的研究结果显示,有好奇心的人工智能会永无止尽地看电视。

让「好奇心」驱使人工智能学习
目前常见的人工智能在运作上,都需要人类先给予一些原始数据才能开始。比如说,要让Google人工智能帮你翻译,最一开始得先告诉它,不同语言中的哪些字汇具有相同意涵;脸书的人脸辨识系统在自动标记你时,仰赖的是早就上传过的有你在内的照片来做出判断。不过,有些人工智能研究团队正在尝试赋予人工智能「好奇心」(Curiosity),期望它们能在没有人类引导的情形下自主学习,「开放AI」(OpenAI)正是尝试此项创举的科学团队之一。「开放AI」是一间由特斯拉(Tesla)创办人马斯克(Elon Musk)、创投公司Y Combinator创始人奥特曼(Sam Altman)等多名美国硅谷大亨共同资助创办的非营利实验室,他们今年7月与美国柏克莱大学(UC Berkeley)及苏格兰爱丁堡大学(University of Edinburgh)的研究者,一同在《2018机器学习国际研讨会》(2018 International Conference on Machine Learning)发表了一篇关于人工智能与「好奇心」的研究。该研究赋予算法一个名为「好奇心」的简单定义,并且以此驱使人工智能自主学习。结果他们发现,「拥有好奇心的人工智能」能在人类事先没有提供任何信息的状态下,自行摸索超过50个电玩游戏,即使没有人告诉它游戏规则,也能在部分游戏中获胜、顺利闯关。除了玩电动之外,人工智能一旦开始看电视,可能会就无止尽地看下去,因为它们的好奇心会令它们无法自拔。

如何帮人工智能设计「好奇心」?
「开放AI」团队为「好奇心」所下的定义相当简单:一个按照「预测有多不准」来对人工智能进行奖励的机制。具体来说,这种「好奇心」算法会根据已经发生的状况,尝试对未来做出预测。当算法的预测发生错误时,反而给予奖励。这样的「好奇心」设计,鼓励人工智能持续设想「过去未曾面临的状况」,而不会自满于「我已经预测的很准了」。研究发现,拥有「好奇心」的人工智能特别擅长玩「超级马力欧」(Super Mario),原因正是因为这款经典游戏也以一个个截然不同的全新关卡,吸引人工智能在一路晋级的同时,一关接着一关不停玩下去。不过「太好奇也可能杀死猫」,由于「好奇心」驱使人工智能去探索过去从未经验过的情形,它可能会故意在游戏中死掉,就为了去看看「Game Over」这一幕。此外,当它探索的环境中有虚拟电视时,有「好奇心」的它就会变成电视儿童,不停切换频道,寻求新鲜体验。

有「好奇心」的人工智能能干嘛?
研究团队在论文中写道,「我们在迷宫(maze,此指让人工智能探索的环境)中加入了一台电视,而且还可以切换不同频道。」由于电视所发出的讯号十分随机,算法永远无法正确预测接下来将发生什么。这时,「好奇心」就会让人工智能不停获得奖励,使其完全沈溺在电视不断浮现的新影像中。当人工智能在迷宫中发现电视、开始转台之后,「好奇的」人工智能便会就这样一直看下去。只有在周遭出现什么比电视还要有魅力的新事物时,人工智能才有可能转身离开。这个研究的重点,并非只是测试人工智能能不能靠自己摸索规则、在电玩中取胜,还希望能了解如何让人工智能更精确地理解周遭的世界。除此之外,由于被赋予「好奇心」的人工智能特别擅长在电玩游戏中探索各个隐藏地图、缝隙角落,因此,研究者们期许日后能将此技术应用于为程序代码除错(debug),或者就让这些人工智能试玩正在研发阶段的游戏,找出其中的设计错误。

原文地址:http://blog.51cto.com/13373212/2322633

时间: 2024-10-08 15:23:35

给人工智能「好奇心」会变成什么样?答案不出所料的相关文章

不设目标也能通关「马里奥」的AI算法,全靠好奇心学习

在强化学习中,设计密集.定义良好的外部奖励是很困难的,并且通常不可扩展.通常增加内部奖励可以作为对此限制的补偿,OpenAI.CMU 在本研究中更近一步,提出了完全靠内部奖励即好奇心来训练智能体的方法.在 54 个环境上的大规模实验结果表明:内在好奇心目标函数和手工设计的外在奖励高度一致:随机特征也能作为强大的基线. 通过与任务匹配的奖励函数最大化来训练智能体策略.对于智能体来说,奖励是外在的,并特定于它们定义的环境.只有奖励函数密集且定义良好时,多数的 RL 才得以成功实现,例如在电子游戏中的

大数据和「数据挖掘」是何关系?---来自知乎

知乎用户,互联网 244 人赞同 在我读数据挖掘方向研究生的时候:如果要描述数据量非常大,我们用Massive Data(海量数据)如果要描述数据非常多样,我们用Heterogeneous Data(异构数据)如果要描述数据既多样,又量大,我们用Massive Heterogeneous Data(海量异构数据)--如果要申请基金忽悠一笔钱,我们用Big Data(大数据) 编辑于 2014-02-2817 条评论感谢 收藏没有帮助举报作者保留权利 刘知远,NLPer 4 人赞同 我觉得 大数据

技术人员应对「考核」的一些思考

来这个公司实习已经半年多了,在年前经历了一次年终考核,最终对我的工作的评级是 C(及格-符合当前职位的工作),让我不禁思考自己在项目中的一些工作的问题,为什么我是C?是我做的不够好吗?或者说在哪里做的不够好? 从考核流程来看,基本上是 CTO 与 Team Leader 对团队成员的「年终总结与次年工作计划」进行Rank,个人狭义的认为「考核」的主要支持材料就是这个总结了. 他山之石 其他公司是怎么考核的呢?说实话我也不太清楚,刚入行,只能通过搜索了解,在网上了解到有以下几种:发精品博客.发论文

为什么说产品经理要有「傻瓜」的心态?

摘要 : 我最早听到类似的说法并不来自于张小龙,而是一本书.书的名字叫做<像外行一样思考>,作者是美国卡耐基·梅隆大学(CMU)的计算机科学和机器人研究所的金出武雄教授.金教授的学术固然在同行眼里高山仰止,行文也极为流畅.关于写作,他的观点是,无论写科普还是论文,都要像创作小说那样写出引人入胜的独特观点.这一点和 MacTalk 秉承的写作原则一脉相承. 微信之父张小龙曾经在「微信背后的产品观」里讲到:「产品经理要有傻瓜心态」.这里的傻瓜并不是真傻,而是一种外行心态.张小龙说,自己要经过5-1

恶梦还是现实?智能机器人真的上演「逃亡」

科学家的恶梦终于成真了:俄罗斯一个人工智能机械人,在研究人员一不留神下,竟自行逃出了实验室,走进人类的世界!据俄罗斯当地报章报道,事发当日科学家正在教导机械人如何独自行走,避开障碍物.但在实验完结后,一名工程师却忘记关上闸门,令机械人逃出了实验室.机械人共走了一段 50 米的路,跑到一条大街后电池耗尽,停在街上. 一名目击者把事发的片段拍下,正在网络流传.片中只看到一个人形的机械人毫无动静地站在一条繁忙的大街中央,被交通警看守着.之后,一名相信是实验室员工的男子到场把机械人推走.俄罗斯电视第五台

看,物流与 5G 碰撞出的那些「火花」

在前一期栏目中,我们分享了 5G 将带来哪些变革的话题,发现大家对 5G 与行业变革的内容兴趣浓厚.今天,SAP 数字梦想家就邀请 SAP 物流行业首席专家何晓东与大家详细聊聊,除了无人机送货外,5G 将给整个物流行业带来哪些变革. 通过上一期内容的物理课堂小科普,相信大家已经了解到许多 5G 的基本知识.5G 网络以其广覆盖.低时延.高安全性.高行业赋能等特性,在企业的运营过程中具有显著优势.让我们一图了解 5G 与 4G 的主要区别: 在 5G 技术中,同一基站下的两个用户,如果相互间进行通

「01」机器学习,到底在学些什么?

阅读 0 编辑文章 大家好,欢迎来到久违的机器学习系列,这是「美团」算法工程师带你入门机器学习 专栏的第一篇文章,不会太长,一半聊想法,一半聊干货.熟悉我的朋友可能知道,我以前的文章比较随意,涉及的内容极广,包括但不限于Python/Java/C/C++,网络编程,Hadoop等,但主要核心还是机器学习算法和数据科学相关的主题,这一点没变过. 最近认真总结和思考了之前的博客内容,决定将自己从入门到现在一路走来的学习经验和理解整理一番,帮助更多后来的小伙伴更好的入门,所以就有了这个系列.以前的知乎

「02」《机器学习经&amp;#183;天工开物篇》

上期导读:机器学习,到底在学些什么? 起源 故事要从上古神器差分机说起. 从古至今,所有的算法修炼和真气推演记录,全部要靠门派里的外门弟子手写,工序繁杂不说,还耗时良久,导致各大门派的修炼进度一直提不上来. 直到两百年前,神器大师查尔斯·巴贝奇开始了差分机的设计和制造,在后续大师的不断改良之后,终于实现了从真气计算到密文印刷的过程全部自动化,这样还可以避免人为误差,在那个时候,这是一个非常开创性的想法. ? 差分机使用有限差分法来机器计算多项式函数(一种真气运转模式)的值.有限差分方法是个简单但

AC日记——「HNOI2017」单旋 LiBreOJ 2018

#2018. 「HNOI2017」单旋 思路: set+线段树: 代码: #include <bits/stdc++.h> using namespace std; #define maxn 100005 #define maxtree maxn<<2 int val[maxtree],tag[maxtree],L[maxtree],R[maxtree],mid[maxtree]; int op[maxn],ki[maxn],bi[maxn],cnt,size,n,ch[maxn]