强化学习网络中谷歌新型PlaNet最牛,它到底牛在哪里?

来源商业新知,原标题:行业前沿:谷歌新型PlaNet强化学习网络牛在哪里

现如今,迁移学习在机器学习领域中十分流行。

迁移学习是谷歌、Salesforce、IBM和微软Azure提供的多种自动机器学习管理服务的基础。由谷歌提出的BERT模型以及由Sebastian Ruder和Jeremy Howard共同提出的ULMFIT(通用语言模型微调文本分类)模型都重点突出了迁移学习,可见迁移学习是目前NLP(自然语言处理)的研究重点。

正如Sebastian在博文《NLP的ImageNet时代已经到来》中写道的那样:

这些作品表明预训练语言模型可应用于各种NLP任务并能取得最佳效果,因而登上了报纸的头条。这些方法预示着一个重大转折:它们对NLP的影响可能就像预训练的ImageNet模型对计算机视觉的影响一样大。

当下的主要问题是: 迁移学习能否应用于强化学习中?

与其他机器学习方法相比,深度强化学习需要大量数据,学习过程中可能存在不稳定性,而且在性能方面较为落后。强化学习主要应用于游戏或机器人领域是有原因的——这些领域能产生大量模拟数据。

与此同时,许多人认为强化学习仍然是实现通用人工智能(AGI)最可行的方法。然而,强化学习一直难以推广到多个场景中的很多任务上,而欠缺的这一点恰恰是智能的重要属性。

毕竟,学习不是件容易的事。最重要的是,它们必须将过去的经验应用于新的情况。

PlaNet背后的故事

在这个项目中,PlaNet代理的任务是“规划”一系列动作,以实现保持杆平衡、教虚拟实体(人或猎豹)走路或通过在某一特定位置击打来保持盒子旋转等目标。

对于深度规划网络(PlaNet)代理必须执行的六个任务的概述。

介绍PlaNet的Google AI博文原文提到了六项任务(以及与任务相关的挑战):

· 保持推车杆平衡:从平衡位置开始,代理必须快速反应以使推车杆一直朝上。

· 向上摇晃推车杆:摄像头被固定在某处,推车可能会离开视线。因此,代理必须掌握并记住多个帧的信息。

· 旋转手指:需要预测两个独立的对象及其互动。

· 猎豹奔跑:包括与地面的接触,这种情况难以预测准确,还需要建立可预测多种未来可能出现情况的模型。

· 接住杯子:只有球被抓住时才会提供零散的奖励信号。要规划出精确的行动序列需要准确预测未来情况。

· 让机器人走路:模拟机器人一开始躺在地上,必须先学会站起来然后再走路。

这些任务一致要求PlaNet在执行中做到以下几点:

1. 代理需要预测各种未来可能性(为了制定出可靠计划)

2. 代理需要根据最近操作的结果/奖励更新计划

3. 代理需要保留许多时间步骤的信息

那么Google AI团队是如何实现这些要求的呢?

PlaNetAI  VS 其它方法

PlaNetAI与传统强化学习的不同之处体现在以下三点:

1.使用潜在动力学模型学习——PlaNet从一系列隐藏或潜在状态而不是图像中学习,以预测潜在状态发展情况。

2.基于模型制定计划——PlaNet在没有策略网络的情况下工作,基于持续的计划做出决策。

3.迁移学习——Google AI团队培养了一个单独的PlaNet代理来处理全部六个不同任务。

让我们逐一深入研究这三个特性,来看看它们如何影响模型性能。

潜在动力学模型

作者主要打算使用紧凑的潜在状态或来自环境的原始感官输入。这两者之间有个权衡利弊的问题。使用紧凑的潜在空间意味着额外提升了难度,因为代理人现在除了必须学会赢得游戏,还必须理解游戏中的视觉概念——这种图像编码和解码需要进行大量计算。

使用紧凑潜状态空间的好处是在代理中学到更多抽象表述,如对象的位置和速度,而且不必生成图像。这意味着实际规划起来会快很多,因为代理只需要预测未来获得的奖励而不用预测图像或场景。

潜在动力学模型现在更常用,因为研究人员认为"训练潜在动力学模型的同时结合提供的奖励,将会生成对与奖励信号相关的变异因素敏感的潜在嵌入,和对培训期间采用的模拟环境中含有的外来因素不敏感的潜在嵌入"。

训练形成的潜在动力学模型——编码器网络(灰色梯形)不直接使用输入图像,而是将图像信息压缩为隐藏状态(绿色圆圈),然后用这些隐藏状态来预测未来图像(蓝色梯形)和奖励(蓝色矩形)。

这篇名为 《论使用深度自动编码器进行高效嵌入式强化学习》的优秀论文指出:

在自主嵌入式系统中,减少现实中采取的行动量和学习一项策略所需的能量通常至关重要。在高维图像表述中训练强化学习代理既耗资又耗时。自动编码器是用于将像素化图像等高维数据压缩成小的潜在表述的深度神经网络。

基于模型的计划与无模型

Jonathan Hui的精彩图表显示了强化学习方法的范围,基于模型的强化学习试图让代理了解现实世界的运转方式。这种强化学习并不是直接将观察映射到行动,而是让代理提前制定明确计划,通过“想象”它们的长期结果来更仔细地选择行动。采用基于模型的方法好处在于样本效率会更高——也就是说它不会从头开始学习每个新任务。

想了解无模型和基于模型的强化学习之间有何差异,可以看我们进行优化的目的,究竟是为了获得最大收益还是为了投入最低成本(无模型=最大奖励,而基于模型=最低成本)。

无模型强化学习技术如使用政策梯度算是一种强力解决方案,其中正确行为最终将会被发现并内化到策略中。实际上,政策梯度必须经历积极回报,而且还要经常经历,才能最终能缓慢地将政策参数转向能够给予高回报的重复性动作。

任务类型是怎样影响选择的方法的,这一点很有趣。安德雷在名为“Deep Reinforcement Learning:Pong fromPixels”的精彩一文中提到在一些游戏或任务中 政策梯度可以战胜人:

在很多游戏里,政策梯度都可以轻易战胜人类。特别是与需要精确操作,快速反应和做出相对短期规划的频繁奖励信号有关的游戏都可以得到理想结果,因为奖励和行动之间的这些短期相关性可以通过该方法轻松“引起注意”,并且执行时政策会进行精心完善。你可以在Pong代理中看到已经发生过的这种情况的提示:它开发了一种策略,它等待球出现,然后迅速冲过去以便在边缘捕获它,以很高的垂直速度快速启动它。代理通过重复此策略得分。在许多ATARI游戏中例如弹球、突围等,Deep Q Learning就是以这种方式战胜了人为基本操作。

迁移学习

在第一场比赛之后,PlaNet代理已经对重力和动力学有了基本的了解,并且能够在下一场比赛中利用这些知识。因此,PlaNet的效率通常比需要从头开始学的方法高50倍。这意味着代理只需查看动画的五个帧(实际上就是1/5秒的镜头)就能精确预测出后面的序列。实施起来也很便捷,这意味着团队无需分别培训六个模型就能有效完成任务。

引自论文:

PlaNet解决了各种基于图像的控制任务,在最终性能方面可与高端的无模型代理相媲美,而且平均数据效率提高了5000%......这些习得的动态可独立于任何特定的任务,因此有可能完美地迁移到环境里的其他任务中去。

下图中,与D4PG相比,PlaNet仅凭2000段就显示出的数据效率增益令人惊讶:

从论文中可以看出:PlaNet在所有任务上明显优于A3C,并且接近D4PG的最终性能,同时与环境的平均交互量要少5000%。

还有这些测试表现与收集的剧集数量(蓝色的是PlaNet)的对比:

摘自介绍PlaNet的论文,文中将PlaNet与无模型算法进行了比较。

这些激动人心的结果昭示着一个数据高效和可推广强化学习新时代的到来。请密切关注这一领域!

原文地址:https://www.cnblogs.com/xinzhihao/p/10838494.html

时间: 2024-10-09 18:33:08

强化学习网络中谷歌新型PlaNet最牛,它到底牛在哪里?的相关文章

深度学习网络中numpy多维数组的说明

目前在计算机视觉中应用的数组维度最多有四维,可以表示为 (Batch_size, Row, Column, Channel) 以下将要从二维数组到四维数组进行代码的简单说明: Tips: 1) 在numpy中所有的index都是从0开始. 2) axis = 0 对Cloumn(Width)操作: axis = 1 对Row(Height)操作: axis = 2 or -1 对Channel(Depth)操作 1. 二维数组 (Row, Column) import numpy as np #

百度正式发布PaddlePaddle深度强化学习框架PARL

去年,斯坦福大学神经生物实验室与 EPFL 联合举办了一场强化学习赛事--人工智能假肢挑战赛(AI for Prosthetics Challenge),希望将强化学习应用到人体腿部骨骼仿真模拟模型的训练. 经过激烈的角逐,最终来自百度大脑的 NLP 技术团队一举击败众多强劲对手,以9980分的成绩夺得冠军! 近日,百度正式发布在赛事夺冠中起到关键作用的深度强化学习框架  PaddlePaddle PARL,同时开源了基于该框架的 NeurIPS 2018强化学习赛事的完整训练代码.点击"阅读原

论文:利用深度强化学习模型定位新物体(VISUAL SEMANTIC NAVIGATION USING SCENE PRIORS)

这是一篇被ICLR 2019 接收的论文.论文讨论了如何利用场景先验知识 (scene priors)来定位一个新场景(novel scene)中未曾见过的物体(unseen objects).举例来说,在「厨房」这一场景中,有一张图片显示「苹果」在冰箱的储物架上,同为水果的物体,如「橙子」,会出现在场景的哪个位置呢?论文提出了用基于强化学习的方法来定位「橙子」. 论文:VISUAL SEMANTIC NAVIGATION USING SCENE PRIORS 论文作者:Wei Yang , X

中国mooc北京理工大学机器学习第三周(一):强化学习基础

强化学习是程序或者智能体通过与环境不断地进行交互学习一个从环境到动作的映射,学习的目标使累计回报最大化. 强化学习是一种试错学习,在各种状态选需要尽量尝试所有可以选择的动作,通过环境的反馈来判断动作的优劣,最终获得环境和最优动作的映射关系. (马尔可夫)MDP通常来描述一个强化学习问题,智能体根据当前环境的观察采取动作获得反馈,并使环境改变. 在现实的强化学习任务中,很多条件不能获得,若学习不再依赖环境,则称为免疫模型学习,蒙特卡洛强化学习. Q-learning结合了动态规划和蒙特卡洛强化学习

浅谈强化学习的方法及学习路线

介绍 目前,对于全球科学家而言,“如何去学习一种新技能”成为了一个最基本的研究问题.为什么要解决这个问题的初衷是显而易见的,如果我们理解了这个问题,那么我们可以使人类做一些我们以前可能没有想到的事.或者,我们可以训练去做更多的“人类”工作,常遭一个真正的人工智能时代. 虽然,对于上述问题,我们目前还没有一个完整的答案去解释,但是有一些事情是可以理解的.先不考虑技能的学习,我们首先需要与环境进行交互.无论我们是学习驾驶汽车还是婴儿学习走路,学习都是基于和环境的相互交互.从互动中学习是所有智力发展和

强化学习二

一.前言 在第一章强化学习简介中,我们提到强化学习过程可以看做一系列的state.reward.action的组合.本章我们将要介绍马尔科夫决策过程(Markov Decision Processes)用于后续的强化学习研究中. 二.马尔科夫过程(Markov Processes) 2.1 马尔科夫性 首先,我们需要了解什么是马尔科夫性: 当我们处于状态StSt时,下一时刻的状态St+1St+1可以由当前状态决定,而不需要考虑历史状态. 未来独立于过去,仅仅于现在有关 将从状态s 转移到状态 s

机器学习工程师 - Udacity 强化学习 Part Three

四.动态规划1.在动态规划设置中,智能体完全了解表示环境特性的马尔可夫决策流程 (MDP).(这比强化学习设置简单多了,在强化学习设置中,智能体一开始不知道环境如何决定状态和奖励,必须完全通过互动学习如何选择动作.) 2.迭代方法求状态值函数迭代方法先对每个状态的值进行初始猜测.尤其是,我们先假设每个状态的值为 0.然后,循环访问状态空间并通过应用连续的更新方程修改状态值函数的估算结果. 3.动作值思考下 qπ?(s1?,right) 这个示例.这个动作值的计算方式如下所示:qπ?(s1?,ri

<强化学习> on policy VS off policy

默认价值函数为Q(s,a),策略迭代更新为pai <—— epsilon-greedy(Q) policy是agent的属性,决定了agent面对某状态s时会选择哪个行为a value是agent的感觉,代表着agent对某个(s,a)的感觉,感觉它好感觉它不好 强化学习迭代过程中, policy-evaluation是获取agent按照当前policy会产生的所有感觉,即获取Qpai    : policy-improvement是根据感觉Q生成一个更好的policy on policy和of

学习笔记TF037:实现强化学习策略网络

强化学习(Reinforcement Learing),机器学习重要分支,解决连续决策问题.强化学习问题三概念,环境状态(Environment State).行动(Action).奖励(Reward),目标获得最多累计奖励.强化学习模型根据环境状态.行动和奖励,学习出最佳策略,以最终结果为目标,不能只看某个行动当下带来的利益,还要看行动未来带来的价值. AutoEncoder属于无监督学习,MLP.CNN.RNN属于监督学习,强化学习目标变化.不明确,或不存绝对正确标签. Google Dee