如何让强化学习走进现实世界？

火遍全球的AlphaGo让我们知道了强化学习打游戏究竟有多6，这么强大的算法什么时候才能打破次元壁，走进现实、控制物理世界中的物体呢？

DeepMind已经开始往这方面努力。他们昨天发布的控制套件“ DeepMind Control Suite ”，就为设计和比较用来控制物理世界的强化学习算法开了个头。

就像ALE（Arcade Learning Environment）极大推动了用强化学习打电子游戏的研究一样，DeepMind希望他们的Control Suite也能推动用强化学习控制实体的研究，比如说先让模拟环境中的机器人学会行走、游泳、搬东西等等。

Control Suite设计了一组有着标准化结构、可解释奖励的连续控制任务，还为强化学习Agent提供一组性能测试指标。

这些任务基于MoJoCo物理引擎，所用的语言是Python。DeepMind在GitHub上放出的源代码中，就包含基于MoJoCo的Python强化学习环境，以及为MoJoCo提供Python绑定的软件库。

如上图所示，Control Suite中的任务可以分为14个领域，也就是14类物理模型，上排从左到右分别是：

体操机器人Acrobot，（两节钟摆）、杯中小球、倒立摆、猎豹形机器人、手指、鱼、单足跳跃机器人，下排从左到右分别是人形机器人、机械手、钟摆、质点、形似两节手臂的Reacher、游泳机器人、步行者。

DeepMind还测试了A3C、DDPG和D4PG强化学习算法在这些任务上的表现，：

这些结果也是强化学习完成控制任务的基线数据。

DeepMind Control Suite似乎很受欢迎，截止量子位发稿，已经在GitHub上收获了300多个星标。

Twitter网友们也在热烈讨论这个Control Suite。不过，DeepMind官推为这个套件所选的配图，可谓骨骼清奇，被不少网友质疑：这是……最优跑步方式？

原文地址：https://www.cnblogs.com/xinzhihao/p/10869728.html

时间： 2024-11-23 07:34:16

如何让强化学习走进现实世界？的相关文章

告别2017虚拟世界，走进2018现实世界

很久很久以前,一直喜欢使用VMware Workstation来模拟企业生产环境! 谈不上喜欢! 更多的时候,是企业,个人没有这么多真实环境! 在2017年,尽量抛弃虚拟环境! 在2017年,尽量采取真实环境! 准备了半年多,计划2017年07月01日开工测试,分享! 结果,各种因素,将时间推迟到2018年! 在今年,我将走向现实世界的一年! 由于时间问题,2017年12月31日,2018年1月1日,一直忙过不停 ! 未能用心来写作此博文! 此博文,只是记录2018年一个新的开始! 好戏还在后面

深度强化学习泡沫及路在何方？

一.深度强化学习的泡沫 2015年,DeepMind的Volodymyr Mnih等研究员在<自然>杂志上发表论文Human-level control through deep reinforcement learning[1],该论文提出了一个结合深度学习(DL)技术和强化学习(RL)思想的模型Deep Q-Network(DQN),在Atari游戏平台上展示出超越人类水平的表现.自此以后,结合DL与RL的深度强化学习(Deep Reinforcement Learning, DRL)迅速

强化学习网络中谷歌新型PlaNet最牛，它到底牛在哪里？

来源商业新知,原标题:行业前沿:谷歌新型PlaNet强化学习网络牛在哪里现如今,迁移学习在机器学习领域中十分流行. 迁移学习是谷歌.Salesforce.IBM和微软Azure提供的多种自动机器学习管理服务的基础.由谷歌提出的BERT模型以及由Sebastian Ruder和Jeremy Howard共同提出的ULMFIT(通用语言模型微调文本分类)模型都重点突出了迁移学习,可见迁移学习是目前NLP(自然语言处理)的研究重点. 正如Sebastian在博文<NLP的ImageNet时代已经到来

【基础知识十六】强化学习

一.任务与奖赏我们执行某个操作a时,仅能得到一个当前的反馈r(可以假设服从某种分布),这个过程抽象出来就是“强化学习”. 强化学习任务通常用马尔可夫决策过程MDP来描述: 强化学习任务的四要素 E = <X, A, P, R> E:机器处于的环境 X:状态空间 A:动作空间 P:状态转移概率 R:奖赏函数学习目的: “策略”:机器要做的是不断尝试学得一个“策略” π,根据状态x就能得到要执行的动作 a = π(x) 策略的评价: 长期累积奖赏,常用的有“T步累积奖赏” 强化学习与监督学习的

深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction

转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应用DRL前,阶段性的整理下相关知识点.本文集中在DRL的model-free方法的Value-based和Policy-base方法,详细介绍下RL的基本概念和Value-based DQN,Policy-based DDPG两个主要算法,对目前state-of-art的算法(A3C)详细介绍,其他

C++强化学习规划表

第一阶段 C语言加强以及C++语言详解(29天) 课程名称课程内容学习目标 C语言强化 · C语言基础复习(数据类型.变量.内存布局.指针基础) · C语言基础强化提高(C语言中的字符串.一维数组.二维数组) · C语言基础强化提高(一级指针,二级指针,三级指针实战,N级指针概念,指针数组和数组指针) · C语言基础强化提高(结构体.文件的使用) · 动态库的封装和设计 · 函数指针回调函数 · C语言面试题强化与提高在基础班C语言知识点之上,掌握C语言深入技巧,为日后做更大的项目打下坚

什么是强化学习？

Reinforcement learning 是机器学习里面的一个分支,特别善於控制一只能够在某个环境下自主行动的个体 (autonomous agent),透过和环境之间的互动,例如 sensory perception 和 rewards,而不断改进它的行为 . 听到强化学习,你脑里应该浮现一只曱甴那样的小昆虫,那就是 autonomous agent 的形象: 对「环境」(environment) 这概念,你应该想到像以下这经典游戏的迷宫: 包括有追捕你的怪物.和吃了会加分的食物

强化学习之智能出租车项目总结

项目介绍这是优达学院机器学习课程的第4个实习项目,需要训练智能出租车学习交通规则,然后安全可靠地到达目的地.项目通过循序渐进的方式展开,从熟悉基本的领域知识开始,再以随机动作来直观感受智能车的状态,也是在这一步,让初学者有了心潮澎湃的感觉,"车终于动了!",是的,从0开始一路走来,以游戏闯关的方式,终于来到了4级,第一次体验了传说中的"智能"了,也许是"眼见为实"吧,小车在自己算法的控制之下行动,是一种很美好的感受.然后项目通过引导,让大家开始

带你走进虚拟化世界之kvm(转载)

http://chuck.blog.51cto.com/10232880/1720953 带你走进虚拟化世界之kvm 2015-12-08 23:10:46 标签:云计算虚拟化 kvm 原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://chuck.blog.51cto.com/10232880/1720953 一.走进云计算云计算:云计算是一种按使用量付费的模式,这种模式提供可用的.便捷的.按需的网络访问, 进入可配置的计算