论文笔记之：Dueling Network Architectures for Deep Reinforcement Learning

Dueling Network Architectures for Deep Reinforcement Learning

ICML 2016 Best Paper

Google DeepMind

Abstract:

　　本文是 ICML 2016 的最佳论文之一，又是出自 Google DeepMind。

　　最近几年，在 reinforcement learning 上关于 deep representation 有取得了很大的成功。然而，许多这些应用都是利用传统的网络架构，例如：神经网络，LSTMs，或者 Auto-encoders。本文提出了一种新的网络结构来处理 model-free reinforcement learning。所提出的 dueling network 表示两个独立的预测：

　　one for the state value function ;

　　one for the state-dependent action advantage function。

　　这种分解方式的主要优势在于：generalize learning across actions without imposing any change to the underlying reinforcement learning algorithm. （产生学习交叉动作，而又没有对潜在的RL做出任何改变）。实验表明，当出现许多相似值的动作时，可以学习到更好的策略评价。此外，在玩 Atari 2600 时取得了比 Nature 那个更好的效果。

　　

　　

时间： 2024-10-01 10:20:41

论文笔记之：Dueling Network Architectures for Deep Reinforcement Learning的相关文章

深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction

转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应用DRL前,阶段性的整理下相关知识点.本文集中在DRL的model-free方法的Value-based和Policy-base方法,详细介绍下RL的基本概念和Value-based DQN,Policy-based DDPG两个主要算法,对目前state-of-art的算法(A3C)详细介绍,其他

(zhuan) Deep Reinforcement Learning Papers

Deep Reinforcement Learning Papers A list of recent papers regarding deep reinforcement learning. The papers are organized based on manually-defined bookmarks. They are sorted by time to see the recent papers first. Any suggestions and pull requests

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪,算是单目标跟踪中比较早的应用强化学习算法的一个工作. 在基于深度学习的方法中,想学习一个较好的 robust spatial and temporal representation for continuous video data 是非常困难的. 尽管最近的 CNN based tracke

论文笔记之：Deep Reinforcement Learning with Double Q-learning

Deep Reinforcement Learning with Double Q-learning Google DeepMind Abstract 主流的 Q-learning 算法过高的估计在特定条件下的动作值.实际上,之前是不知道是否这样的过高估计是 common的,是否对性能有害,以及是否能从主体上进行组织.本文就回答了上述的问题,特别的,本文指出最近的 DQN 算法,的确存在在玩 Atari 2600 时会 suffer from substantial overestimation

论文笔记之：Collaborative Deep Reinforcement Learning for Joint Object Search

Collaborative Deep Reinforcement Learning for Joint Object Search CVPR 2017 Motivation: 传统的 bottom-up object region proposals 的方法,由于提取了较多的 proposal,导致后续计算必须依赖于抢的计算能力,如 GPU 等.那么,在计算机不足的情况下,则会导致应用范围受限.而 Active search method (就是 RL 的方法) 则提供了不错的方法,可以很大

(转) Playing FPS games with deep reinforcement learning

Playing FPS games with deep reinforcement learning 博文转自:https://blog.acolyer.org/2016/11/23/playing-fps-games-with-deep-reinforcement-learning/ When I wrote up 'Asynchronous methods for deep learning' last month, I made a throwaway remark that after

Deep Reinforcement Learning 深度增强学习资源

1 学习资料增强学习课程 David Silver (有视频和ppt): http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html 最好的增强学习教材: Reinforcement Learning: An Introduction https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html 深度学习课程 (有视频有ppt有作业) https://www.cs.ox.ac.uk/p

repost: Deep Reinforcement Learning

From: http://wanghaitao8118.blog.163.com/blog/static/13986977220153811210319/ accessed 2016-03-10 深度强化学习(Deep Reinforcement Learning)的资源 Google的Deep Mind团队2013年在NIPS上发表了一篇牛x闪闪的文章,亮瞎了好多人眼睛,不幸的是我也在其中.前一段时间收集了好多关于这方面的资料,一直躺在收藏夹中,目前正在做一些相关的工作(希望有小伙伴一起交流)

(转) Deep Reinforcement Learning: Playing a Racing Game

Byte Tank Posts Archive Deep Reinforcement Learning: Playing a Racing Game OCT 6TH, 2016 Agent playing Out Run, session 201609171218_175epsNo time limit, no traffic, 2X time lapse Above is the built deep Q-network (DQN) agent playing Out Run, trained

猜你喜欢

HDU 2639 Bone Collector II

Bone Collector II Time Limit: 2000ms Memory Limit: 32768KB This problem will be judged on HDU. Origi ...

App接口中json方式封装通信接口

1 封装json通信接口的类 2 <?php 3 class Response{ 4 /** 5 * 按json方式输出通信数据 6 * @param integer $code状态码 7 * ...

linux上可代替ftp的工具rz和sz

对于经常使用Linux系统的人员来说,少不了将本地的文件上传到服务器或者从服务器上下载文件到本地,rz / sz命令很方便的帮我们实现了这个功能,但是很多Linux系统初始并没有这两个命令,因此简单的 ...

自动下载快手视频

@echo off :: 自动下载快手视频 :: get kuaishou video _GKV :: _kslists.txt - https://www.kuaishou.com/live/use ...

如何用ajax提交多组同样的数据（数组）到后台？

我在AJAX中这样写 $("#subbutton").click(function(){ var machineCode_1=$("#machineCo ...

Javascript、Jquery获取浏览器和屏幕各种高度宽度

Javascript: alert(document.body.clientWidth); //网页可见区域宽(body) alert(document.body.clientHeigh ...

51nod 1051

一个M*N的矩阵,找到此矩阵的一个子矩阵,并且这个子矩阵的元素的和是最大的,输出这个最大的值. 例如:3*3的矩阵: -1 3 -1 2 -1 3 -3 1 2 和最大的子矩阵是: 3 -1 -1 3 ...

关系数据库和NOSQL比较

关系数据库 NOSQL 功能: NOSQL 功能简单基本只支持主键查询,有的NOSQL支持非主键查询(不过非主键查询时,其性能也很慢),很少有N ...

C#序列化与反序列化学习

最近为了换一份新工作,准备了不少笔试题.从笔试当中自己发现了不少基础知识的盲点.很庆幸这样的机会,可以让自己对于基础知识的理解又上升一个台阶.此文介绍C#里面的序列化与反序列化的知识,如果你是大鸟,请 ...

【Android】11.1 Activity的生命周期和管理

分类:C#.Android.VS2015: 创建日期:2016-02-21 一.基本概念 1.必须理解这些方法,否则你编的程序根本就没法在实际项目中使用当然,如果仅仅是为了玩玩,或者仅仅是作为例子为 ...

PHP5.2

由于5.2不是 centos 6.x 的标配.如果要php 5.2的话,就需要手动安装.这里使用atomic 软件源来通过rpm包方式centos 6.5 下安装php 5.2. yum insta ...

ATL实现一个组件多个dual接口，multidisp

最近想自己写个按键精灵的插件,于是接触到这个问题: 怎么在一个组件里实现两个自动化接口. 主要针对的ATL,MFC貌似没这个问题,具体MFC是怎么实现的自己没有深究. 按键精灵的插件会在一个组件里实现 ...

Windows下ant环境搭建

一.安装ant 到官方主页http://ant.apache.org下载新版(目前为Ant1.8.1)的ant,得到的是一个apache-ant-1.8.1-bin.zip的压缩包.将其解压到你的硬盘 ...

类方法，静态方法，实例化方法的区别

学习javascript的同学尤其是一些初级学员很难弄清什么,类方法.静态方法.动态方法.实例化方法.虽然有些都一样,但是叫法不同.本着互联网分享精神,今天我就将我自己的见解分享给大家,希望能有所帮助 ...

nodeName、nodeValue和nodeType节点介绍

nodeName.nodeValue 以及 nodeType 包含有关于节点的信息. (一)nodeName 属性含有某个节点的名称. 元素节点的 nodeName 是标签名称属性节点的 nodeN ...

iOS 设置图片imageView圆角——对图片进行裁剪

以前设置图片圆角总是把imageView设置成圆形,然后设置maskToBounds为YES,其实这样处理很消耗性能,图片多了之后比较卡,最好将图片进行裁剪后显示:这里有个分类可以用: UIImage ...

Linux应用：系统清理

1. 清理软件删除后的残余配置文件方法1: 一条指令搞定: dpkg -l | grep '^rc' | awk '{print $2}' | sudo xargs dpkg --purge 2 & ...

初识C#解析Hello world！

一直都很羡慕会用C#写代码的程序员,而今终于可以真正的进入C#的学习.刚刚敲下了第一个C#用例,带着欣喜把这个例子总结一下: 首先启动visual studio,新建项目.就可以看到program.c ...

独家揭秘语音视频聊天室开发顶尖制作教程

互联网的不断发展,各种新技术的兴起,原本做管理软件的我也逐渐转向从事着互联网相关的运营产品的开发.尤其是目前抄得最火热的音视频互动平台技术,今天我先列出最基本开发流程,适用于开发视频会议系统.语音视 ...

STL algorithm算法replace,replace_if和replace_copy,replace_copy_if(49)

replace原型: std::replace template <class ForwardIterator, class T> void replace (ForwardIterato ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.