论文笔记之:Collaborative Deep Reinforcement Learning for Joint Object Search

Collaborative Deep Reinforcement Learning for Joint Object Search  

CVPR 2017

Motivation:

  传统的 bottom-up object region proposals 的方法,由于提取了较多的 proposal,导致后续计算必须依赖于抢的计算能力,如 GPU 等。那么,在计算机不足的情况下,则会导致应用范围受限。而 Active search method (就是 RL 的方法) 则提供了不错的方法,可以很大程度上降低需要评估的 proposal 数量。

  

  我们检查了在交互过程中,多个物体之间的 Joint Active Search 的问题。

  On the one hand, it is interesting to consider such a collabrative detection "game" played by multiple agents under an RL setting;

  On the other hand, it seems especially beneficial in the context of visual object localization where different objects often appear with certain correlation patterns, 如:行人骑自行车,座子上的杯子,等等。

  这些物体在交互的情况下,可以提供更多的 contextual cues 。这些线索有很好的潜力来促进更加有效的搜索策略。

  

  本文提出一种协助的多智能体 deep RL algorithm 来学习进行联合物体定位的最优策略。我们的 proposal 服从现有的 RL 框架,但是允许多个智能体之间进行协作。在这个领域当中,有两个开放的问题:

  1. how to make communications effective in between different agents ;

  2. how to jointly learn good policies for all agents.

  

  本文提出通过 gated cross connections between the Q-networks 来学习 inter-agent communication。

  

  所提出的创新点:

  1. 是物体检测领域的第一个做 collaborative deep RL algorithm ;

  2. propose a novel multi-agent Q-learning solution that facilitates learnable inter-agent communication with gated cross connections between the Q-networks;

  3. 本文方法有效的探索了 相关物体之间有用的 contextual information,并且进一步的提升了检测的效果。

  

  3. Collaborative RL for Joint Object Search 

    3.1. Single Agent RL Object Localization 

      作者这里首先回顾了常见的单智能体进行物体检测的大致思路,此处不再赘述。

    3.2. Collaborative RL for Joint Object Localization 

      本文将 single agent 的方法推广到 multi-agent,关键的概念有:

      --- gated cross connections between different Q-networks;

      --- joint exploitation sampling for generating corresponding training data,

      --- a vitrual agent implementation that facilitates easy adaptation to existing deep Q-learning algorithm.

      

      3.2.1 Q-Networks with Gates Cross Connections

      

      3.2.2 Joint Exploitation Sampling

时间: 2024-10-07 23:19:17

论文笔记之:Collaborative Deep Reinforcement Learning for Joint Object Search的相关文章

论文笔记之:Deep Reinforcement Learning with Double Q-learning

Deep Reinforcement Learning with Double Q-learning Google DeepMind Abstract 主流的 Q-learning 算法过高的估计在特定条件下的动作值.实际上,之前是不知道是否这样的过高估计是 common的,是否对性能有害,以及是否能从主体上进行组织.本文就回答了上述的问题,特别的,本文指出最近的 DQN 算法,的确存在在玩 Atari 2600 时会 suffer from substantial overestimation

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪,算是单目标跟踪中比较早的应用强化学习算法的一个工作.  在基于深度学习的方法中,想学习一个较好的 robust spatial and temporal representation for continuous video data 是非常困难的.  尽管最近的 CNN based tracke

论文笔记之: Deep Metric Learning via Lifted Structured Feature Embedding

Deep Metric Learning via Lifted Structured Feature Embedding CVPR 2016 摘要:本文提出一种距离度量的方法,充分的发挥 training batches 的优势,by lifting the vector of pairwise distances within the batch to the matrix of pairwise distances. 刚开始看这个摘要,有点懵逼,不怕,后面会知道这段英文是啥意思的. 引言部分

深度强化学习(Deep Reinforcement Learning)入门:RL base & DQN-DDPG-A3C introduction

转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应用DRL前,阶段性的整理下相关知识点.本文集中在DRL的model-free方法的Value-based和Policy-base方法,详细介绍下RL的基本概念和Value-based DQN,Policy-based DDPG两个主要算法,对目前state-of-art的算法(A3C)详细介绍,其他

论文笔记之:Dueling Network Architectures for Deep Reinforcement Learning

Dueling Network Architectures for Deep Reinforcement Learning ICML 2016 Best Paper Google DeepMind Abstract: 本文是 ICML 2016 的最佳论文之一,又是出自 Google DeepMind. 最近几年,在 reinforcement learning 上关于 deep representation 有取得了很大的成功.然而,许多这些应用都是利用传统的网络架构,例如:神经网络,LSTM

论文笔记(2):A fast learning algorithm for deep belief nets.

论文笔记(2):A fast learning algorithm for deep belief nets. 这几天继续学习一篇论文,Hinton的A Fast Learning Algorithm for Deep Belief Nets.这篇论文一开始读起来是相当费劲的,学习了好几天才了解了相关的背景,慢慢的思路也开始清晰起来.DBN算法就是Wake-Sleep算法+RBM,但是论文对Wake-Sleep算法解释特别少.可能还要学习Wake-Sleep和RBM相关的的知识才能慢慢理解,今天

repost: Deep Reinforcement Learning

From: http://wanghaitao8118.blog.163.com/blog/static/13986977220153811210319/ accessed 2016-03-10 深度强化学习(Deep Reinforcement Learning)的资源 Google的Deep Mind团队2013年在NIPS上发表了一篇牛x闪闪的文章,亮瞎了好多人眼睛,不幸的是我也在其中.前一段时间收集了好多关于这方面的资料,一直躺在收藏夹中,目前正在做一些相关的工作(希望有小伙伴一起交流)

Playing Atari with Deep Reinforcement Learning

这是一篇论文,原地址在: https://arxiv.org/abs/1312.5602 我属于边看便翻译,边理解,将他们记录在这里: Abstract: 我们提出了第一个深学习模型,成功地学习控制策略直接从高维感官输入使用强化学习.该模型是一个卷积神经网络,用Q-学习的变体训练,其输入是原始像素,其输出是估计未来的值函数.我们运用我们的方法在Atari 2600 游戏中测试,没有调整结构或学习的算法.我们发现它比所有之前的方法都好,比人类专家玩得都厉害. 1 Introduction 直接从高

Deep Reinforcement Learning 深度增强学习资源

1 学习资料 增强学习课程 David Silver (有视频和ppt): http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html 最好的增强学习教材: Reinforcement Learning: An Introduction https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html 深度学习课程 (有视频有ppt有作业) https://www.cs.ox.ac.uk/p