论文笔记之：Continuous Deep Q-Learning with Model-based Acceleration

Continuous Deep Q-Learning with Model-based Acceleration

　　本文提出了连续动作空间的深度强化学习算法。

　　开始正文之前，首先要弄清楚两个概念：Model-free 和 Model-based。引用周志华老师的《机器学习》中的一段话来解释这个概念，即：

　　Model-based learning：机器已对环境进行了建模，能够在机器内部模拟出与环境相同或者近似的状况。在已知模型的环境中学习称为“有模型学习”，也就是这里讲的 model-based learning。此时，对于任意状态 x，x‘ 和动作 a，在状态 x 下执行动作 a 转移到状态 x‘ 的概率p 是已知的，该转移所带来的奖赏 R 也是已知的。

　　那么，于此相对应，就是 Model-free learning。

　　Model-free RL 已经成功的应用于许多具有挑战性的问题，最近也被拓展去处理大型神经网络策略和值函数。但是，model-free 算法的样本复杂性，特别是当使用高维的函数估计时，使其应用范围局限在物理系统中。本文，探索了一种新的在连续控制任务上降低样本复杂性的探索算法和表示。提出了两种互补性的技术来改善该算法的效率。首先，我们提出一个连续的Q-learning algorithm 的变种，并且命名为：Normalized adantage function (NAF)，来替换经常使用的策略梯度和 actor-critic methods。NAF 允许我们利用 Q-learning 和经验回放来处理连续的任务，并且在模拟的机器人控制任务上提升了性能。为了进一步的提升我们算法的效率，本文探索了利用学习到的模型来加速 model-free RL 的过程。

时间： 2024-12-17 17:16:45

论文笔记之：Continuous Deep Q-Learning with Model-based Acceleration

论文笔记之：Continuous Deep Q-Learning with Model-based Acceleration的相关文章

论文笔记之：Deep Reinforcement Learning with Double Q-learning

论文笔记之： Deep Metric Learning via Lifted Structured Feature Embedding

论文笔记(2)：A fast learning algorithm for deep belief nets.

用Tensorflow基于Deep Q Learning DQN 玩Flappy Bird

论文笔记之：UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS

论文笔记之：Deep Attributes Driven Multi-Camera Person Re-identification

论文笔记之：Deep Recurrent Q-Learning for Partially Observable MDPs

论文笔记之：Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks

论文笔记之：Deep Attention Recurrent Q-Network

论文笔记之：RATM: RECURRENT ATTENTIVE TRACKING MODEL