<强化学习>基于采样迭代优化agent

前面介绍了三种采样求均值的算法

——MC

——TD

——TD(lamda)

下面我们基于这几种方法来 迭代优化agent

传统的强化学习算法

已经知道完整MDP——使用价值函数V（s）

没有给出完整MDP——使用价值函数Q（s，a）

可见我们的目标就是确定下来最优策略和最优价值函数

　　|——有完整MDP && 用DP解决复杂度较低

　　| 　　　　　　　　　　　　　　　　　　　 ====》使用贝尔曼方程和贝尔曼最优方程求解

　　|——没有完整MDP(ENV未知) or 知道MDP但是硬解MDP问题复杂度太高

　　| 　　　　　　　　　　　　　　　　　　　 ====》 policy evaluation使用采样求均值的方法

　　| 　　　　　　　　　　　　　　　　　　　　　　　　　　|—— ON-POLICY MC

　　| 　　　　　　　　　　　　　　　　　　　　　　　　　|—— ON-POLICY TD

　　| 　　　　　　　　　　　　　　　　　　　　　　　　　　|____ OFF-POLICY TD

1. ON-POLICY 和OFF-POLICY

on policy :基于策略A采样获取episode，并且被迭代优化的策略也是A

off policy :基于策略A采样获取episode，而被迭代优化的策略是B

2.为什么ε-greedy探索在on policyRL算法中行之有效？

原文地址：https://www.cnblogs.com/dynmi/p/12308173.html

时间： 2024-10-29 19:05:46

<强化学习>基于采样迭代优化agent的相关文章

【推荐算法工程师技术栈系列】机器学习深度学习--强化学习

目录强化学习基本要素马尔科夫决策过程策略学习(Policy Learning) 时序差分方法(TD method) Q-Learning算法 Actor-Critic方法 DQN DDPG 推荐系统强化学习建模附录强化学习基本要素智能体(agent):与环境交互,负责执行动作的主体: 环境(Environment):可以分为完全可观测环境(Fully Observable Environment)和部分可观测环境(Partially Observable Environment).

David Silver强化学习Lecture1：强化学习简介

课件:Lecture 1: Introduction to Reinforcement Learning 视频:David Silver深度强化学习第1课 - 简介 (中文字幕) 强化学习的特征作为机器学习的一个分支,强化学习主要的特征为: 无监督,仅有奖励信号: 反馈有延迟,不是瞬时的; 时间是重要的(由于是时序数据,不是独立同分布的); Agent的动作会影响后续得到的数据; 强化学习问题奖励(Rewards) 奖励 $R_t$ 是一个标量的反馈信号,表示Agent在 $t$ 时

强化学习-策略迭代代码实现

1. 前言今天要重代码的角度给大家详细介绍下策略迭代的原理和实现方式.本节完整代码GitHub. 我们开始介绍策略迭代前,先介绍一个蛇棋的游戏它是我们后面学习的环境,介绍下它的规则: 玩家每人拥有一个棋子,出发点在图中标为"1"的格子处. 依次掷骰子,根据骰子的点数将自己的棋子向前行进相应的步数.假设笔者的棋子在"1"处,并且投掷出"4",则笔者的棋子就可以到达"5"的位置. 棋盘上有一些梯子,它的两边与棋盘上的两个格子相

基于RULE的优化器（学习笔记）

崔华<基于Oracle的sql优化学习笔记> 1.1 基于RULE的优化器 (1) CBO (2)RBO 和CBO相比,RBO是有其明显权限的.在使用RBO的情况下,执行计划一旦出了问题,很难对其做调整.另外,如果使用了RBO则目标SQL的写法,甚至是目标SQL中所涉及的各个对象在该SQL文本中出现的先后顺序都可能影响RBO执行计划的选择我,更糟糕的是,Oracle数据库中很好的特性.功能不能再RBO中使用因为他们不能被RBO锁支持. 只要出现如下情形之一,那么即便修改了优化器模式或者使用了R

深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction

转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应用DRL前,阶段性的整理下相关知识点.本文集中在DRL的model-free方法的Value-based和Policy-base方法,详细介绍下RL的基本概念和Value-based DQN,Policy-based DDPG两个主要算法,对目前state-of-art的算法(A3C)详细介绍,其他

深度强化学习泡沫及路在何方？

一.深度强化学习的泡沫 2015年,DeepMind的Volodymyr Mnih等研究员在<自然>杂志上发表论文Human-level control through deep reinforcement learning[1],该论文提出了一个结合深度学习(DL)技术和强化学习(RL)思想的模型Deep Q-Network(DQN),在Atari游戏平台上展示出超越人类水平的表现.自此以后,结合DL与RL的深度强化学习(Deep Reinforcement Learning, DRL)迅速

强化学习杂谈

目录强化学习从入门到放弃杂谈 MDP MP MRP MDP Planning by Dynamic Programming iterative policy evaluation policy iteration value iteration 蒙特卡洛 and TD Monte-Carlo Policy Evaluation TD:Temporal-Difference Learning MODEL FREE control GLIE MC Control Updating Action-

强化学习（四）用蒙特卡罗法（MC）求解

在强化学习(三)用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法.但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态.导致对于复杂问题计算量很大.同时很多时候,我们连环境的状态转化模型$P$都无法知道,这时动态规划法根本没法使用.这时候我们如何求解强化学习问题呢?本文要讨论的蒙特卡罗(Monte-Calo, MC)就是一种可行的方法. 蒙特卡罗法这一篇对应Sutton书的第五章和UCL强化学习课程的第四讲部分,第五讲部分

复现深度强化学习论文经验之谈

近期深度强化学习领域日新月异,其中最酷的一件事情莫过于 OpenAI 和 DeepMind 训练智能体接收人类的反馈而不是传统的奖励信号.本文作者认为复现论文是提升机器学习技能的最好方式之一,所以选择了 OpenAI 论文<Deep Reinforcement Learning from Human Preferences>作为 target,虽获得最后成功,却未实现初衷.如果你也打算复现强化学习论文,那么本文经验也许是你想要的.此外,本文虽对强化学习模型的训练提供了宝贵经验,同时也映射出另外