强化学习(David Silver)4:免模型控制

1、一般的策略迭代优化的方法

1)策略评估

2)策略改善

2、model free的策略迭代优化的方法

基于v(s)的优化需要MDP,基于Q的优化不需要,所以策略是

1)使用Q函数策略评估

2)使用厄普西隆贪心策略优化

缺点:非常慢

修正方案:不用积累一批episode再优化;每个episode都优化一次;提升更新频率

3、如何保证找到了最优策略

GLIE策略保证收敛:

1)每个(s,a)都探索无限次

2)最终策略是收敛的

厄普西隆贪心是GLIE(当厄普西隆收敛时)

4、TD学习:SARSA

SARSA收敛性依赖于:sum(a)->无穷;sum(a^2)->有限值;实践中不要这么设置也可以用

5、SARSA和GridWorldSample

6、未知策略学习

1)MC重要性抽样:为什么u/v的重要性采样公式是这样?移项可以发现两边相等;Silver不建议这样做,这样效果很差,因为中间乘积太多,变化太大了

2)直接使用Q函数,不需要重要性采样,就是Q-Learning;是对a做修正,不是对v做修正

7、DP和TD的对比关系:没有看懂

策略迭代为什么对应sarsa?value迭代为什么对应Q-learing?

时间: 2024-10-06 01:49:14

强化学习(David Silver)4:免模型控制的相关文章

强化学习(David Silver)4:免模型学习

0.为什么免模型学习? PS:课程中迭代的值是值函数:周志华老师的西瓜书中迭代的是状态值函数:课程中迭代的是状态-动作值函数 1.蒙特卡洛方法:直接通过采样求和(v(s) = S(s)/n(s),其中S(s) = S(s) + G(t),G(t)=r(t+1)+r(t+2)+...) 1.1.蒙特卡洛增量计算方法(v(s) = v(s) + a*(G(t))) 2.TD算法 (v(s) =) 3.MC和TD的比较 1)TD在线实时学习:MC只能批量学习 2)TD不要完整的序列,不需要知道完整的结

强化学习(David Silver)7:策略梯度算法

1.value based方法/policy based方法优劣 学生指出:因为value based需要更多的存储 silver:why? silver:(自问自答)因为策略值比值函数更有效 PPT总结: 优势: 更好的收敛特性 在高维或者连续的action空间里面有效 可以学习随机策略 劣势: 收敛到局部最优,而非全局最优 policy估计是无效的??和高反差的 2.优化问题的求解方法 非梯度算法:爬山法:单纯性法/amoeba/NelderMead:生成算法 梯度算法:梯度/共轭梯度/拟牛

强化学习(David Silver)6:值函数近似

0.为什么有值函数近似 状态空间太大,基于DP/MC/TD的方法的离散值太多,存储量太大,运行太慢 1.值函数近似有两种方法 一个是状态值函数方法:一个是状态动作值方法 2.值函数近似的三种类型 类型1:输入状态S,输出v 类型2:输入状态S,action a,输出Q(s,a,w) 类型3:输入状态S,输出Q(s,a1,w),Q(s,a1,w) 3.逼近函数 逼近函数:特征的线性组合/神经网络/决策树/最近邻/傅里叶基/小波基 训练方法:可以拥有非平稳,非独立同分布的数据 4.梯度下降算法 MC

深度强化学习泡沫及路在何方?

一.深度强化学习的泡沫 2015年,DeepMind的Volodymyr Mnih等研究员在<自然>杂志上发表论文Human-level control through deep reinforcement learning[1],该论文提出了一个结合深度学习(DL)技术和强化学习(RL)思想的模型Deep Q-Network(DQN),在Atari游戏平台上展示出超越人类水平的表现.自此以后,结合DL与RL的深度强化学习(Deep Reinforcement Learning, DRL)迅速

强化学习——入门

强化学习: 强化学习作为一门灵感来源于心理学中的行为主义理论的学科,其内容涉及 概率论.统计学.逼近论.凸分析.计算复杂性理论.运筹学 等多学科知识,难度之大,门槛之高,导致其发展速度特别缓慢. 一种解释: 人的一生其实都是不断在强化学习,当你有个动作(action)在某个状态(state)执行,然后你得到反馈(reward),尝试各种状态下各种动作无数次后,这几点构成脑中的马尔可夫模型,使你知道之后的行为什么为最优. 另一种解释: 强化学习最重要的几个概念:agent,environment,

David Silver强化学习Lecture1:强化学习简介

课件:Lecture 1: Introduction to Reinforcement Learning 视频:David Silver深度强化学习第1课 - 简介 (中文字幕) 强化学习的特征 作为机器学习的一个分支,强化学习主要的特征为: 无监督,仅有奖励信号: 反馈有延迟,不是瞬时的; 时间是重要的(由于是时序数据,不是独立同分布的); Agent的动作会影响后续得到的数据; 强化学习问题 奖励(Rewards) 奖励 \(R_t\) 是一个标量的反馈信号,表示Agent在 \(t\) 时

David Silver强化学习Lecture2:马尔可夫决策过程

课件:Lecture 2: Markov Decision Processes 视频:David Silver深度强化学习第2课 - 简介 (中文字幕) 马尔可夫过程 马尔可夫决策过程简介 马尔可夫决策过程(Markov Decision Processes, MDPs)形式上用来描述强化学习中的环境. 其中,环境是完全可观测的(fully observable),即当前状态可以完全表征过程. 几乎所有的强化学习问题都能用MDPs来描述: 最优控制问题可以描述成连续MDPs; 部分观测环境可以转

论文:利用深度强化学习模型定位新物体(VISUAL SEMANTIC NAVIGATION USING SCENE PRIORS)

这是一篇被ICLR 2019 接收的论文.论文讨论了如何利用场景先验知识 (scene priors)来定位一个新场景(novel scene)中未曾见过的物体(unseen objects).举例来说,在「厨房」这一场景中,有一张图片显示「苹果」在冰箱的储物架上,同为水果的物体,如「橙子」,会出现在场景的哪个位置呢?论文提出了用基于强化学习的方法来定位「橙子」. 论文:VISUAL SEMANTIC NAVIGATION USING SCENE PRIORS 论文作者:Wei Yang , X

复现深度强化学习论文经验之谈

近期深度强化学习领域日新月异,其中最酷的一件事情莫过于 OpenAI 和 DeepMind 训练智能体接收人类的反馈而不是传统的奖励信号.本文作者认为复现论文是提升机器学习技能的最好方式之一,所以选择了 OpenAI 论文<Deep Reinforcement Learning from Human Preferences>作为 target,虽获得最后成功,却未实现初衷.如果你也打算复现强化学习论文,那么本文经验也许是你想要的.此外,本文虽对强化学习模型的训练提供了宝贵经验,同时也映射出另外