强化学习(David Silver)7:策略梯度算法

1、value based方法/policy based方法优劣

学生指出:因为value based需要更多的存储

silver:why?

silver:(自问自答)因为策略值比值函数更有效

PPT总结:

优势:

更好的收敛特性

在高维或者连续的action空间里面有效

可以学习随机策略

劣势:

收敛到局部最优,而非全局最优

policy估计是无效的??和高反差的

2、优化问题的求解方法

非梯度算法:爬山法;单纯性法/amoeba/NelderMead;生成算法

梯度算法:梯度/共轭梯度/拟牛顿

时间: 2024-10-09 20:35:15

强化学习(David Silver)7:策略梯度算法的相关文章

强化学习(David Silver)4:免模型控制

1.一般的策略迭代优化的方法 1)策略评估 2)策略改善 2.model free的策略迭代优化的方法 基于v(s)的优化需要MDP,基于Q的优化不需要,所以策略是 1)使用Q函数策略评估 2)使用厄普西隆贪心策略优化 缺点:非常慢 修正方案:不用积累一批episode再优化:每个episode都优化一次:提升更新频率 3.如何保证找到了最优策略 GLIE策略保证收敛: 1)每个(s,a)都探索无限次 2)最终策略是收敛的 厄普西隆贪心是GLIE(当厄普西隆收敛时) 4.TD学习:SARSA S

强化学习(David Silver)6:值函数近似

0.为什么有值函数近似 状态空间太大,基于DP/MC/TD的方法的离散值太多,存储量太大,运行太慢 1.值函数近似有两种方法 一个是状态值函数方法:一个是状态动作值方法 2.值函数近似的三种类型 类型1:输入状态S,输出v 类型2:输入状态S,action a,输出Q(s,a,w) 类型3:输入状态S,输出Q(s,a1,w),Q(s,a1,w) 3.逼近函数 逼近函数:特征的线性组合/神经网络/决策树/最近邻/傅里叶基/小波基 训练方法:可以拥有非平稳,非独立同分布的数据 4.梯度下降算法 MC

强化学习(David Silver)4:免模型学习

0.为什么免模型学习? PS:课程中迭代的值是值函数:周志华老师的西瓜书中迭代的是状态值函数:课程中迭代的是状态-动作值函数 1.蒙特卡洛方法:直接通过采样求和(v(s) = S(s)/n(s),其中S(s) = S(s) + G(t),G(t)=r(t+1)+r(t+2)+...) 1.1.蒙特卡洛增量计算方法(v(s) = v(s) + a*(G(t))) 2.TD算法 (v(s) =) 3.MC和TD的比较 1)TD在线实时学习:MC只能批量学习 2)TD不要完整的序列,不需要知道完整的结

强化学习-策略迭代代码实现

1. 前言 今天要重代码的角度给大家详细介绍下策略迭代的原理和实现方式.本节完整代码GitHub. 我们开始介绍策略迭代前,先介绍一个蛇棋的游戏 它是我们后面学习的环境,介绍下它的规则: 玩家每人拥有一个棋子,出发点在图中标为"1"的格子处. 依次掷骰子,根据骰子的点数将自己的棋子向前行进相应的步数.假设笔者的棋子在"1"处,并且投掷出"4",则笔者的棋子就可以到达"5"的位置. 棋盘上有一些梯子,它的两边与棋盘上的两个格子相

浅谈强化学习的方法及学习路线

介绍 目前,对于全球科学家而言,“如何去学习一种新技能”成为了一个最基本的研究问题.为什么要解决这个问题的初衷是显而易见的,如果我们理解了这个问题,那么我们可以使人类做一些我们以前可能没有想到的事.或者,我们可以训练去做更多的“人类”工作,常遭一个真正的人工智能时代. 虽然,对于上述问题,我们目前还没有一个完整的答案去解释,但是有一些事情是可以理解的.先不考虑技能的学习,我们首先需要与环境进行交互.无论我们是学习驾驶汽车还是婴儿学习走路,学习都是基于和环境的相互交互.从互动中学习是所有智力发展和

强化学习网络中谷歌新型PlaNet最牛,它到底牛在哪里?

来源商业新知,原标题:行业前沿:谷歌新型PlaNet强化学习网络牛在哪里 现如今,迁移学习在机器学习领域中十分流行. 迁移学习是谷歌.Salesforce.IBM和微软Azure提供的多种自动机器学习管理服务的基础.由谷歌提出的BERT模型以及由Sebastian Ruder和Jeremy Howard共同提出的ULMFIT(通用语言模型微调文本分类)模型都重点突出了迁移学习,可见迁移学习是目前NLP(自然语言处理)的研究重点. 正如Sebastian在博文<NLP的ImageNet时代已经到来

David Silver强化学习Lecture1:强化学习简介

课件:Lecture 1: Introduction to Reinforcement Learning 视频:David Silver深度强化学习第1课 - 简介 (中文字幕) 强化学习的特征 作为机器学习的一个分支,强化学习主要的特征为: 无监督,仅有奖励信号: 反馈有延迟,不是瞬时的; 时间是重要的(由于是时序数据,不是独立同分布的); Agent的动作会影响后续得到的数据; 强化学习问题 奖励(Rewards) 奖励 \(R_t\) 是一个标量的反馈信号,表示Agent在 \(t\) 时

David Silver强化学习Lecture2:马尔可夫决策过程

课件:Lecture 2: Markov Decision Processes 视频:David Silver深度强化学习第2课 - 简介 (中文字幕) 马尔可夫过程 马尔可夫决策过程简介 马尔可夫决策过程(Markov Decision Processes, MDPs)形式上用来描述强化学习中的环境. 其中,环境是完全可观测的(fully observable),即当前状态可以完全表征过程. 几乎所有的强化学习问题都能用MDPs来描述: 最优控制问题可以描述成连续MDPs; 部分观测环境可以转

强化学习_PolicyGradient(策略梯度)_代码解析

使用策略梯度解决离散action space问题. 一.导入包,定义hyper parameter import gym import tensorflow as tf import numpy as np from collections import deque #################hyper parameters################. #discount factor GAMMA = 0.95 LEARNING_RATE = 0.01 二.PolicyGradie