强化学习(David Silver)4：免模型学习

0、为什么免模型学习？

PS：课程中迭代的值是值函数；周志华老师的西瓜书中迭代的是状态值函数；课程中迭代的是状态-动作值函数

1、蒙特卡洛方法：直接通过采样求和（v(s) = S(s)/n(s)，其中S(s) = S(s) + G(t)，G(t)=r(t+1)+r(t+2)+...）

1.1、蒙特卡洛增量计算方法(v(s) = v(s) + a*(G(t)))

2、TD算法 (v(s) =)

3、MC和TD的比较

1)TD在线实时学习；MC只能批量学习

2)TD不要完整的序列，不需要知道完整的结果；MC相反

3)TD计算工程中，用部分数据估计V，是有偏的；return(MC)公式是无偏的；return(MC)随机性强，方差大；TD随机性弱，方差小

4)MC对初始值不敏感；对于函数近似也会收敛；TD对初始值敏感，对函数近似未必收敛

5)TD效率高，收敛快；MC收敛性好

6)MC向着最小二乘收敛；TD向MDP收敛

7)TD探索马尔科夫性，在马尔科夫环境更有效；MC不探索马尔科夫性，在非马尔科夫环境更有效

4、DP/MC/TD的比较

1)自举：MC不自举；DP/TD自举（自举：不以真实的最终反馈为目标，而是以间接的中间结果为目标）

2)采样：MC/TD采样；DP不采样

5、统一讨论三种方法

从是否自举和backup数考虑：

1)只使用sample backup值，自举，是TD

2)只使用sample backup值，不自举，是MC

3)使用full backup值，自举，是DP

4)使用full backup值，不自举，是穷举搜索

6、TD(n)是TD和MC的融合：TD(0)是n=1，向前看一步；TD(无穷)是看到结束

7、TD(lambda)是TD(0)/TD(1)/TD(2)的加权组合；这样TD算法会更加鲁棒

8、TD(lambda)的后向算法和资格迹

时间： 2024-10-13 08:38:51

强化学习(David Silver)4：免模型学习的相关文章

强化学习(David Silver)4：免模型控制

1.一般的策略迭代优化的方法 1)策略评估 2)策略改善 2.model free的策略迭代优化的方法基于v(s)的优化需要MDP,基于Q的优化不需要,所以策略是 1)使用Q函数策略评估 2)使用厄普西隆贪心策略优化缺点:非常慢修正方案:不用积累一批episode再优化:每个episode都优化一次:提升更新频率 3.如何保证找到了最优策略 GLIE策略保证收敛: 1)每个(s,a)都探索无限次 2)最终策略是收敛的厄普西隆贪心是GLIE(当厄普西隆收敛时) 4.TD学习:SARSA S

强化学习(David Silver)7：策略梯度算法

1.value based方法/policy based方法优劣学生指出:因为value based需要更多的存储 silver:why? silver:(自问自答)因为策略值比值函数更有效 PPT总结: 优势: 更好的收敛特性在高维或者连续的action空间里面有效可以学习随机策略劣势: 收敛到局部最优,而非全局最优 policy估计是无效的??和高反差的 2.优化问题的求解方法非梯度算法:爬山法:单纯性法/amoeba/NelderMead:生成算法梯度算法:梯度/共轭梯度/拟牛

强化学习(David Silver)6：值函数近似

0.为什么有值函数近似状态空间太大,基于DP/MC/TD的方法的离散值太多,存储量太大,运行太慢 1.值函数近似有两种方法一个是状态值函数方法:一个是状态动作值方法 2.值函数近似的三种类型类型1:输入状态S,输出v 类型2:输入状态S,action a,输出Q(s,a,w) 类型3:输入状态S,输出Q(s,a1,w),Q(s,a1,w) 3.逼近函数逼近函数:特征的线性组合/神经网络/决策树/最近邻/傅里叶基/小波基训练方法:可以拥有非平稳,非独立同分布的数据 4.梯度下降算法 MC

David Silver强化学习Lecture1：强化学习简介

课件:Lecture 1: Introduction to Reinforcement Learning 视频:David Silver深度强化学习第1课 - 简介 (中文字幕) 强化学习的特征作为机器学习的一个分支,强化学习主要的特征为: 无监督,仅有奖励信号: 反馈有延迟,不是瞬时的; 时间是重要的(由于是时序数据,不是独立同分布的); Agent的动作会影响后续得到的数据; 强化学习问题奖励(Rewards) 奖励 \(R_t\) 是一个标量的反馈信号,表示Agent在 \(t\) 时

David Silver强化学习Lecture2：马尔可夫决策过程

课件:Lecture 2: Markov Decision Processes 视频:David Silver深度强化学习第2课 - 简介 (中文字幕) 马尔可夫过程马尔可夫决策过程简介马尔可夫决策过程(Markov Decision Processes, MDPs)形式上用来描述强化学习中的环境. 其中,环境是完全可观测的(fully observable),即当前状态可以完全表征过程. 几乎所有的强化学习问题都能用MDPs来描述: 最优控制问题可以描述成连续MDPs; 部分观测环境可以转

Probability Latent Semantic Analysis (PLSA) 模型学习笔记

Probability Latent Semantic Analysis (PLSA) 模型学习笔记 PLSA是前面LSA的兄弟版,相比于LSA而言,PLSA定义了概率模型,而且每个变量以及相应的概率分布和条件概率分布都有明确的物理解释了.这篇博文我们分三部分来说PLSA:基本思想,EM算法推导,以及优缺点分析. 1. PLSA的基本思想 PLSA是一种主题模型topic model,是针对文本中隐含的主题来建模的方法.PLSA就是给定了文档d之后,需要以一定的概率选择与文档相对应的主题z,

微软CodeDom模型学习笔记（全）

要点1 CodeDomProvider MSDN描述 CodeDomProvider可用于创建和检索代码生成器和代码编译器的实例.代码生成器可用于以特定的语言生成代码,而代码编译器可用于将代码编译为程序集. 注意:在 .NET Framework 2.0版中,在代码生成器和代码编译器中可用的方法可直接从代码提供程序获得.您不需要调用CreateGenerator 或CreateCompiler 来访问这些方法,这些方法被标记为已过时.这适用于预先存在的以及新的代码提供程序实现. CodeDomP

DOM事件模型学习笔记

下面的内容属于阅读笔记,其中涉及大量内容来自于PPK的博客的内容,如果你要跟随我的脚步领略大家风采,那么就从Introduction to Events开始阅读吧. 现代的前端开发应该是会严格遵守 html 展示文档内容构成,css 渲染页面效果,javascript 提供交互浏览器提供交互行为可以追溯到Netscape公司在其第二个版本中支持javascript语言,随后其与微软之间的浏览器大战,以及w3c标准制定的落后,导致至今一直被诟病的浏览器兼容问题,而这些不兼容中关于DOM事件模型的

Django学习笔记（三）—— 模型 model

疯狂的暑假学习之 Django学习笔记(三)-- 模型 model 参考:<The Django Book> 第5章 1.setting.py 配置 DATABASES = { 'default': { 'ENGINE': 'django.db.backends.', # 用什么数据库管理系统 'NAME': '', # 数据库名称,如果用sqlite,要写完整路径 'USER': '', # 如果用sqlite,这个不用写 'PASSWORD': '', # 如果用sqlite,这个不用写