【强化学习】阶段总结

马尔可夫决策过程 MDP

  • 基于模型的动态规划方法(Model-Based,DP)

    • 策略搜索
    • 策略迭代
    • 值迭代
  • 无模型的强化学习方法(Model-Free)
    • 蒙特卡洛方法(MC):效率不高,但是能够展现 model-free 类算法的特性;
    • 时序差分方法(TD,Important):直接从 episode 学习,不需要了解模型本身,即 model-free;可以学习不完整的 episode,通过自身的引导(bootstrapping),猜测 episode 的结果,同时持续更新这个猜测;


TD vs. MC

  • MC 没有偏差(Bias),但是有着较高的方差(Variance)

    • 更好的收敛性质
    • 对初始值不太敏感
    • 使用简单
  • TD 较低的方差,但是有一定程度的偏差
    • 通常比 MC 更加高效
    • TD(0) 收敛到 Vπ(s)
    • 对初始值更加敏感

MC 算法试图收敛至一个能够最小化状态价值与实际收获的均方差的解决方案;

TD 算法收敛到一个根据已有经验构建的最大可能的马尔可夫模型的状态价值,也就是说 TD 算法首先根据已有经验估计状态空间的转移概率,同时估计某一个状态的即时奖励,最后计算该 MDP 的状态函数。

换句话说:

MC 方法并不利用马尔可夫性质,故在非马尔可夫环境中更有效率;

TD(0) 利用马尔可夫性质,在马尔可夫环境中更有效率。

总结以上内容:


MC vs. TD

Monte-Carlo Temporal Difference
要等到 episode 结束才能获得 return 每一步执行完都能获得一个return  
只能使用完整的 episode 可以使用不完整的 episode
高方差,零偏差 低方差,有偏差
没有体现出马尔可夫性质 体现出了马尔可夫性质


三种强化学习方法:Monte-Carlo,Temporal-Difference 和 Dynamic Programming,前两种属于 Model-Free 类方法(这其中 MC 需要一个完整的 episode,TD 则不需要完整的 episode),最后一种属于 Model-Based 类方法,它通过计算一个状态 s 所有可能的转移状态 s 及其转移概率以及对应的即时奖励来计算这个状态 s 的价值

  • 关于是否 Bootstrap:MC  没有引导数据,只使用实际收获;DP 和 TD 都有引导数据;
  • 关于是否用样本来计算:MC 和 TD 都是应用样本来估计实际的价值函数;而 DP 则是利用模型直接计算得到实际价值函数,没有样本或者采样之说。
  • MC 方法使用值函数最原始的定义,该方法利用所有回报的累积和估计值函数;DP 方法和 TD 方法则利用一步预测方法计算当前状态值函数。其共同点是利用了 bootstrapping 方法,不同的是,DP 方法利用模型计算后继状态,而 TD 方法利用试验得到后继状态。

下面几张提很好的说明了这三类算法的区别:

 



强化学习大一统:



我们可以发现,MC 和 TD 方法都过于极端:

  • MC 方法需要 episode 走到终止状态才能更新,相当于 ∞-step TD target;
  • TD 方法只走一步就更新,相当于 1-step TD target

通常好的方法都是在两个极端之间进行选择,也就是 n-step TD target,这要等到下次才写了。

原文地址:https://www.cnblogs.com/xxxxxxxxx/p/11638593.html

时间: 2024-11-08 22:20:07

【强化学习】阶段总结的相关文章

C++强化学习规划表

第一阶段 C语言加强以及C++语言详解(29天) 课程名称 课程内容 学习目标 C语言强化 · C语言基础复习(数据类型.变量.内存布局.指针基础) · C语言基础强化提高(C语言中的字符串.一维数组.二维数组) · C语言基础强化提高(一级指针,二级指针,三级指针实战,N级指针概念,指针数组和数组指针) · C语言基础强化提高(结构体.文件的使用) · 动态库的封装和设计 · 函数指针回调函数 · C语言面试题强化与提高 在基础班C语言知识点之上,掌握C语言深入技巧,为日后 做更大的项目打下坚

复现深度强化学习论文经验之谈

近期深度强化学习领域日新月异,其中最酷的一件事情莫过于 OpenAI 和 DeepMind 训练智能体接收人类的反馈而不是传统的奖励信号.本文作者认为复现论文是提升机器学习技能的最好方式之一,所以选择了 OpenAI 论文<Deep Reinforcement Learning from Human Preferences>作为 target,虽获得最后成功,却未实现初衷.如果你也打算复现强化学习论文,那么本文经验也许是你想要的.此外,本文虽对强化学习模型的训练提供了宝贵经验,同时也映射出另外

复现一篇深度强化学习论文之前请先看了这篇文章!

去年,OpenAI和DeepMind联手做了当时最酷的实验,不用经典的奖励信号来训练智能体,而是根据人类反馈进行强化学习的新方法.有篇博客专门讲了这个实验 Learning from Human Preferences,原始论文是< Deep Reinforcement Learning from Human Preferences>(根据人类偏好进行的深度增强学习). 链接:https://arxiv.org/pdf/1706.03741.pdf 过一些深度强化学习,你也可以训练木棍做后空翻

强化学习——入门

强化学习: 强化学习作为一门灵感来源于心理学中的行为主义理论的学科,其内容涉及 概率论.统计学.逼近论.凸分析.计算复杂性理论.运筹学 等多学科知识,难度之大,门槛之高,导致其发展速度特别缓慢. 一种解释: 人的一生其实都是不断在强化学习,当你有个动作(action)在某个状态(state)执行,然后你得到反馈(reward),尝试各种状态下各种动作无数次后,这几点构成脑中的马尔可夫模型,使你知道之后的行为什么为最优. 另一种解释: 强化学习最重要的几个概念:agent,environment,

一文让你看懂人工智能、机器学习、深度学习和强化学习的关系

如果说信息技术是第三次工业革命的核心,那么人工智能所代表的智能则是下一次工业革命的核心力量. 2016年,谷歌阿尔法围棋以4:1战胜围棋世界冠军.职业九段棋手李世石,不仅让深度学习为人们所知,而且掀起了人工智能的"大众热".此后,人工智能越来越热,从机器人开发.语音识别.图像识别.自然语言处理到专家系统等不断推陈出新. 同时,人工智能技术越来越多地融入到我们的生活中,出现了智能音箱.智能助理.智能机器人等. 根据应用领域的不同,人工智能研究的技术也不尽相同,目前以机器学习.计算机视觉等

【深度强化学习】Curriculum-guided Hindsight Experience Replay读后感

目录 导读 目录 正文 Abstract[摘要] Introduction[介绍] 导读 看任何一个领域的文章,一定要看第一手资料.学习他们的思考方式,论述逻辑,得出一点自己的感悟.因此,通过阅读paper,来提升自己对于这个领域的感性和理性认识.如少年时,玩war3电子竞技一般.练习一个种族,找寻突破点. 文章原文:https://ai.tencent.com/ailab/zh/paper/detial?id=329 看到这篇文章的title是:Curriculum-guided Hindsi

深度强化学习Deep Reinforcement Learning 学习过程流水账

2016/10/23 这篇文章和那篇三维重建的流水账一样,用来记录一些关键资料来源和发牢骚. Python怎么学上手快,够用? 神经网络怎么上手? 强化学习怎么上手? 目标驱动,先去看用Python写的强化学习的代码,再去看一些实现各种神经网络的Python代码.再看两种融合的代码. 熟悉工作环境和工作所用工具,比如Tensorflow之类的.

【基础知识十六】强化学习

一.任务与奖赏 我们执行某个操作a时,仅能得到一个当前的反馈r(可以假设服从某种分布),这个过程抽象出来就是“强化学习”. 强化学习任务通常用马尔可夫决策过程MDP来描述: 强化学习任务的四要素 E = <X, A, P, R> E:机器处于的环境 X:状态空间 A:动作空间 P:状态转移概率 R:奖赏函数 学习目的: “策略”:机器要做的是不断尝试学得一个“策略” π,根据状态x就能得到要执行的动作 a = π(x) 策略的评价: 长期累积奖赏,常用的有“T步累积奖赏” 强化学习与监督学习的

强化学习 相关资源

最近因为某个不可描述的原因需要迅速用强化学习完成一个小实例,但是之前完全不懂强化学习啊,虽然用了人家的代码但是在找代码的过程中还是发现了很多不错的强化学习资源,决定mark下来以后学习用 [1]如何用简单例子讲解 Q - learning 的具体过程? https://www.zhihu.com/question/26408259 [2]最简单的讲解Q-Learning过程的例子 http://mnemstudio.org/path-finding-q-learning-tutorial.htm