Policy Gradients

这篇博客只是为了自己记录,思路比较跳跃。

Policy Gradients

不估计局面的价值,转而预测选取每个动作的概率。因为某些游戏中我们可能会需要在相同的状态下做出随机行为,比如说某些资源有限的游戏,我们不可能一直在某一个地方一直获取资源。

更新函数是\(\theta_{t+1}=\theta_t + \alpha \cfrac{\partial J}{\partial \theta}\),其中\(J(\theta)\)是对当前参数产生的策略的评价,越高越好。

\(J(\theta)\)中,\(\theta\)的影响来自于两方面,一是在特定状态下的行为选择,二是这个策略到每个状态的概率。行为选择的偏导比较好考虑,然而行为造成的“某些高价值的状态没有到达”这件事情的偏导就没有那么形象了。

我们把策略对可能到达状态的影响浓缩在了一个\(\mu (x)\)里,表示在该策略下到达\(x\)的概率。

最后关于这个梯度的计算,我自己有一些想法:

  • 一是通过蒙特卡洛估计,即使状态量巨大或者无限,状态的密度分布依然会把我们带到密度大的状态,我们的\(q\)值也是策略下的\(q\)值,没有统计到的密度小的状态价值再高也会被密度冲淡,影响不大。
  • 二是通过Q-learning or DQN来估计\(q\)值,两个算法相互迭代。

原文地址:https://www.cnblogs.com/LincHpins/p/10545122.html

时间: 2024-08-30 17:08:27

Policy Gradients的相关文章

Deep RL Bootcamp Lecture 5: Natural Policy Gradients, TRPO, PPO

https://statweb.stanford.edu/~owen/mc/Ch-var-is.pdf https://zhuanlan.zhihu.com/p/29934206 blue curve is the lower bounded one conjugate gradient to solve the optimization problem. Fisher information matrix, natural policy gradient To write down an op

CS294-112 深度强化学习 秋季学期(伯克利)NO.4 Policy gradients introduction

green bar is the reward function, blue curve is the possibility of differenct trajectories if green bars are equally increased to yellow bars, the result will change! 原文地址:https://www.cnblogs.com/ecoflex/p/9085805.html

從文本到視覺:各領域最前沿的論文集合

選自GitHub 作者:Simon Brugman 參與:吳攀 深度學習已經在語音識別.機器翻譯.圖像目標檢測和聊天機器人等許多領域百花齊放.近日,GitHub 用戶 Simon Brugman 發布了一個按任務分類的深度學習論文項目,其按照不同的任務類型列出了一些當前最佳的論文和對起步有用的論文. 目錄 1. 文本 1.1. 代碼生成(Code Generation) 1.2. 情感分析(Sentiment Analysis) 1.3. 翻譯(Translation) 1.4. 分類(Clas

(转) How to Train a GAN? Tips and tricks to make GANs work

How to Train a GAN? Tips and tricks to make GANs work 转自:https://github.com/soumith/ganhacks While research in Generative Adversarial Networks (GANs) continues to improve the fundamental stability of these models, we use a bunch of tricks to train th

(zhuan) 一些RL的文献(及笔记)

一些RL的文献(及笔记) copy from: https://zhuanlan.zhihu.com/p/25770890  Introductions Introduction to reinforcement learningIndex of /rowan/files/rl ICML Tutorials:http://icml.cc/2016/tutorials/deep_rl_tutorial.pdf NIPS Tutorials:CS 294 Deep Reinforcement Lea

学习笔记TF037:实现强化学习策略网络

强化学习(Reinforcement Learing),机器学习重要分支,解决连续决策问题.强化学习问题三概念,环境状态(Environment State).行动(Action).奖励(Reward),目标获得最多累计奖励.强化学习模型根据环境状态.行动和奖励,学习出最佳策略,以最终结果为目标,不能只看某个行动当下带来的利益,还要看行动未来带来的价值. AutoEncoder属于无监督学习,MLP.CNN.RNN属于监督学习,强化学习目标变化.不明确,或不存绝对正确标签. Google Dee

深度学习十大顶级框架

2015 年结束了,是时候看看 2016 年的技术趋势,尤其是关于深度学习方面.新智元在 2015 年底发过一篇文章<深度学习会让机器学习工程师失业吗?>,引起很大的反响.的确,过去一年的时间里,深度学习正在改变越来越多的人工智能领域.Google DeepMind 工程师 Jack Rae 预测说,过去被视为对于中型到大型数据集来说最佳的预测算法的那些模型(比如说提升决策树(Boosted Decision Trees)和随机森林)将会变得无人问津. 深度学习,或者更宽泛地说——使用联结主义

(转)Applications of Reinforcement Learning in Real World

Applications of Reinforcement Learning in Real World 2018-08-05 18:58:04 This blog is copied from: https://towardsdatascience.com/applications-of-reinforcement-learning-in-real-world-1a94955bcd12 There is no reasoning, no process of inference or comp

花十分钟,让你变成AI产品经理

花十分钟,让你变成AI产品经理 https://www.jianshu.com/p/eba6a1ca98a4 先说一下你阅读本文可以得到什么.你能得到AI的理论知识框架:你能学习到如何成为一个AI产品经理并且了解到AI产品经理如何在工作中发挥作用,以及AI产品经理需要从哪些方面锻炼能力.最重要的是,通过本文,一切都特别快(手打滑稽). PS:目前只针对弱人工智能(我喜欢简称,此处我们简称为"弱智")进行学习. 首先我们必须要掌握的是AI的专业知识框架,然后了解AI的市场情况,最后要明白