强化学习第三四章

1、梯度下降选择固定步长可能产生的情况:收敛、发散、重复的在两个数之间跳跃

2、np.zeros_like(x)  生成一个shape和x一样的全为0的数组

3、plt.counter画等高线图

4、tensorflow的scope  变量命名空间

(1)若tf.Variable(初始值,name=‘ ‘)这种方式,每一个scope都会对名字产生影响

  若tf.variable_scope(‘123‘)这种方式, 只有variable_scoope这种会对名字产生影响

(2)在同一个scope内,当同样名字的name_scope再次被声明的时候,scope的名字不会直接被复用,而是会通过改名创建全新的scope

                                    当同样名字的variable_scope再次声明的时候,scope直接复用了

5、tensorflow进行图运算之前需要:(1)创立回话层with tf.Session() as sess (2)初始化所有的变量sess.run(global_variables_initializer())

                (3) sess.run([运算1,运算2],feed_dict={})   feed_dict是输入参数

若要访问计算图,两步 (1)graph=tf.get_default_graph()  (2) print(graph.get_operations())

6、当使用加操作的时候,若用c=a+b,get_operations 输出得到的是“add:0",若用c=tf.add(a,b,‘c‘),输出得到的才是一个叫c的变量,通过graph.get_tensor_by_name可以访问的到,尽可能为每一个option起好名字

7、还存在的问题:共轭梯度方法和自然梯度方法

原文地址:https://www.cnblogs.com/lin-kid/p/11516379.html

时间: 2024-10-08 07:36:55

强化学习第三四章的相关文章

强化学习第七章

1.策略迭代.价值迭代.泛化迭代的前提条件:智能体知道环境的状态转移概率,即是基于模型的问题 2.蒙特卡洛方法采样:随机采样估计期望值,通过样本序列逼近真实的期望值.  成立原因:大数定理. 3.探索和利用,探索指的是不拘于当前的表现,选择不同于当前策略的行动:利用是持续使用当前的最优策略,尽可能的获得更多的回报. 4.蒙特卡洛方法的缺点:估计值的方差大.估计值方差大则均值收敛需要更长时间.方差大的原因:每次掷骰子的数字都不同,采样频率的问题,会多次出现同一个状态,在计算的过程中没有区分第一次到

什么是强化学习?

Reinforcement learning 是机器学习里面的一个分支,特别善於控制一只能够在某个环境下 自主行动 的个体 (autonomous agent),透过和 环境 之间的互动,例如 sensory perception 和 rewards,而不断改进它的 行为 . 听到强化学习,你脑里应该浮现一只曱甴那样的小昆虫,那就是 autonomous agent 的形象: 对「环境」(environment) 这概念,你应该想到像以下这经典游戏的迷宫: 包括有追捕你的怪物.和吃了会加分的食物

Hulu机器学习问题与解答系列 | 第八弹:强化学习 (二)

答应你们的解答部分来啦! "视频游戏里的强化学习" 场景描述 游戏是强化学习最有代表性也是最合适的应用领域之一,其几乎涵盖了强化学习所有的要素,例如环境:游戏本身的状态,动作:用户操作,机器人:程序,回馈:得分.输赢等.通过输入原始像素来玩视频游戏,是人工智能成熟的标志之一.雅达利(Atari)是20世纪七八十年代红极一时的电脑游戏,类似于国内的红白机游戏,但是画面元素要更简单一些.它的模拟器相对成熟简单,使用雅达利游戏来测试强化学习,是非常合适的.应用场景可以描述为:在离散的时间轴上

强化学习(四)用蒙特卡罗法(MC)求解

在强化学习(三)用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法.但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态.导致对于复杂问题计算量很大.同时很多时候,我们连环境的状态转化模型$P$都无法知道,这时动态规划法根本没法使用.这时候我们如何求解强化学习问题呢?本文要讨论的蒙特卡罗(Monte-Calo, MC)就是一种可行的方法. 蒙特卡罗法这一篇对应Sutton书的第五章和UCL强化学习课程的第四讲部分,第五讲部分

强化学习(五)用时序差分法(TD)求解

在强化学习(四)用蒙特卡罗法(MC)求解中,我们讲到了使用蒙特卡罗法来求解强化学习问题的方法,虽然蒙特卡罗法很灵活,不需要环境的状态转化概率模型,但是它需要所有的采样序列都是经历完整的状态序列.如果我们没有完整的状态序列,那么就无法使用蒙特卡罗法求解了.本文我们就来讨论可以不使用完整状态序列求解强化学习问题的方法:时序差分(Temporal-Difference, TD). 时序差分这一篇对应Sutton书的第六章部分和UCL强化学习课程的第四讲部分,第五讲部分. 1. 时序差分TD简介 时序差

【强化学习】1-1-0 强化学习介绍 【强化学习】1-1-0 强化学习介绍

title: [强化学习]1-1-0 强化学习介绍 categories: - Reinforcement Learning - RL-An Introduction keywords: - Reinforcement Learning - Situation - Action - Enviroment - Closed-loop - Optimal Control - Markov Decision Processes - MDPs toc: true date: 2018-08-25 22:

强化学习(八)价值函数的近似表示与Deep Q-Learning

在强化学习系列的前七篇里,我们主要讨论的都是规模比较小的强化学习问题求解算法.今天开始我们步入深度强化学习.这一篇关注于价值函数的近似表示和Deep Q-Learning算法. Deep Q-Learning这一篇对应Sutton书的第11章部分和UCL强化学习课程的第六讲. 1. 为何需要价值函数的近似表示 在之前讲到了强化学习求解方法,无论是动态规划DP,蒙特卡罗方法MC,还是时序差分TD,使用的状态都是离散的有限个状态集合$\mathbb{S}$.此时问题的规模比较小,比较容易求解.但是假

强化学习(九)与Deep Q-Learning进阶之Nature DQN

在强化学习(八)价值函数的近似表示与Deep Q-Learning中,我们讲到了Deep Q-Learning(NIPS 2013)的算法和代码,在这个算法基础上,有很多Deep Q-Learning(以下简称DQN)的改进版,今天我们来讨论DQN的第一个改进版Nature DQN(NIPS 2015). 本章内容主要参考了ICML 2016的deep RL tutorial和Nature DQN的论文. 1. DQN(NIPS 2013)的问题 在上一篇我们已经讨论了DQN(NIPS 2013

强化学习二

一.前言 在第一章强化学习简介中,我们提到强化学习过程可以看做一系列的state.reward.action的组合.本章我们将要介绍马尔科夫决策过程(Markov Decision Processes)用于后续的强化学习研究中. 二.马尔科夫过程(Markov Processes) 2.1 马尔科夫性 首先,我们需要了解什么是马尔科夫性: 当我们处于状态StSt时,下一时刻的状态St+1St+1可以由当前状态决定,而不需要考虑历史状态. 未来独立于过去,仅仅于现在有关 将从状态s 转移到状态 s