分布式强化学习基础概念(Distributional RL )

分布式强化学习基础概念(Distributional RL)

from: https://mtomassoli.github.io/2017/12/08/distributional_rl/

1. Q-learning

在 Q-learning 中,我们想要优化如下的 loss:

  

Distributional RL 的主要思想是:to work directly with the full distribution of the return rather than with its expectation.

假设随机变量 Z(s, a) 是获得的回报(return),那么:Q(s, a) = E(Z(s, a)) ; 并非像公式(1)中所要最小化的误差那样,也就是 期望的距离。

我们可以直接最小化这两个分布之间的距离,which is a distance between full distribution:

其中,R(s, a) 是即刻奖赏的随机变量,sup 是函数值的上界的意思,英文解释为:supremum。并且:

注意的是,我们依然用的是 Q(s, a),但是,此处我们尝试优化 distributions,而不是这些分布的期望。

2. Policy Evaluation

原文地址:https://www.cnblogs.com/wangxiaocvpr/p/8283718.html

时间: 2024-08-01 22:38:05

分布式强化学习基础概念(Distributional RL )的相关文章

Ext学习-基础概念,核心思想介绍

1.目标   本阶段的目标是通过学习一些基础知识来对EXTJS有个整体的了解,知道EXTJS的基础语法,核心设计思想等等 2.内容   1.基础部分学习   2.EXTJS类系统介绍   3.EXTJSMVC结构介绍   4.EXTJS数据模型介绍 3.学习流程           1.在学习之前,首先要对javaScript的基础要有个基础了解,如果不熟悉,请参考:javaScript基础之闭包   2[可选]学习了解一下EXTJS的一些常用功能:http://ziren.org/extjs/

分布式学习——基础概念篇

概述 最近这段时间一直在看分布式有关的东西,但是关于分布式自己还是不能很好的理解,所以本文对分布式基础概念进行下学习. 分布式处理 首先先了解一下分布式处理,分布式处理和集中式处理正好是相反的的体系架构,集中传输集中到式处理顾名思义就是将所有的信息都一个统一的信息中心进行处理:分布式处理就是将不同地点的,或具有不同功能的,或拥有不同数据的多台计算机利用通信网络连接起来,让各个计算机各自承担同一个工作任务的不同部分,在控制中心的管理下,同时运行,共同完成同一个工作任务. 提到分布式处理就不能不提到

中国mooc北京理工大学机器学习第三周(一):强化学习基础

强化学习是程序或者智能体通过与环境不断地进行交互学习一个从环境到动作的映射,学习的目标使累计回报最大化. 强化学习是一种试错学习,在各种状态选需要尽量尝试所有可以选择的动作,通过环境的反馈来判断动作的优劣,最终获得环境和最优动作的映射关系. (马尔可夫)MDP通常来描述一个强化学习问题,智能体根据当前环境的观察采取动作获得反馈,并使环境改变. 在现实的强化学习任务中,很多条件不能获得,若学习不再依赖环境,则称为免疫模型学习,蒙特卡洛强化学习. Q-learning结合了动态规划和蒙特卡洛强化学习

【转】深度学习基础概念理解

原文链接 神经网络基础 1)神经元(Neuron)--就像形成我们大脑基本元素的神经元一样,神经元形成神经网络的基本结构.想象一下,当我们得到新信息时我们该怎么做.当我们获取信息时,我们一般会处理它,然后生成一个输出.类似地,在神经网络的情况下,神经元接收输入,处理它并产生输出,而这个输出被发送到其他神经元用于进一步处理,或者作为最终输出进行输出.  2)权重(Weights)--当输入进入神经元时,它会乘以一个权重.例如,如果一个神经元有两个输入,则每个输入将具有分配给它的一个关联权重.我们随

Dagger学习 -- 基础概念

目标 了解 Dagger 基本概念 官方定义 Google 对 Dagger 的定义如下: Dagger is a fully static, compile-time dependency injection framework for both Java and Android. It is an adaptation of an earlier version created by Square and now maintained by Google. Dagger 是一个为 Java

python学习:基础概念

Python 包管理工具解惑 python packaging 一.困惑 作为一个 Python 初学者,我在包管理上感到相当疑惑(嗯,是困惑).主要表现在下面几个方面: 这几个包管理工具有什么不同? * distutils * setuptools * distribute * disutils2 * distlib * pip 2. 什么时候该用pip,什么时候该用 setup.py ,它们有关系么? 3. easy_install . ez_setup.py . setup.py . se

【分布式系统设计】基础概念

在设计分布式系统时,通常要考虑到 数据的一致性(consistency).系统的可用性(availability).以及分区容忍性( partition tolerance).即CAP定理. 概念 我们知道,分布式系统有多个节点. 数据一致性是指, 对每个节点,在同一时刻,读写的数据是相同的. 举例:用户User1的账户余额是100,在节点Node1我们更改了User1的账户余额,改成了200,此时在节点Node1读User1余额一定是200.如果保证了一致性,那么 在节点Node2.Node3

强化学习基本概念

智能体(agent) 例如alpha-go中的棋盘,用于产生动作的主体就是智能体. 状态(state) l例如当前棋盘中的局势就是状态,表示的是主体执行动作之前需要考虑的外部环境 动作(action) 例如下围棋中的落子,表示智能体在某个状态下采取的一个行为 奖励(reward) 例如当某一步有利于最后取得胜利,那么奖励记为1,否则记为-1.奖励是智能体用来决策在当前状态应该采取什么动作的参考标准.智能体的动作应该朝着未来奖励最大化方向行动. 策略(policy) 理解为目标.例如下围棋的策略就

深度强化学习泡沫及路在何方?

一.深度强化学习的泡沫 2015年,DeepMind的Volodymyr Mnih等研究员在<自然>杂志上发表论文Human-level control through deep reinforcement learning[1],该论文提出了一个结合深度学习(DL)技术和强化学习(RL)思想的模型Deep Q-Network(DQN),在Atari游戏平台上展示出超越人类水平的表现.自此以后,结合DL与RL的深度强化学习(Deep Reinforcement Learning, DRL)迅速