David Silver强化学习Lecture1:强化学习简介



课件Lecture 1: Introduction to Reinforcement Learning

视频David Silver深度强化学习第1课 - 简介 (中文字幕)


强化学习的特征

作为机器学习的一个分支,强化学习主要的特征为:

  • 无监督,仅有奖励信号;
  • 反馈有延迟,不是瞬时的;
  • 时间是重要的(由于是时序数据,不是独立同分布的);
  • Agent的动作会影响后续得到的数据;

强化学习问题

奖励(Rewards)

奖励 \(R_t\) 是一个标量的反馈信号,表示Agent在 \(t\) 时刻的表现如何.

Agent的目标: 最大化累积奖励(maximise cumulative reward).

强化学习基于奖励假设(reward hypothesis).

奖励假设(Reward Hypothesis):
所有强化学习任务的目标都可以被描述为最大化期望累积奖励.


序贯决策(Sequential Decision Making)

目标: 选择合适的动作最大化将来的累积奖励.

  • 动作可能会产生长期后果;
  • 奖励会有延迟性;
  • 牺牲立即回报可能会获得更多的长期回报.

智能体和环境(Agent and Environment)

智能体在每个时刻\(t\)会:

  • 执行动作(Action)\(A_t\);
  • 接收观测(Observation)\(O_t\);
  • 接收标量奖励(Reward)\(R_t\).

而环境则会:

  • 接收动作(Action)\(A_t\);
  • 产生观测(Observation)\(O_{t+1}\);
  • 产生标量奖励(Reward)\(R_{t+1}\).

历史与状态(History and State)

历史(History):由一系列观测,动作和奖励构成.

\[
H_t = O_1, R_1, A_1, \dots, A_{t-1}, O_t, R_t
\]

下一步将发生什么取决于历史:

  • 智能体选择的action;
  • 环境选择的observations/rewards.

状态(State):用来决定接下来会发生什么的信息.

状态是历史的函数:

\[
S_t = f(H_t)
\]


环境状态(Environment State)

环境状态 \(S_{t}^{e}\) 是环境的私有表示,通常对于智能体来说该状态不可见.

即使\(S_{t}^{e}\)可见,也可能包含不相关信息.


智能体状态(Agent State)

智能体状态 \(S_{t}^{a}\) 是智能体的内部表示,包含其用来决定下一步动作的信息,也是强化学习算法使用的信息.

可以写成历史的函数: \(S_{t}^{a} = f(H_t)\)


信息状态(Information State)

信息状态(也称为马尔科夫状态): 包含历史中所有有用的信息.

马尔科夫状态表明: 未来只与现在有关,而与过去无关.

其中,环境状态\(S_t^e\)历史\(H_t\)具有马尔科夫性质.


Rat Example

  • 假如个体状态=序列中的后三个事件(不包括电击、获得奶酪,下同),事件序列3的结果会是什么? (答案是:电击)
  • 假如个体状态=亮灯、响铃和拉电闸各自事件发生的次数,那么事件序列3的结果又是什么? (答案是:奶酪)
  • 假如个体状态=完整的事件序列,那结果又是什么? (答案是:未知)

完全可观测环境(Fully Observable Environments)

完全可观测性(Full observability): 智能体可以直接观测到环境状态,即
\[
O_t = S_t^a = S_t^e
\]

  • 智能体状态 = 环境状态 = 信息状态
  • 实际上是马尔科夫决策过程(Markov Decision Process, MDP)

部分可观测环境(Partially Observable Environments)

部分可观测性(Partial observability): 智能体不能够直接观测到环境.

如,机器人不能通过摄像头得知自身的绝对位置.

  • 智能体状态 \(\neq\) 环境状态
  • 部分可观测马尔科夫决策过程(POMDP)

此时,智能体必须构建其自身的状态表示 \(S_t^a\),比如:

  • 完全的历史: \(S_t^a = H_t\);
  • 环境状态的置信度: \(S _ { t } ^ { a } = \left( \mathbb { P } \left[ S _ { t } ^ { e } = s ^ { 1 } \right] , \ldots , \mathbb { P } \left[ S _ { t } ^ { e } = s ^ { n } \right] \right)\);
  • 循环神经网络: \(S_t^a = \sigma \left(S_{t-1}^{a}W_{s} + O_{t}W_{o}\right)\)

智能体的构成

智能体主要包含以下几种成分:

  • 策略(Policy): 智能体的行为函数;
  • 值函数(Value Function): 每个state或action的好坏;
  • 模型(Model): 智能体对环境的表示.

策略(Policy)

  • 策略是智能体的行为;
  • 状态动作的映射;
  • 确定性策略: \(a = \pi(s)\);
  • 随机性策略: \(\pi(a|s) = \mathbb{P} \left[ A_{t} = a | S_{t} = s\right]\)

值函数(Value Function)

值函数是对于未来奖励的预测.

  • 用于评价状态的好坏;
  • 因此可以用来选择动作.

\[
v_{\pi}(s) = \mathbb{E}_{\pi} \left[ R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots | S_{t} = s \right]
\]


模型(Model)

模型用来预测环境接下来会做什么.

  • \(\mathcal{P}\): 预测下一个状态.
    \[
    \mathcal{P}_{ss'}^{a} = \mathbb{P} \left[ S_{t+1} = s' | S_{t} = s, A_{t} = a\right]
    \]
  • \(\mathcal{R}\): 预测下一个(立即)奖励.
    \[
    \mathcal{R}_{s}^{a} = \mathbb{E} \left[ R_{t+1} | S_{t} = s, A_{t} = a\right]
    \]

Maze Example



策略表示:

箭头表示每个状态的策略 \(\pi(s)\).



值函数表示:

数值表示每个状态的值 \(v_{\pi}(s)\).



模型表示:

智能体可能对环境建立内部模型

  • 网格布局表示转移模型 \(\mathcal{P}_{ss'}^{a}\);
  • 数值表示每个状态的立即奖励 \(\mathcal{R}_{s}^{a}\).


智能体的分类(Categorizing RL agents)

按智能体的成分分类:

  • 基于值函数(Value Based)
  • 基于策略(Policy Based)
  • 演员-评论家(Actor Critic)

或者按有无模型分类:

  • 无模型(Model Free)
  • 基于模型(Model Based)


强化学习的问题

学习与规划(Learning and Planning)

强化学习

  • 环境的初始状态未知;
  • 智能体与环境进行交互;
  • 智能体提升其策略.

    规划

  • 环境的模型已知;
  • 智能体通过模型进行计算,无须与外部进行交互;
  • 智能体提升其策略


探索和利用(Exploration and Exploitation)

强化学习是一种试错(trial-and-error)学习.

智能体需要从与环境的交互中找到一种好的策略,同时不损失过多的奖励.

  • 探索(Exploration): 从环境中寻找更多信息;
  • 利用(Exploitation): 利用已知信息使奖励最大化.

探索和利用同等重要,即使根据已有信息选择出的最优动作可以得到不错的奖励,不妨尝试全新的动作对环境进行探索,也许可以得到更好的结果.


预测和控制(Prediction and Control)

  • 预测(Prediction): 对未来进行评估.


  • 控制(Control): 最优化未来的结果.

原文地址:https://www.cnblogs.com/orzyt/p/10440517.html

时间: 2024-10-14 00:11:45

David Silver强化学习Lecture1:强化学习简介的相关文章

强化学习(David Silver)4:免模型学习

0.为什么免模型学习? PS:课程中迭代的值是值函数:周志华老师的西瓜书中迭代的是状态值函数:课程中迭代的是状态-动作值函数 1.蒙特卡洛方法:直接通过采样求和(v(s) = S(s)/n(s),其中S(s) = S(s) + G(t),G(t)=r(t+1)+r(t+2)+...) 1.1.蒙特卡洛增量计算方法(v(s) = v(s) + a*(G(t))) 2.TD算法 (v(s) =) 3.MC和TD的比较 1)TD在线实时学习:MC只能批量学习 2)TD不要完整的序列,不需要知道完整的结

David Silver强化学习Lecture2:马尔可夫决策过程

课件:Lecture 2: Markov Decision Processes 视频:David Silver深度强化学习第2课 - 简介 (中文字幕) 马尔可夫过程 马尔可夫决策过程简介 马尔可夫决策过程(Markov Decision Processes, MDPs)形式上用来描述强化学习中的环境. 其中,环境是完全可观测的(fully observable),即当前状态可以完全表征过程. 几乎所有的强化学习问题都能用MDPs来描述: 最优控制问题可以描述成连续MDPs; 部分观测环境可以转

一文让你看懂人工智能、机器学习、深度学习和强化学习的关系

如果说信息技术是第三次工业革命的核心,那么人工智能所代表的智能则是下一次工业革命的核心力量. 2016年,谷歌阿尔法围棋以4:1战胜围棋世界冠军.职业九段棋手李世石,不仅让深度学习为人们所知,而且掀起了人工智能的"大众热".此后,人工智能越来越热,从机器人开发.语音识别.图像识别.自然语言处理到专家系统等不断推陈出新. 同时,人工智能技术越来越多地融入到我们的生活中,出现了智能音箱.智能助理.智能机器人等. 根据应用领域的不同,人工智能研究的技术也不尽相同,目前以机器学习.计算机视觉等

DNN结构构建:NAS网络结构搜索和强化学习、迁移学习

DNN结构构建:NAS网络结构搜索和强化学习.迁移学习 2018年05月14日 15:23:20 wishchin 阅读数 2537更多 分类专栏: ANN/DNN/纤维丛 前言 谷歌推出的NASNet架构,用于大规模图像分类和识别.NASNet架构特点是由两个AutoML设计的Layer组成——Normal Layer and Reduction Layer,这样的效果是不再需要相关专家用human knowledge来搭建卷积网络架构,直接用RNN把Hyperparameter计算出来,这样

7种常见的迁移学习的代码+论文+简介

最近调研了不少迁移学习的工作,分享给大家.因为我感觉迁移学习在NLP领域的很多任务中有很大的利用价值,毕竟高质量的标注数据是很少的,而人工标注费时费力,而且质量不一定好. 1. Domain Adaptation 领域自适应 1.1 动机 领域自适应是一种迁移学习,它将不同源领域的数据或特征映射到同一个特征空间,以便于利用其源领域数据或特征来增强目标领域的训练,进而达到更好的训练效果.领域自适应学习不要求训练数据和测试数据一定具有相同的分布. 1.2 目的 利用数据或特征更多的源领域来提升数据或

NFC学习笔记二——Libnfc简介与安装

一直想把自己对过的英文文章做一下翻译记录下来,趁着学习NFC,现将libnfc首页的对libnfc介绍和在不同操作系统上对libnfc安装的文章做一下翻译,一方面提高一下自己的英语,另一方面学习一下libnfc. 原文地址:http://nfc-tools.org/index.php?title=Libnfc 公共平台独立的近场通讯(NFC)库 libnfc是GNU公共许可正下发布的第一个免费的底层的NFC开发包和编程API.它对任何人事完全免费和公开的.这个列表显示了libnfc支持的功能.l

爬虫学习 10.scrapy框架简介和基础应用

爬虫学习 10.scrapy框架简介和基础应用 今日概要 scrapy框架介绍 环境安装 基础使用 今日详情 一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板.对于框架的学习,重点是要学习其框架的特性.各个功能的用法即可. 二.安装 Linux: ``pip3 install scrapy Windows: ``a. p

W3cschool编程实战学习HTML5&CSS实战简介《一》

上周感兴趣想学习一下HTML基础入门.(虽然可能和自己就业没多大关系,但是多了解一点总没坏处.)我在W3cshool上学习编程实战学习中HTML5&CSS的课程,由于平时比较忙,我只能每天晚上抽半个小时做题,本周末又恰逢研究生考试现场确认,因此,目前只写了前面一部分.后续会继续更新. html简单示例分析 <!DOCTYPE html> <html> <body> <h1>我是第一个标题</h1> <p>我是第一个段落.<

深度学习入门和学习书籍

深度学习书籍推荐: 深度学习(Deep Learning) by Ian Goodfellow and Yoshua Bengio and Aaron Courville 中文版下载地址:https://github.com/exacity/deeplearningbook-chinese R语言深度学习实践指南(Deep Learning Made Easy with R) by Dr. N.D. Lewis 下载地址:http://download.csdn.net/detail/oscer