增强学习----介绍

PS：本文为阅读周志华《机器学习》笔记

介绍-------任务与奖赏

我们如果要种西瓜，那要经过很多步骤后，才有可能种出一田好瓜，当然也有可能种出的瓜很差，或者直接给种死了。那么将种瓜的过程抽象出来，总结出一系列好的操作，归为种瓜策略，那么，这个过程，就是“增强学习”。

这是一个简单的图示，其中：

机器处于环境中，状态空间为X，比如此例，状态空间可以是健康，缺水，凋亡等等，小x为状态空间X中单个状态。

机器所能采取的动作为a，比如：浇水，不浇水；所有动作构成动作集合A。

某个动作a作用在某个状态x上，则潜在的转移函数P将使得环境从当前状态按照某种概率转移到另一个状态。如：缺水状态，选择浇水，则有概率转移到健康状态。

那么，在转移到另一个状态时（另一个状态也可以是原本的状态），环境会根据潜在的“奖赏”函数R反馈给机器一个奖赏，如：健康为+1，缺水为-1，凋亡为-100。

综合起来，增强学习任务对应了一个四元组E=<X,A,P,R>，

其中，P:X*A*X->R;指定了状态转移概率。R：X*A*X->指定了奖赏；

思考：X与A之间的叉叉符号是什么关系？

环境中状态的转移、奖赏的返回时不受机器控制的，机器只能通过选择要执行的动作来影响环境，也只能通过观察转移后的状态和返回的奖赏来感知环境。

下图给出一个例子：仔细看在每个状态下，采取的动作a后状态转移的概率p和所获得的奖赏r；

机器要做的就是通过在环境中不断地尝试而学得一个“策略”π，根据这个策略，在状态x下就知道要执行的动作a=π(x),例如:看到缺水状态，就知道要选择浇水动作；

策略有两种表示方法：一是将策略表示为函数π：X->A,确定性策略常用这种表示方法；

另一种是概率表示π：X *A ->概率，随机性策略常用这种表示；

思考：什么是确定性策略，什么是随机性策略？

那么，π(x,a)为在一个状态x下选择某个动作a的概率，必须有；这里的意思是，在缺水状态下，选择浇水这个动作的概率之和为1.概率是指选择动作的概率；

思考：p是表示状态转移概率，为何在状态x下选择某个动作的转移概率之和也为1？巧合还是有关联

学习的目的就是找到使长期积累奖赏最大化的策略，长期积累有多种计算方式，常用的有“T步累积奖赏”和“伽马折扣累积奖赏”。其中rt表示第t步获得的奖赏值，E表示对所有的随机变量求期望；

与监督学习的差别：

“状态”对应监督学习中的“示例”，就是去掉标记特征的样本。
“动作”对应为“标记”
“策略”对应为“分类器”

从这个意义上说，增强学习可以看作具有“延迟标记信息”的监督学习问题。

时间： 2024-10-17 12:33:20

增强学习----介绍的相关文章

增强学习 | Q-Learning

"价值不是由一次成功决定的,而是在长期的进取中体现" 上文介绍了描述能力更强的多臂赌博机模型,即通过多台机器的方式对环境变量建模,选择动作策略时考虑时序累积奖赏的影响.虽然多臂赌博机模型中引入了价值的概念,但方法在建模过程中本质上是以策略为优化目标,因此又常被归为基于策略的增强学习方法. 此外,增强学习方法还有基于价值以及基于模型两类主要方法.本文介绍第二类,先从描述价值目标的Q函数开始,它也常称之为Q-Learning方法. 最简单的Q函数可用"状态-动作"二维表

增强学习 | 多臂赌博机模型进阶

“模型是一个框架,用来描述分析者感兴趣的研究对象” 上文[增强学习 | 多臂赌博机模型]介绍了基本的多臂赌博机模型,即单步动作会根据反馈直接作出决策,因此多臂赌博机的目标是学习策略函数,以产生最优的执行动作.介绍了两种学习最优策略的方法,一是使用平均累积函数,二是使用神经网络拟合.相比下,神经网络具有更强的表达能力,效果也更好. 但基本的多臂赌博机模型有两个限制,一是行动与环境状态无关:二是不能处理延时累积回报,这些因素限制了基本多臂赌博机模型的描述和解决现实更复杂问题的能力. 对于行动与环境状

增强学习与马尔科夫决策过程

现有的机器学习算法根据模型的学习过程大致可以分为四类:监督式学习,无监督式学习,半监督式学习和增强学习. ① 监督式学习:从标记好的训练数据中进行模型的训练,常用来做分类和回归,例如逻辑回归.反向神经网络: ② 无监督式学习:根据数据的特征直接对数据的结构和数值进行归纳,常用来做聚类,例如周知的K-均值,谱聚类: ③ 半监督式学习:根据部分标记的和部分没有标记的训练数据进行模型的学习,常用来做回归和分类: ④ 增强式学习:作为今天要讨论的主角,是机器学习中最酷的分支之一,其通过不断的试错.反馈进

增强学习 | 多臂赌博机模型

探索的终点是真理上文介绍了了增强学习的基本框架,一个完整的增强学习框架包括状态.动作.回报.环境等基本概念,其对应的任务问题有三个主要特点: 不同的动作会有不同的回报: 回报是随时间延迟累积的: 行动回报与环境状态是相关的. 对于一些简单的增强学习任务,往往并不需要满足特点2和特点3,将这类问题称为多臂赌博机模型.它来源于赌场的多臂赌博机,即按下不同的臂会有不同额度的奖励.假设有一个Agent能够不断进行尝试找到奖励最大的臂,即建立学习函数,直接将观察状态映射为行动. 学习的最优函数将直接对应

(转) 深度增强学习与通用人工智能

深度增强学习前沿算法思想 CSDN 作者: Flood Sung 2017-02-16 09:34:29 举报阅读数:3361 作者: Flood Sung,CSDN博主,人工智能方向研究生,专注于深度学习,增强学习与机器人的研究. 责编:何永灿,欢迎人工智能领域技术投稿.约稿.给文章纠错,请发送邮件至[email protected]本文为<程序员>原创文章,未经允许不得转载,更多精彩文章请订阅2017年<程序员>? 2016年AlphaGo计算机围棋系统战胜顶尖职业棋手李世石

增强学习（一） ----- 基本概念

机器学习算法大致可以分为三种: 1. 监督学习(如回归,分类) 2. 非监督学习(如聚类,降维) 3. 增强学习什么是增强学习呢? 增强学习(reinforcementlearning, RL)又叫做强化学习,是近年来机器学习和智能控制领域的主要方法之一. 定义: Reinforcement learning is learning what to do ----how to map situations to actions ---- so as to maximize a numerica

【转载】增强学习（Reinforcement Learning and Control）

增强学习(Reinforcement Learning and Control) [pdf版本]增强学习.pdf 在之前的讨论中,我们总是给定一个样本x,然后给或者不给label y.之后对样本进行拟合.分类.聚类或者降维等操作.然而对于很多序列决策或者控制问题,很难有这么规则的样本.比如,四足机器人的控制问题,刚开始都不知道应该让其动那条腿,在移动过程中,也不知道怎么让机器人自动找到合适的前进方向. 另外如要设计一个下象棋的AI,每走一步实际上也是一个决策过程,虽然对于简单的棋有A*的启发式

增强学习 | AlphaGo背后的秘密

"敢于尝试,才有突破" 2017年5月27日,当今世界排名第一的中国棋手柯洁与AlphaGo 2.0的三局对战落败.该事件标志着最新的人工智能技术在围棋竞技领域超越了人类智能,借此机会,介绍一下AlphaGo背后的秘密--增强学习技术. 增强学习(Reinforcement Learning),也称强化学习,是一种在过程中学习提高机器智能的框架.该框架通常可用马尔可夫决策过程(Markov Decision Process)概念来描述,即假设存在智能体(Agent)在约束环境下执行某动

【增强学习】Recurrent Visual Attention源码解读

Mnih, Volodymyr, Nicolas Heess, and Alex Graves. "Recurrent models of visual attention." Advances in Neural Information Processing Systems. 2014. 戳这里下载训练代码,戳这里下载测试代码. 这篇文章处理的任务非常简单:MNIST手写数字分类.但使用了聚焦机制(Visual Attention),不是一次看一张大图进行估计,而是分多次观察小部分图