Multi-armed Bandit Problem与增强学习的联系

选自《Reinforcement Learning: An Introduction》, version 2, 2016, Chapter2

https://webdocs.cs.ualberta.ca/~sutton/book/bookdraft2016sep.pdf

引言中是这样引出Chapter2的:

One of the challenges that arise in reinforcement learning, and not in other kinds of learning, is the trade-off between exploration and exploitation. To obtain a lot of reward, a reinforcement learning agent must prefer actions that it has tried in the past and found to be effective in producing reward. But to discover such actions, it has to try actions that it has not selected before. The agent has to exploit what it already knows in order to obtain reward, but it also has to explore in order to make better action selections in the future. The dilemma is that neither exploration nor exploitation can be pursued exclusively without failing at the task. The agent must try a variety of actions and progressively favor those that appear to be best. On a stochastic task, each action must be tried many times to gain a reliable estimate of its expected reward. The exploration-exploitaion dilemma has been intensively studied by mathematicians for many decades (see chapter 2). For now, we simply note that the entire issue of balancing exploration and exploitation does not even arise in supervised and unsupervised learning, at least in their purest forms.

增强学习的挑战之一是如何处理exploration与exploitation之间的折中,这是其他类学习问题所没有的。为了获得很多奖励、收益,增强学习的agent更倾向于选择那些在过去尝试过且收益很大的行为。但是为了发现这样的行为,它必须尝试之前没有选择过的。也就是说,对于agent,一方面它要尽可能的利用它已经知道的知识来获得收益,另一方面,它必须积极进行探索使得未来能够做出更好的选择。矛盾在于过分的追求exploration或exploitation都会导致任务的失败。所以agent应该一方面积极尝试多种多样的行为,另一方面应该尽量选择那些目前看来最好的。 在随机试验中,每个行为必定被多次尝试以获得对于期望收益最为可靠的估计。exploration-exploitation矛盾已经被数学家广泛研究了几十年(见第2章)。至少现在我们可以简单的理解为平衡exploration与exploitation的问题并没有出现在有监督与无监督的学习问题中。

chapter2是这样引出的:

The most import feature distinguishing reinforcement learning from other types of learning is that it uses training information that evaluates the actions taken rather than instructs by giving correct actions. This is what creates the need for active exploration, for an explicit trail-and-error search for good behavior. Purely evaluative feedback indicates how good the action taken is, but not whether it is the best or the worst action possible. Purely instructive feedback, on the other hand, indicates the correct action to take, independently of the action actually taken. This kind of feedback is the basis of supervised learning, which includes large parts of pattern classification, artificial neural networks, and system identification. In their pure forms, these two kinds of feedback are quite distinct: evaluative feedback depends entirely on the action taken, whereas instructive feedback is independent of the action taken. There are also interesting intermediate cases in which evaluation and instruction blend together.

增强学习有别于其他类的学习方式,它使用训练数据不但能够给出正确的行为指令,而且能够评价该行为(采用该行为的奖励、收益)。由此产生了通过显式搜索有利行为的主动的探索需求。单纯的评价式反馈指明了若采取某一行为,则产生的收益是多少,而不是仅仅判断这个行为是最好的活最差的。从另一个角度来讲,单纯的指示型反馈仅指明应该采取的正确行为,与实际采取的行为无关。这种反馈是有监督学习的基础。这两种反馈是完全不同的:评价式反馈完全依赖于已经采取的行为,而指示型反馈独立于实际采取的行为。也有一些处于两者之间的例子。

In this chapter we study the evaluative aspect of reinforcement learning in a simplified setting, one that does not involve learning to act in more than one situation. This nonassociative setting is the one in which most prior work involving evaluative feedback has been done, and it avoids much of the complexity of the full reinforcement learning problem. Studying this case will enable us to see most clearly how evaluative feedback differs from, and yet can be combined with instructive feedback.

本章研究增强学习在简化场景下的评价方面,所谓简化场景也就是说不涉及多个学习场景。这种非关联场景已有许多相关工作涉及到评价式反馈,但是比完全的增强学习问题要简单。学习这些例子有助于我们理解评价式反馈,以及与之相结合的指示型反馈。

The particular nonassociative, evaluative feedback problem that we explore is a simple version of the k-armed bandit problem. We can use this problem to introduce a number of basic learning methods which we extend in later chapters to apply to the full reinforcement learning problem. At the end of this chapter, we take a step closer to the full reinforcement learning problem by discussing what happens when the bandit problem becomes associative, that is, when actions are taken in more than one situation.

我们将要探索的这种特殊的非关联的评价式反馈问题是k-armed bandit problem的简化版本。我们用这个问题引出后续章节中要介绍的完全增强学习的基本方法。本章的最后,对bandit问题进行扩展,使得action发生在多个场景中,得到了关联型版本。

总结:

Multi-armed bandit problem(又称k-armed bandit problem)并非完全的reinforcement learning,而只是其简化版本。 所以该书将bandit问题作为引子,引出reinforcement learning的问题。reinforcement learning中的一些概念都是其中的一些概念扩展而来的。

时间: 2024-10-11 00:43:34

Multi-armed Bandit Problem与增强学习的联系的相关文章

增强学习 | Q-Learning

"价值不是由一次成功决定的,而是在长期的进取中体现" 上文介绍了描述能力更强的多臂赌博机模型,即通过多台机器的方式对环境变量建模,选择动作策略时考虑时序累积奖赏的影响.虽然多臂赌博机模型中引入了价值的概念,但方法在建模过程中本质上是以策略为优化目标,因此又常被归为基于策略的增强学习方法. 此外,增强学习方法还有基于价值以及基于模型两类主要方法.本文介绍第二类,先从描述价值目标的Q函数开始,它也常称之为Q-Learning方法. 最简单的Q函数可用"状态-动作"二维表

增强学习 | 多臂赌博机模型进阶

“模型是一个框架,用来描述分析者感兴趣的研究对象” 上文[增强学习 | 多臂赌博机模型]介绍了基本的多臂赌博机模型,即单步动作会根据反馈直接作出决策,因此多臂赌博机的目标是学习策略函数,以产生最优的执行动作.介绍了两种学习最优策略的方法,一是使用平均累积函数,二是使用神经网络拟合.相比下,神经网络具有更强的表达能力,效果也更好. 但基本的多臂赌博机模型有两个限制,一是行动与环境状态无关:二是不能处理延时累积回报,这些因素限制了基本多臂赌博机模型的描述和解决现实更复杂问题的能力. 对于行动与环境状

增强学习与马尔科夫决策过程

现有的机器学习算法根据模型的学习过程大致可以分为四类:监督式学习,无监督式学习,半监督式学习和增强学习. ① 监督式学习:从标记好的训练数据中进行模型的训练,常用来做分类和回归,例如逻辑回归.反向神经网络: ② 无监督式学习:根据数据的特征直接对数据的结构和数值进行归纳,常用来做聚类,例如周知的K-均值,谱聚类: ③ 半监督式学习:根据部分标记的和部分没有标记的训练数据进行模型的学习,常用来做回归和分类: ④ 增强式学习:作为今天要讨论的主角,是机器学习中最酷的分支之一,其通过不断的试错.反馈进

增强学习的基本概念(2)

对于增强学习的控制问题,有两个著名的基础算法:Sarsa.Q-Learning (1) Sarsa 算法流程:  对于所有状态 s 以及动作 a 进行任意初始化,将所有终止状态的 Value-Action 值设为0 迭代每一训练集episode: 初始化状态 S 根据策略Q,按照当前的状态 S,选择动作 A(如:小概率-贪婪算法) 迭代训练集的每一步: 采取动作A, 观察奖励值 R 和下一步状态 S' 根据策略Q,按照下一状态 S',选择动作 A'(如:小概率-贪婪算法) Q(S,A) := Q

增强学习 | 多臂赌博机模型

探索的终点是真理 上文介绍了了增强学习的基本框架,一个完整的增强学习框架包括状态.动作.回报.环境等基本概念,其对应的任务问题有三个主要特点: 不同的动作会有不同的回报: 回报是随时间延迟累积的: 行动回报与环境状态是相关的. 对于一些简单的增强学习任务,往往并不需要满足特点2和特点3,将这类问题称为多臂赌博机模型.它来源于赌场的多臂赌博机,即按下不同的臂会有不同额度的奖励.假设有一个Agent能够不断进行尝试找到奖励最大的臂,即建立学习函数,直接将观察状态映射为行动. 学习的最优函数将直接对应

(转) 深度增强学习与通用人工智能

深度增强学习前沿算法思想 CSDN 作者: Flood Sung 2017-02-16 09:34:29 举报 阅读数:3361 作者: Flood Sung,CSDN博主,人工智能方向研究生,专注于深度学习,增强学习与机器人的研究. 责编:何永灿,欢迎人工智能领域技术投稿.约稿.给文章纠错,请发送邮件至[email protected]本文为<程序员>原创文章,未经允许不得转载,更多精彩文章请订阅2017年<程序员>? 2016年AlphaGo计算机围棋系统战胜顶尖职业棋手李世石

Deep Reinforcement Learning 深度增强学习资源

1 学习资料 增强学习课程 David Silver (有视频和ppt): http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html 最好的增强学习教材: Reinforcement Learning: An Introduction https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html 深度学习课程 (有视频有ppt有作业) https://www.cs.ox.ac.uk/p

增强学习(一) ----- 基本概念

机器学习算法大致可以分为三种: 1. 监督学习(如回归,分类) 2. 非监督学习(如聚类,降维) 3. 增强学习 什么是增强学习呢? 增强学习(reinforcementlearning, RL)又叫做强化学习,是近年来机器学习和智能控制领域的主要方法之一. 定义: Reinforcement learning is learning what to do ----how to map situations to actions ---- so as to maximize a numerica

增强学习----介绍

PS:本文为阅读周志华<机器学习>笔记 介绍-------任务与奖赏 我们如果要种西瓜,那要经过很多步骤后,才有可能种出一田好瓜,当然也有可能种出的瓜很差,或者直接给种死了.那么将种瓜的过程抽象出来,总结出一系列好的操作,归为种瓜策略,那么,这个过程,就是"增强学习". 这是一个简单的图示,其中: 机器处于环境中,状态空间为X,比如此例,状态空间可以是健康,缺水,凋亡等等,小x为状态空间X中单个状态. 机器所能采取的动作为a,比如:浇水,不浇水:所有动作构成动作集合A. 某