增强学习————K-摇臂赌博机

探索与利用
增强学习任务的最终奖赏是在多步动作之后才能观察到,于是我们先考虑最简单的情形:最大化单步奖赏,即仅考虑一步操作。不过,就算这样,强化学习仍与监督学习有显著不同,因为机器要通过尝试来发现各个动作产生的结果,而没有训练数据告诉机器应当做什么动作。简而言之:缺少标记;

想最大化单步奖赏要考虑两个方面:一是需要知道每个动作带来的奖赏,而是要执行奖赏最大的动作。

实际上,单步强化学习任务对应了一个理论模型,即“K-摇臂赌博机”。什么是摇臂赌博机,就是,如图所示,赌徒投入一个硬币后,选择一个摇杆,每个摇杆有一定的概率吐出硬币,这个概率赌徒并不知道。赌徒的目标就是通过找到一个策略来使自己在等量成本下,收益最大。

那么,假设赌徒有100个硬币做成本,那他可以有两个选择,一是“仅探索”,就是说,把100个硬币均匀的投入到5个摇臂中,来探索每个摇臂吐出硬币的累计金额,从而得出哪个摇杆最优;一个是“仅利用”,就是说,把100个硬币投入到目前平均奖赏最优的那个摇杆中(多个最优则随机选一个)。显然,这两种都有缺陷,想获得最优的平均奖赏,就是要找到二者的平衡。
于是引入两种算法,贪心法和Softmax算法。

时间: 2024-10-11 17:56:25

增强学习————K-摇臂赌博机的相关文章

增强学习 | 多臂赌博机模型进阶

“模型是一个框架,用来描述分析者感兴趣的研究对象” 上文[增强学习 | 多臂赌博机模型]介绍了基本的多臂赌博机模型,即单步动作会根据反馈直接作出决策,因此多臂赌博机的目标是学习策略函数,以产生最优的执行动作.介绍了两种学习最优策略的方法,一是使用平均累积函数,二是使用神经网络拟合.相比下,神经网络具有更强的表达能力,效果也更好. 但基本的多臂赌博机模型有两个限制,一是行动与环境状态无关:二是不能处理延时累积回报,这些因素限制了基本多臂赌博机模型的描述和解决现实更复杂问题的能力. 对于行动与环境状

增强学习 | 多臂赌博机模型

探索的终点是真理 上文介绍了了增强学习的基本框架,一个完整的增强学习框架包括状态.动作.回报.环境等基本概念,其对应的任务问题有三个主要特点: 不同的动作会有不同的回报: 回报是随时间延迟累积的: 行动回报与环境状态是相关的. 对于一些简单的增强学习任务,往往并不需要满足特点2和特点3,将这类问题称为多臂赌博机模型.它来源于赌场的多臂赌博机,即按下不同的臂会有不同额度的奖励.假设有一个Agent能够不断进行尝试找到奖励最大的臂,即建立学习函数,直接将观察状态映射为行动. 学习的最优函数将直接对应

增强学习 | Q-Learning

"价值不是由一次成功决定的,而是在长期的进取中体现" 上文介绍了描述能力更强的多臂赌博机模型,即通过多台机器的方式对环境变量建模,选择动作策略时考虑时序累积奖赏的影响.虽然多臂赌博机模型中引入了价值的概念,但方法在建模过程中本质上是以策略为优化目标,因此又常被归为基于策略的增强学习方法. 此外,增强学习方法还有基于价值以及基于模型两类主要方法.本文介绍第二类,先从描述价值目标的Q函数开始,它也常称之为Q-Learning方法. 最简单的Q函数可用"状态-动作"二维表

神经网络+增强学习

该文章转至: https://www.cnblogs.com/xlturing/p/5844555.html 马里奥AI实现方式探索 --神经网络+增强学习 儿时我们都曾有过一个经典游戏的体验,就是马里奥(顶蘑菇^v^),这次里约奥运会闭幕式,日本作为2020年东京奥运会的东道主,安倍最后也已经典的马里奥形象出现.平时我们都是人来玩马里奥游戏,能否可以让马里奥智能的自己闯关个呢?OK,利用人工智能的相关算法来进行自动化通关一直是一个热门的话题,最近最火的相关东东就是传说中的alphaGo啦.而在

增强学习与马尔科夫决策过程

现有的机器学习算法根据模型的学习过程大致可以分为四类:监督式学习,无监督式学习,半监督式学习和增强学习. ① 监督式学习:从标记好的训练数据中进行模型的训练,常用来做分类和回归,例如逻辑回归.反向神经网络: ② 无监督式学习:根据数据的特征直接对数据的结构和数值进行归纳,常用来做聚类,例如周知的K-均值,谱聚类: ③ 半监督式学习:根据部分标记的和部分没有标记的训练数据进行模型的学习,常用来做回归和分类: ④ 增强式学习:作为今天要讨论的主角,是机器学习中最酷的分支之一,其通过不断的试错.反馈进

增强学习的基本概念(2)

对于增强学习的控制问题,有两个著名的基础算法:Sarsa.Q-Learning (1) Sarsa 算法流程:  对于所有状态 s 以及动作 a 进行任意初始化,将所有终止状态的 Value-Action 值设为0 迭代每一训练集episode: 初始化状态 S 根据策略Q,按照当前的状态 S,选择动作 A(如:小概率-贪婪算法) 迭代训练集的每一步: 采取动作A, 观察奖励值 R 和下一步状态 S' 根据策略Q,按照下一状态 S',选择动作 A'(如:小概率-贪婪算法) Q(S,A) := Q

(转) 深度增强学习与通用人工智能

深度增强学习前沿算法思想 CSDN 作者: Flood Sung 2017-02-16 09:34:29 举报 阅读数:3361 作者: Flood Sung,CSDN博主,人工智能方向研究生,专注于深度学习,增强学习与机器人的研究. 责编:何永灿,欢迎人工智能领域技术投稿.约稿.给文章纠错,请发送邮件至[email protected]本文为<程序员>原创文章,未经允许不得转载,更多精彩文章请订阅2017年<程序员>? 2016年AlphaGo计算机围棋系统战胜顶尖职业棋手李世石

Deep Reinforcement Learning 深度增强学习资源

1 学习资料 增强学习课程 David Silver (有视频和ppt): http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html 最好的增强学习教材: Reinforcement Learning: An Introduction https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html 深度学习课程 (有视频有ppt有作业) https://www.cs.ox.ac.uk/p

增强学习(一) ----- 基本概念

机器学习算法大致可以分为三种: 1. 监督学习(如回归,分类) 2. 非监督学习(如聚类,降维) 3. 增强学习 什么是增强学习呢? 增强学习(reinforcementlearning, RL)又叫做强化学习,是近年来机器学习和智能控制领域的主要方法之一. 定义: Reinforcement learning is learning what to do ----how to map situations to actions ---- so as to maximize a numerica