机器学习笔记—增强学习

本文介绍增强学习和自适应控制。

在监督学习中,算法是要输出尽量模仿训练集中的标签 y,标签给每个输入 x 一个清楚的正确答案。与此不同,对于许多序列决策和控制问题,就很难对算法给出这种明确的监督。例如,如果要造一个四足机器人,并编程让它行走,起初我们并不知道让它行走的正确行动,所以也不知道怎么模仿学习算法给出明确的监督。

在增强学习框架中,我给算法一个回报函数,告诉学习代理执行得好坏。在四足行走的机器人例子中,当机器人往前走时,回报函数就给予正反馈,退后或者摔倒就给予负反馈。学习算法的工作就是弄清楚怎么随着时间选择动作,以使总回报最大。

增强学习的应用非常广泛,如无人机、运动机器人、蜂窝电话网络路由、市场策略选择、工业控制和高效的页面排序。我们对增强学习的研究将从 MDP 马尔科夫决策过程开始,形式化增强学习遇到的问题。

1、马尔可夫决策过程

一个马尔可夫决策过程是元组 (S,A,{Psa},γ,R),其中:

  • S 是状态集合。(例如,在无人机飞行中,S 可以是直升机所有可能的位置和方向)
  • A 是动作集合。(例如,直升机操纵杆能够转动的所有方向)
  • Psa 是状态转换概率。对每一个状态 s∈S 和动作 a∈A,Psa 是在状态空间上的分布。简单地说,Psa 给定的是,当在状态 s 采取行动 a,我们会变成哪种状态的分布概率。
  • γ 是折扣因子。
  • R:S×A—>R 是回报函数。(回报有时写成只有状态 S 的函数,R:S—>R)

MDP 执行的动态过程如下:从状态 s0 开始,在 MDP 中选择一些动作 a0∈A 来执行,作为选择的结果,根据 s1~Ps0a0, MDP 的状态随机切换到后继状态 s1,然后再选择另外一个动作 a1,作为动作的结果,根据 s2~Ps1a1,状态再次切换,然后选择 a2,等等。周期性的,这个过程可表示如下:

访问状态序列 s0,s1,...,并执行动作 a0,a1,...,总回报为:

或者,如果回报仅仅是状态的函数,那么总回报可写作:

对大部分应用来说,我们会使用更简单的状态回报 R(s),虽然状态动作回报 R(s,a) 的泛化也没有特别的困难。

增强学习的目标是随着时间选择动作以最大化总回报的期望值:

时间点 t 的回报通过乘以因子 γt 打了折扣,所以为使期望最大,我们希望正回报来得越早越好,负回报尽量往后面去。在经济应用中,R(·) 是挣钱的总金额,γ 自然可以解释为利率(今天的一英镑比明天的一英镑值钱)。

一个策略是一些从状态到动作的映射函数 π:S—>A。无论何时,我们在状态 s 执行了动作 a=π(s),就说在执行策略 π。定义 π 的值函数为:

V(s) 是从状态 s 开始,根据策略 π 采取行动,最终的折扣回报期望和。

给定固定策略 π,它的值函数 Vπ 满足 Bellman 方程:

也就是说,从 s 开始的折扣回报 Vπ(s) 的期望和由两部分组成:第一,从状态 s 开始的立即回报 R(s),第二,未来折扣回报的期望和。仔细检查第二项,和式可写为:

这是从状态 s‘ 开始的折扣回报的期望和,s‘ 符合分布 Psπ(s),也就是从状态 s 执行第一个动作 π(s) 后的状态分布,所以,第二项给的是在 MDP 中第一步后的折扣回报的期望和。

Bellman 方程能用于高效解出 Vπ,特别是在一个有限状态 MDP(|S|<∞),可以为每个状态写下这个方程 Vπ(s),这给定了一个有 |S| 个变量(每个状态都有个未知的 Vπ(S))的 |S| 个线性方程的集合,可以有效解出 Vπ(s)。

定义最优值函数:

也就是能使用策略得到的最好的折扣回报期望和。还有另一个版本的 Bellman 方程。

第一项跟之前一样是立即回报,第二项是执行动作 a 后的折扣回报未来期望和的最大值。

定义策略 π*:S—>A 如下:

π*(s) 给出了能使总回报最大的行动 a。

事实上,对每一个状态和每一个策略有:

第一个等式是说 Vπ*,π* 的值函数,等于对每个状态 s 来说的最优值函数 V*。第二个不等式是说,π* 的值至少跟其它策略一样大。换句话说,π* 就是最优策略。

注意到 π* 有一个有趣的属性,对所有的状态它都是个最优策略。特别的,并不是说,如果从 s 开始就有针对那个状态的最优策略,如果从其它的 s‘ 开始就有针对 s‘ 的其它最优策略。特别的,同样的策略 π* 对所有的状态都能获得最大值,这意味着我们可以使用同样的策略 π*,而不管 MDP 的初始状态是什么。

2、值迭代和策略迭代

参考资料:

[1] http://cs229.stanford.edu/notes/cs229-notes12.pdf

时间: 2024-10-11 12:18:57

机器学习笔记—增强学习的相关文章

视觉机器学习笔记------CNN学习

卷积神经网络是第一个被成功训练的多层神经网络结构,具有较强的容错.自学习及并行处理能力. 一.基本原理 1.CNN算法思想 卷积神经网络可以看作为前馈网络的特例,主要在网络结构上对前馈网络进行简化和改进,从理论上讲,反向传播算法可以用于训练卷积神经网络.卷积神经网络被广泛用于语音识别和图像分类等问题. 2.CNN网络结构 卷积神经网络是一种多层前馈网络,每层由多个二维平面组成.每个平面由多个神经元组成. 网络输入为二维视觉模式,作为网络中间层的卷积层(C)和抽样层(S)交替出现.网络输出层为前馈

机器学习笔记 贝叶斯学习(上)

机器学习笔记(一) 今天正式开始机器学习的学习了,为了激励自己学习,也为了分享心得,决定把自己的学习的经验发到网上来让大家一起分享. 贝叶斯学习 先说一个在著名的MLPP上看到的例子,来自于Josh Tenenbaum 的博士论文,名字叫做数字游戏. 用我自己的话叙述就是:为了决定谁洗碗,小明和老婆决定玩一个游戏.小明老婆首先确定一种数的性质C,比如说质数或者尾数为3:然后给出一系列此类数在1至100中的实例D= {x1,...,xN} :最后给出任意一个数x请小明来预测x是否在D中.如果小明猜

斯坦福机器学习公开课学习笔记(1)—机器学习的动机与应用

(转载请注明出处:http://blog.csdn.net/buptgshengod) 1.背景 斯坦福机器学习公开课差不多是网上能找到的最好的机器学习入门课程了.现在一共有20节课放到网络上,博主是在网易公开课学的,那里的视频有中文字幕然后课件也很全. (地址:http://v.163.com/special/opencourse/machinelearning.html) 主讲师Andrew Ng(已经被百度诏安了)是华裔科学家,看他的课特别有亲切感.感觉他们的课跟国内老师的课区别还是挺大的

《机器学习导论》学习笔记 第一章 绪论

必须先搞清楚机器学习中两个很重要的概念,一个是监督学习(Supervised Learning)和无监督学习(Unsupervised Learning). 这两者的区别就是前者知道了结果的正确值,后者没有这个指导值,也就是说你不知道所谓的正确结果. wikipedia上这样描述: 监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果.监督学习的训练集要求是包括输入和输出,也可以说是特征和目标.训练集中的目标是由人标注的. 无监督学习与监督学习相比,训练集没有人

七月算法--12月机器学习在线班-第十九次课笔记-深度学习--CNN

七月算法--12月机器学习在线班-第十九次课笔记-深度学习--CNN 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 1,卷积神经网络-CNN 基础知识 三个要点 1: 首先将输入数据看成三维的张量(Tensor) 2: 引入Convolution(卷积)操作,单元变成卷积核,部分连接共享权重 3:引入Pooling(采样)操作,降低输入张量的平面尺寸 ,1.1 张量(Tensor) 高,宽度,深度,eg:彩色图像:rgb,3个深度,图

七月算法12月机器学习在线班---第二十次课笔记---深度学习--RNN

七月算法12月机器学习在线班---第二十次课笔记---深度学习--RNN 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 循环神经网络 复习之前的知识点: 全连接前向网络: 学习出来的是函数 卷积网络:卷积操作,部分链接,共享操作,逐层提取原始图像的特征(语音,NLP) 学习出来的特征 局部相关性 浅层宽网络很难做成神经网络 ? 1.1状态和模型 1, ID数据 ·分类问题 ·回归问题 ·特征表达 2, 大部分数据都不满足ID ·大部分

增强学习----介绍

PS:本文为阅读周志华<机器学习>笔记 介绍-------任务与奖赏 我们如果要种西瓜,那要经过很多步骤后,才有可能种出一田好瓜,当然也有可能种出的瓜很差,或者直接给种死了.那么将种瓜的过程抽象出来,总结出一系列好的操作,归为种瓜策略,那么,这个过程,就是"增强学习". 这是一个简单的图示,其中: 机器处于环境中,状态空间为X,比如此例,状态空间可以是健康,缺水,凋亡等等,小x为状态空间X中单个状态. 机器所能采取的动作为a,比如:浇水,不浇水:所有动作构成动作集合A. 某

关于机器学习和深度学习的资料

声明:转来的,原文出处:http://blog.csdn.net/achaoluo007/article/details/43564321 编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等.而且原文也会不定期的更新,望看到文章的朋友能够学到更多. <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost 到随机森林.Deep Learning. &

机器学习和深度学习学习资料

比较全面的收集了机器学习的介绍文章,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <机器学习经典论文/survey合集>介绍:看题目你已经知道了是什么内容,没错.里面有很多经典的机器学习论文值得仔细与反复的阅读. <Brief History of Machine Learning>25介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <