【cs229-Lecture17】离散与维数灾难

主要内容:

  • 解决MDP问题的算法:
  1. 离散化;
  2. 模型MDP的同化型; (model/similator)
  3. 拟合值迭代算法;
  4. Q函数;
  5. 近似政策迭代;


笔记转自:http://blog.csdn.net/dark_scope/article/details/8252969

连续状态的MDP

之前我们的状态都是离散的,如果状态是连续的,下面将用一个例子来予以说明,这个例子就是inverted pendulum问题

也就是一个铁轨小车上有一个长杆,要用计算机来让它保持平衡(其实就是我们平时玩杆子,放在手上让它一直保持竖直状态)

这个问题需要的状态有:都是real的值

x(在铁轨上的位置)

theta(杆的角度)

x’(铁轨上的速度)

thata‘(角速度)

离散化

也就是把连续的值分成多个区间,这是很自然的一个想法,比如一个二维的连续区间可以分成如下的离散值:

但是这样做的效果并不好,因为用一个离散的去表示连续空间毕竟是有限的离散值。

离散值不好的另一个原因是因为curse of dimension(维度诅咒),因为连续值离散值后会有多个离散值,这样如果维度很大就会造成有非常多状态

从而使需要更多计算,这是随着dimension以指数增长的

simulator方法

也就是说假设我们有一个simulator,输入一个状态s和一个操作a可以输出下一个状态,并且下一个状态是服从MDP中的概率Psa的分布,即:

这样我们就把状态变成连续的了,但是如何得到这样一个simulator呢?

①:根据客观事实

比如说上面的inverted pendulum问题,action就是作用在小车上的水平力,根据物理上的知识,完全可以解出这个加速度对状态的影响

也就是算出该力对于小车的水平加速度和杆的角加速度,再去一个比较小的时间间隔,就可以得到S(t+1)了

②:学习一个simulator

这个部分,首先你可以自己尝试控制小车,得到一系列的数据,假设力是线性的或者非线性的,将S(t+1)看作关于S(t)和a(t)的一个函数

得到这些数据之后,你可以通过一个supervised learning来得到这个函数,其实就是得到了simulator了。

比如我们假设这是一个线性的函数:

在inverted pendulum问题中,A就是一个4*4的矩阵,B就是一个4维向量,再加上一点噪音,就变成了:其中噪音服从

我们的任务就是要学习到A和B

(这里只是假设线性的,更具体的,如果我们假设是非线性的,比如说加一个feature是速度和角速度的乘积,或者平方,或者其他,上式还可以写作:)

这样就是非线性的了,我们的任务就是得到A和B,用一个supervised learning分别拟合每个参数就可以了


连续状态中得Value(Q)函数

这里介绍了一个fitted value(Q) iteration的算法

在之前我们的value iteration算法中,我们有:

这里使用了期望的定义而转化。fitted value(Q) iteration算法的主要思想就是用一个参数去逼近右边的这个式子

也就是说:令

其中是一些基于s的参数,我们需要去得到系数的值,先给出算法步骤再一步步解释吧:

算法步骤其实很简单,最主要的其实就是他的思想:

在对于action的那个循环里,我们尝试得到这个action所对应的,记作q(a)

这里的q(a)都是对应第i个样例的情况

然后i=1……m的那个循环是得到是最优的action对应的Value值,记作y(i),然后用y(i)拿去做supervised learning,大概就是这样一个思路

至于reward函数就比较简单了,比如说在inverted pendulum问题中,杆子比较直立就是给高reward,这个可以很直观地从状态得到衡量奖励的方法

在有了之上的东西之后,我们就可以去算我们的policy了:


确定性的模型

上面讲的连续状态的算法其实是针对一个非确定性的模型,即一个动作可能到达多个状态,有P在影响到达哪个状态

如果在一个确定性模型中,其实是一个简化的问题,得到的样例简化了,计算也简化了

也就是说一个对于一个状态和一个动作,只能到达另一个状态,而不是多个。

时间: 2024-08-06 20:01:05

【cs229-Lecture17】离散与维数灾难的相关文章

分类问题中的“维数灾难”

在看机器学习的论文时,经常会看到有作者提到“curse of dimensionality”,中文译为“维数灾难”,这到底是一个什么样的“灾难”?本文将通过一个例子来介绍这令人讨厌的“curse of dimensionality”以及它在分类问题中的重要性. 假设现在有一组照片,每一张照片里有一只猫或者一条狗.我们希望设计一个分类器可以自动地将照片中的动物辨别开来.为了实现这个目标,首先需要考虑如何将照片中的动物的特征用数字的形式表达出来.猫与狗的最大区别是什么?有人可能首先想到猫与狗的颜色不

维数灾难

Content 1 引言 2 维数灾难与过拟和 3 怎样避免维数灾难 4 总结 1 引言 本文章讨论的话题是“curse of dimension”,即维数灾难,并解释在分类它的重要性,在下面的章节我会对这个概念做一个直观的解释,并清晰的描述一个由维数灾难引起的过度拟合的问题. 下面不如正题,考虑我们有一堆猫和狗的图片,现在要做一个分类器,它可以把猫和狗自动并且正确分类.所以对这个两个类别,首先需要一组描述符,使这两个类别可以被表示为数字,分类器可以使用数字来决定类别(如Logistic Reg

维数灾难与PCA主成分分析

背景 维数灾难是机器学习中常见的现象,具体是指随着特征维数的不断增加,需要处理的数据相对于特征形成的空间而言比较稀疏,由有限训练数据拟合的模型可以很好的适用于训练数据,但是对于未知的测试数据,很大几率距离模型空间较远,训练的模型不能处理这些未知数据点,从而形成“过拟合”的现象. 方案 既然维数灾难严重影响模型的泛化,那么如何解决呢?容易想到的解决办法是增加数据量,但是如果特征维数比较多,需要很大的数据量才能将整个特征空间“填满”,代价太大:还有一种比较容易实现而且效果还不错的解决办法就是特征的降

维数诅咒

介绍 在这篇文章中,我们将讨论所谓的"维数的诅咒",并解释为什么在设计分类器时它是很重要的.以下各节我会提供这个概念直观的解释,并用一个由于维数灾难导致的过拟合例子图解说明. 考虑这样一个例子,我们有一组图像,其中每个表示猫或狗.我们想创建一个分类器,它能够自动识别狗和猫.要做到这一点,我们首先需要考虑每个对象类的描述,该描述可以用数字来表示.这样的数学算法,即分类器,可以用这些数字来识别对象.例如,我们可以认为猫和狗有不同的颜色.区分这两个类的一种可能描述可以由三个数字组成:平均红色

Objective-C 下用 NSArray 和 NSMutableArray 定义二维数组跟多维数

Objective-C 下用 NSArray 和 NSMutableArray 定义二维数组跟多维数组 目录 问题描述 Objective-C 中的数组对像 NSArray 和 NSMutableArray 简介 二维数组:嵌套两次的 NSMutableArray 多维数组:嵌套多次的 NSMutableArray 问题描述 说实话,不太习惯面向对象编程,所以在操作 Objective-C 中数组对象时,总是忍不住跟 C 中的数组做比较,正好要建立一个二维数组,需要根据二维数组的下标来做相应的设

Tensorflow描述张量的维度:阶,形状以及维数

张量 TensorFlow用张量这种数据结构来表示所有的数据.你可以把一个张量想象成一个n维的数组或列表.一个张量有一个静态类型和动态类型的维数.张量可以在图中的节点之间流通. 阶 在TensorFlow系统中,张量的维数来被描述为阶.但是张量的阶和矩阵的阶并不是同一个概念.张量的阶(有时是关于如顺序或度数或者是n维)是张量维数的一个数量描述. 比如,下面的张量(使用Python中list定义的)就是2阶. t = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]   你可以认

基、维数、子空间、维数下降

一.问题的提出 受到空间.平面.直线不同维数的影响,始终很难理解基(一组线性无关向量)的长短和维数的区别.基的长短=维数? 要知道空间的表示,基是三个自由度:平面则是两个自由度.在投影是维数下降... 看起来非常混沌!! 二.问题的分析 先分析几个结论: (1)子空间的维数≤原空间的维数 因为子空间的集合是原空间集合的子集,毫无疑问,子空间所需要的线性无关向量个数≤原空间所需要的线性无关向量个数,因此,结论得以证明. (2)基的长短≠维数 举个反例,显然(a1,a2,0),满足加法和数乘运算封闭

HOG参数简介及Hog特征维数的计算(转)

HOG构造函数 CV_WRAP HOGDescriptor() :winSize(64,128), blockSize(16,16), blockStride(8,8),      cellSize(8,8),nbins(9), derivAperture(1), winSigma(-1), histogramNormType(HOGDescriptor::L2Hys),L2HysThreshold(0.2), gammaCorrection(true), nlevels(HOGDescript

【线性代数】线性相关性、基和维数

一.线性相关性 什么情况下,向量X1,X2,--,Xn是线性无关的? 答:当向量X1,X2,--,Xn的线性组合(线性组合时系数不能全为0)不为零向量时,它们是线性无关的.即方程 不存在非零解. 对于一个矩阵A来说,当A总各列向量是线性无关时,则Ax=0的解只有0向量,即矩阵A的零空间只有零向量. 如果各列向量是相关的,则矩阵A的零空间中还存在一些其他的向量. 当矩阵A各列是线性无关的,则矩阵A各列都有主元,自由变量的个数为0. 二.空间的基 我们知道,矩阵各列的线性组合生成矩阵的列向量.但是,