MDP:马尔科夫决策过程(二)

MDP:马尔科夫决策过程(Markov Decision Process)

策略评价:

对于确定性动作(deterministic actions),由于状态转换可能是无限的,那么奖惩函数之和的值也可能是无限的;对于随机性动作(stochastic actions),同样,奖惩函数期望之和也有可能是无限的。

需要定义一个客观函数(objective function)来将无穷的奖惩序列转换成单一的实数,来表示效用。

大概有三种方式:

  1. 设立一个确定的界限,只计算这几步范围内的奖惩函数之和
  2. 对每一步的奖惩添加折扣,并且偏向于较为靠前的状态的所收到的奖惩(reword)
  3. 平均奖惩率(Average reward rate in the limit)

其中,第二种,折扣法是比较常用的,主要介绍这一种。折扣法:

第 n 步的奖惩(reword)被乘以γn的折扣,这里的γ大于等于0,小于1。也就意味着该方法更偏向于较近的步数收到的奖惩

然后对这 n 步的带折扣奖惩进行累加

为了衡量一个策略的好坏,我们使用值函数 Vπ (Value Function),定义如下:

在每一个状态按照策略 π 执行所获得的客观函数的值(Objective function)

R(s,π(s))表示当前状态 s 下,按照策略 π 执行动作 π(s) 所获得奖惩

上面的式子也可写做递归的形式:

这样就可按照值函数对每个策略进行排列,就会存在至少一个最优策略,V*

(下一篇将接着介绍贝尔曼等式(Bellman equations))

时间: 2024-10-10 22:30:26

MDP:马尔科夫决策过程(二)的相关文章

MDP:马尔科夫决策过程(一)

MDP:马尔科夫决策过程(Markov Decision Process) 定义: 一个马尔可夫模型包括如下部分 状态集 S     (States) 动作集 A     (Actions) 奖惩函数 R  (reward function) 在状态 s 下,执行 a 动作的影响函数 T 我们假设执行动作 a 的效果只与当前状态有关,与之前历史状态无关. 动作表示:分为 确定性动作(Determinstic Actions) 和 随机性动作(Stochastic Actions) 确定性动作:T

MDP:马尔科夫决策过程(三)

MDP:马尔科夫决策过程(Markov Decision Process) 贝尔曼等式: 上节说到,这是对于确定性动作的模型.如果随机性动作的模型,应该表示为 即,执行动作后的状态有多个,按照概率乘以值函数得到上式. 因此,当前状态最优执行动作就是 对于每个状态都有一个Vπ(S) ,所以对于每一步来说,可以得到如下递推的形式:

增强学习与马尔科夫决策过程

现有的机器学习算法根据模型的学习过程大致可以分为四类:监督式学习,无监督式学习,半监督式学习和增强学习. ① 监督式学习:从标记好的训练数据中进行模型的训练,常用来做分类和回归,例如逻辑回归.反向神经网络: ② 无监督式学习:根据数据的特征直接对数据的结构和数值进行归纳,常用来做聚类,例如周知的K-均值,谱聚类: ③ 半监督式学习:根据部分标记的和部分没有标记的训练数据进行模型的学习,常用来做回归和分类: ④ 增强式学习:作为今天要讨论的主角,是机器学习中最酷的分支之一,其通过不断的试错.反馈进

马尔科夫决策过程

马尔科夫特性: 下一时刻的状态只与现在的时刻的状态相关,与之前的时刻无关,即状态信息包含了历史的所有相关信息. 马尔科夫奖励过程,$<S, P, R, \gamma>$: $S$是有限状态集 $P$是状态转移概率矩阵,${p_{ss'}} = {\rm P}[{S_{t + 1}} = s'|{S_t} = s]$ $R$是奖励函数,${R_s} = {\rm E}[{R_{t + 1}}|{S_t} = s]$ $\gamma$是折扣因子 为什么要折扣因子呢 1. 数学上方便定义描述 2.

隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率

隐马尔科夫模型HMM(一)HMM模型 隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率 隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数(TODO) 隐马尔科夫模型HMM(四)维特比算法解码隐藏状态序列(TODO) 在隐马尔科夫模型HMM(一)HMM模型中,我们讲到了HMM模型的基础知识和HMM的三个基本问题,本篇我们就关注于HMM第一个基本问题的解决方法,即已知模型和观测序列,求观测序列出现的概率. 1. 回顾HMM问题一:求观测序列的概率 首先我们回顾下HMM模型的问题一.这个

MCMC(二)马尔科夫链

MCMC(一)蒙特卡罗方法 MCMC(二)马尔科夫链 MCMC(三)M-H采样和Gibbs采样(待填坑) 在MCMC(一)蒙特卡罗方法中,我们讲到了如何用蒙特卡罗方法来随机模拟求解一些复杂的连续积分或者离散求和的方法,但是这个方法需要得到对应的概率分布的样本集,而想得到这样的样本集很困难.因此我们需要本篇讲到的马尔科夫链来帮忙. 1. 马尔科夫链概述 马尔科夫链定义本身比较简单,它假设某一时刻状态转移的概率只依赖于它的前一个状态.举个形象的比喻,假如每天的天气是一个状态的话,那个今天是不是晴天只

马尔科夫链和隐马尔可夫模型(转载)

马尔可夫模型是由Andrei A. Markov于1913年提出的 ?? 设 SS是一个由有限个状态组成的集合 S={1,2,3,-,n?1,n}S={1,2,3,-,n?1,n} 随机序列 XX 在 tt时刻所处的状态为 qtqt,其中 qt∈Sqt∈S,若有: P(qt=j|qt?1=i,qt?2=k,?)=P(qt=j|qt?1=i)P(qt=j|qt?1=i,qt?2=k,?)=P(qt=j|qt?1=i) aij≥0∑jnaij=1aij≥0∑jnaij=1 则随机序列 XX构成一个一

隐马尔科夫模型—2

二 定义 (1) 基本定义 在上一篇中,我们通过一个给母亲打电话预测天气的例子,来引入隐马尔科夫模型.下面我们将结合一中的例子来形式化的定义隐马尔可夫模型.隐马尔科夫模型是关于时序的概率模型,描述的由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程.在我们这个例子中,就是由一个隐藏的马尔科夫链生成每天的天气(状态),再由每天的天气决定每天母亲下班以后做什么(观测)的随机过程.隐藏的马尔科夫链随机生成的状态的序列,称为状态序列,也就是最近一段时间

HMM基本原理及其实现(隐马尔科夫模型)

HMM(隐马尔科夫模型)基本原理及其实现 HMM基本原理 Markov链:如果一个过程的“将来”仅依赖“现在”而不依赖“过去”,则此过程具有马尔可夫性,或称此过程为马尔可夫过程.马尔可夫链是时间和状态参数都离散的马尔可夫过程.HMM是在Markov链的基础上发展起来的,由于实际问题比Markov链模型所描述的更为复杂,观察到的时间并不是与状态一一对应的,而是通过一组概率分布相联系,这样的模型称为HMM.HMM是双重随机过程:其中之一是Markov链,这是基本随机过程,它描述状态的转移,是隐含的.