MDP(MarkovDecisionProcess,马尔卡夫决策树)实现总结

MDP算法简介:首先MDP算法由五个单元组成(S、A、Psa(s)、R、G)

S:代表状态集合,即整个事件有多少中可能的状态

A:代表每个状态下的所有可能的行为

Psa(s):代表在状态s下采取行为a转移到s的状态转移概率

R:代表的是回报函数(reward function),指到达某个状态获得的利弊

G:是一个大于0小于1的常数系数,越接近1表示该策略行为越看重未来的获利,越接近于0表示该策略越看重当前行为的获利

以上五个单元的关系简单来说就是:在状态集S中根据Psa(s)和R寻找一个行为集合(策略),使该行为的获利最大,用G控制未来获利与当前获利之前的比重关系

为了实现上述寻找最大获利策略的目的,有值函数替代法(value iteration)和策略替代方法(policy iteration)

值函数替代法:

  首先是值函数的定义:

    

  值函数替代法的实现算法:

    

  实现过策程的注意点:

    如下图所示值函数

      

    状态1为目标状态,状态3为避免状态,状态3为不存在状态

    首先1状态和2状态的值在整个替代过程中不能改变,否则值函数不会收敛

    其次3状态,不能使用非常低或者高的值函数参与运算,因为一旦参与运算会直接拉低其相邻状态的值函数

策略替代法:未完待续

时间: 2024-10-12 21:18:04

MDP(MarkovDecisionProcess,马尔卡夫决策树)实现总结的相关文章

MDP:马尔科夫决策过程(一)

MDP:马尔科夫决策过程(Markov Decision Process) 定义: 一个马尔可夫模型包括如下部分 状态集 S     (States) 动作集 A     (Actions) 奖惩函数 R  (reward function) 在状态 s 下,执行 a 动作的影响函数 T 我们假设执行动作 a 的效果只与当前状态有关,与之前历史状态无关. 动作表示:分为 确定性动作(Determinstic Actions) 和 随机性动作(Stochastic Actions) 确定性动作:T

MDP:马尔科夫决策过程(二)

MDP:马尔科夫决策过程(Markov Decision Process) 策略评价: 对于确定性动作(deterministic actions),由于状态转换可能是无限的,那么奖惩函数之和的值也可能是无限的:对于随机性动作(stochastic actions),同样,奖惩函数期望之和也有可能是无限的. 需要定义一个客观函数(objective function)来将无穷的奖惩序列转换成单一的实数,来表示效用. 大概有三种方式: 设立一个确定的界限,只计算这几步范围内的奖惩函数之和 对每一步

MDP:马尔科夫决策过程(三)

MDP:马尔科夫决策过程(Markov Decision Process) 贝尔曼等式: 上节说到,这是对于确定性动作的模型.如果随机性动作的模型,应该表示为 即,执行动作后的状态有多个,按照概率乘以值函数得到上式. 因此,当前状态最优执行动作就是 对于每个状态都有一个Vπ(S) ,所以对于每一步来说,可以得到如下递推的形式:

数学之美札记:隐含马尔可夫模型

隐含马尔可夫模型是一个数学模型,它被认为是解决大多数自然语言处理问题最为快速.有效的方法.它成功的解决了复杂的语音识别.机器翻译等问题. 人类信息交流的发展贯穿了人类的进化和文明的全过程.而自然语言是人类交流信息的工具,语言和通信的联系是天然的.通信的本质就是一个编解码和传输的过程.当自然语言处理的问题回归到通信系统中的解码问题时,很多问题都迎刃而解了. 所谓语音识别,就是听话的人去猜测说话者要表达的意思.这就像通信中,根据接收端收到的信号去分析.理解.还原发送端传送过来的信息.我们平时在说话时

增强学习与马尔科夫决策过程

现有的机器学习算法根据模型的学习过程大致可以分为四类:监督式学习,无监督式学习,半监督式学习和增强学习. ① 监督式学习:从标记好的训练数据中进行模型的训练,常用来做分类和回归,例如逻辑回归.反向神经网络: ② 无监督式学习:根据数据的特征直接对数据的结构和数值进行归纳,常用来做聚类,例如周知的K-均值,谱聚类: ③ 半监督式学习:根据部分标记的和部分没有标记的训练数据进行模型的学习,常用来做回归和分类: ④ 增强式学习:作为今天要讨论的主角,是机器学习中最酷的分支之一,其通过不断的试错.反馈进

理解隐马尔可夫模型(转载)

设 s1,s2,s3...表示信息源发出的信号.o1, o2, o3 ... 是接受器接收到的信号.通信中的解码就是根据接收到的信号 o1, o2, o3 ...还原出发送的信号 s1,s2,s3....    那么怎么根据接收到的信息来推测说话者想表达的意思呢?我们可以利用叫做“隐含马尔可夫模型”(Hidden Markov Model)来解决这些问题.以语音识别为例,当我们观测到语音信号 o1,o2,o3 时,我们要根据       这组信号推测出发送的句子 s1,s2,s3.显然,我们应该

隐含马尔可夫模型在语言处理中的应用

终于下定决心要了解一下马尔科夫链了.当然经典的那个tutorial必是参考文献,另外找了一个浙大教授写的PPT,很不错,用中文讲tutorial的东西理出来了.下面这篇文章写的也不错. http://googlechinablog.com/2006/04/blog-post_17.html转自上述地址的一篇文章数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用2006年4月17日 上午 08:01:00 发表者:吴军,Google 研究员 前言:隐含马尔可夫模型是一个数学模型,到目前为之

一文搞懂HMM(隐马尔可夫模型)

本文转自于:http://www.cnblogs.com/skyme/p/4651331.html 隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程.其难点是从可观察的参数中确定该过程的隐含参数.然后利用这些参数来作进一步的分析,例如模式识别. 是在被建模的系统被认为是一个马尔可夫过程与未观测到的(隐藏的)的状态的统计马尔可夫模型. 下面用一个简单的例子来阐述: 假设我手里有三个不同的骰子.第一个骰子是我们平常见的骰子(称这

隐马尔可夫模型(HMM)总结

摘要: 1.算法概述 2.算法推导 3.算法特性及优缺点 4.注意事项(算法过程,调参等注意事项) 5.实现和具体例子 6.适用场合 内容: 1.算法概述 隐马尔科夫模型(Hidden Markov Model)是关于时序的概率模型,描述由一个隐含的马尔科夫链生成不可观测的状态序列,再由状态序列生成观测序列的过程.这种通过观测序列预测隐含的标记序列的问题叫做标注. 下图来自维基百科: 并且本文有如下符号表示: 其中就是我们需要求得的一个三元组:拿中文分词的例子来说,分词中的状态序列是{ Begi