机器学习工程师 - Udacity 强化学习 Part Three

四、动态规划
1.在动态规划设置中,智能体完全了解表示环境特性的马尔可夫决策流程 (MDP)。(这比强化学习设置简单多了,在强化学习设置中,智能体一开始不知道环境如何决定状态和奖励,必须完全通过互动学习如何选择动作。)

2.迭代方法求状态值函数
迭代方法先对每个状态的值进行初始猜测。尤其是,我们先假设每个状态的值为 0。然后,循环访问状态空间并通过应用连续的更新方程修改状态值函数的估算结果。

3.动作值
思考下 qπ?(s1?,right) 这个示例。这个动作值的计算方式如下所示:
qπ?(s1?,right)=?1+vπ?(s2?)=?1+2=1,
我们可以将状态动作对的值 s1?,right 表示为以下两个量的和:(1)向右移动并进入状态 s2? 的即时奖励,以及 (2) 智能体从状态 s2? 开始并遵守该策略获得的累积奖励。

4.对于更加复杂的环境
在这个简单的网格世界示例中,环境是确定性环境。换句话说,智能体选择某个动作后,下个状态和奖励可以 100% 确定不是随机的。对于确定性环境,所有的s′,r,s,a 为 p(s′,r∣s,a)∈{0,1}。
在这种情况下,当智能体处在状态 s 并采取动作 a 时,下个状态 s′ 和奖励 r 可以确切地预测,我们必须确保 qπ?(s,a)=r+γvπ?(s′)。
通常,环境并非必须是确定性环境,可以是随机性的。这是迷你项目中的 FrozenLake 环境的默认行为;在这种情况下,智能体选择动作后,下个状态和奖励无法确切地预测,而是从(条件性)概率分布 p(s′,r∣s,a)中随机抽取的。
在这种情况下,当智能体处在状态 s 并采取动作 a 时,每个潜在下个状态 s′ 的概率和奖励 r 由 p(s′,r∣s,a) 确定。在这种情况下,我们必须确保 qπ?(s,a)=∑s′∈S+,r∈R?p(s′,r∣s,a)(r+γvπ?(s′)),我们计算和 r+γvπ?(s′) 的期望值。

原文地址:https://www.cnblogs.com/paulonetwo/p/10371486.html

时间: 2024-10-09 18:33:13

机器学习工程师 - Udacity 强化学习 Part Three的相关文章

机器学习工程师 - Udacity 深度学习

一.神经网络1.为了进行梯度下降,误差函数不能是离散的,而必须是连续的.误差函数必须是可微分的.同时,要将离散预测变成连续预测,方法是将激活函数从阶跃函数变成S函数. 2.最大似然法:选出实际发生的情况所对应的概率更大的模型. 3.交叉熵(损失函数):将得到的概率取对数,对它们的相反数进行求和.准确的模型得到较低的交叉熵.交叉熵可以告诉我们两个向量是相似还是不同. 4.Logistic回归(对数几率回归)机器学习中最热门和最有用的算法之一,也是所有机器学习的基石.基本上是这样的:1)获得数据:2

机器学习工程师 - Udacity 非监督学习 Part Two

四.特征缩放1.特征缩放的优点:Andrew在他的机器学习课程里强调,在进行学习之前要进行特征缩放,目的是保证这些特征都具有相近的尺度,这将帮助梯度下降算法更快地收敛.python里常用的是preprocessing.StandardScaler(),公式为:(X-mean)/std,得到的结果是,对于每个属性来说所有数据都聚集在0附近,方差为1.缺点:如果特征中有异常数值,那么缩放的结果会很不理想. 2.sklearn中的最小值/最大值缩放器from sklearn.preprocessing

机器学习工程师 - Udacity 监督学习

一.线性回归1.线性回归:一种用于预测数值数据的非常有效的算法. 假设直线为y=w1x+w2:点为(p,q).调整直线的技巧:1)绝对值技巧:如果点在直线上方,y=(w1+pɑ)x+(w2+ɑ),其中ɑ为学习速率.点在直线下方,y=(w1-pɑ)x+(w2-ɑ).p存在的原因:a.如果点不在y轴的右侧,而在左侧,此时p为负,可保证直线绕点的方向旋转:b.如果点距y轴近,则p的值较小,直线一次旋转的角度就小,如果点距y轴远,则p的值较大,直线一次旋转的角度就大,这符合我们的期望.2)平方技巧:无论

机器学习工程师 - Udacity 机器学习基础

一.评估指标 1.混淆矩阵: 原文地址:https://www.cnblogs.com/paulonetwo/p/9925404.html

一文让你看懂人工智能、机器学习、深度学习和强化学习的关系

如果说信息技术是第三次工业革命的核心,那么人工智能所代表的智能则是下一次工业革命的核心力量. 2016年,谷歌阿尔法围棋以4:1战胜围棋世界冠军.职业九段棋手李世石,不仅让深度学习为人们所知,而且掀起了人工智能的"大众热".此后,人工智能越来越热,从机器人开发.语音识别.图像识别.自然语言处理到专家系统等不断推陈出新. 同时,人工智能技术越来越多地融入到我们的生活中,出现了智能音箱.智能助理.智能机器人等. 根据应用领域的不同,人工智能研究的技术也不尽相同,目前以机器学习.计算机视觉等

【推荐算法工程师技术栈系列】机器学习深度学习--强化学习

目录 强化学习基本要素 马尔科夫决策过程 策略学习(Policy Learning) 时序差分方法(TD method) Q-Learning算法 Actor-Critic方法 DQN DDPG 推荐系统强化学习建模 附录 强化学习基本要素 智能体(agent):与环境交互,负责执行动作的主体: 环境(Environment):可以分为完全可观测环境(Fully Observable Environment)和部分可观测环境(Partially Observable Environment).

机器学习之非监督学习与强化学习

非监督式学习: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMzQ3NjQ2NA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" > 在此学习方式下.输入数据部分被标识,部分没有被标识,这样的学习模型能够用来进行预測,可是模型首先须要学习数据的内在结构以便合理的组织数据来进行预測.应用场景包含分类和回归,算法包含一些对经常使用监督

中国mooc北京理工大学机器学习第三周(一):强化学习基础

强化学习是程序或者智能体通过与环境不断地进行交互学习一个从环境到动作的映射,学习的目标使累计回报最大化. 强化学习是一种试错学习,在各种状态选需要尽量尝试所有可以选择的动作,通过环境的反馈来判断动作的优劣,最终获得环境和最优动作的映射关系. (马尔可夫)MDP通常来描述一个强化学习问题,智能体根据当前环境的观察采取动作获得反馈,并使环境改变. 在现实的强化学习任务中,很多条件不能获得,若学习不再依赖环境,则称为免疫模型学习,蒙特卡洛强化学习. Q-learning结合了动态规划和蒙特卡洛强化学习

Hulu机器学习问题与解答系列 | 第八弹:强化学习 (二)

答应你们的解答部分来啦! "视频游戏里的强化学习" 场景描述 游戏是强化学习最有代表性也是最合适的应用领域之一,其几乎涵盖了强化学习所有的要素,例如环境:游戏本身的状态,动作:用户操作,机器人:程序,回馈:得分.输赢等.通过输入原始像素来玩视频游戏,是人工智能成熟的标志之一.雅达利(Atari)是20世纪七八十年代红极一时的电脑游戏,类似于国内的红白机游戏,但是画面元素要更简单一些.它的模拟器相对成熟简单,使用雅达利游戏来测试强化学习,是非常合适的.应用场景可以描述为:在离散的时间轴上