强化学习基本概念

智能体（agent）

例如alpha-go中的棋盘，用于产生动作的主体就是智能体。

状态（state）

l例如当前棋盘中的局势就是状态，表示的是主体执行动作之前需要考虑的外部环境

动作（action）

例如下围棋中的落子，表示智能体在某个状态下采取的一个行为

奖励（reward）

例如当某一步有利于最后取得胜利，那么奖励记为1，否则记为-1。奖励是智能体用来决策在当前状态应该采取什么动作的参考标准。智能体的动作应该朝着未来奖励最大化方向行动。

策略（policy）

理解为目标。例如下围棋的策略就是占地面积比对方大。

他们的转换关系如下图

原文地址：https://www.cnblogs.com/loubin/p/12616989.html

时间： 2024-08-30 14:20:43

强化学习基本概念的相关文章

分布式强化学习基础概念（Distributional RL ）

分布式强化学习基础概念(Distributional RL) from: https://mtomassoli.github.io/2017/12/08/distributional_rl/ 1. Q-learning 在 Q-learning 中,我们想要优化如下的 loss: Distributional RL 的主要思想是:to work directly with the full distribution of the return rather than with its expec

【推荐算法工程师技术栈系列】机器学习深度学习--强化学习

目录强化学习基本要素马尔科夫决策过程策略学习(Policy Learning) 时序差分方法(TD method) Q-Learning算法 Actor-Critic方法 DQN DDPG 推荐系统强化学习建模附录强化学习基本要素智能体(agent):与环境交互,负责执行动作的主体: 环境(Environment):可以分为完全可观测环境(Fully Observable Environment)和部分可观测环境(Partially Observable Environment).

【强化学习RL】必须知道的基础概念和MDP

本系列强化学习内容来源自对David Silver课程的学习课程链接http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html 之前接触过RL(Reinforcement Learning) 并且在组会学习轮讲里讲过一次Policy Gradient,但是由于基础概念不清,虽然当时懂了但随后很快就忘..虽然现在写这个系列有些晚(没有好好跟上知识潮流o(╥﹏╥)o),但希望能够系统的重新学一遍RL,达到遇到问题能够自动想RL的解决方法的程

深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction

转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应用DRL前,阶段性的整理下相关知识点.本文集中在DRL的model-free方法的Value-based和Policy-base方法,详细介绍下RL的基本概念和Value-based DQN,Policy-based DDPG两个主要算法,对目前state-of-art的算法(A3C)详细介绍,其他

C++强化学习规划表

第一阶段 C语言加强以及C++语言详解(29天) 课程名称课程内容学习目标 C语言强化 · C语言基础复习(数据类型.变量.内存布局.指针基础) · C语言基础强化提高(C语言中的字符串.一维数组.二维数组) · C语言基础强化提高(一级指针,二级指针,三级指针实战,N级指针概念,指针数组和数组指针) · C语言基础强化提高(结构体.文件的使用) · 动态库的封装和设计 · 函数指针回调函数 · C语言面试题强化与提高在基础班C语言知识点之上,掌握C语言深入技巧,为日后做更大的项目打下坚

什么是强化学习？

Reinforcement learning 是机器学习里面的一个分支,特别善於控制一只能够在某个环境下自主行动的个体 (autonomous agent),透过和环境之间的互动,例如 sensory perception 和 rewards,而不断改进它的行为 . 听到强化学习,你脑里应该浮现一只曱甴那样的小昆虫,那就是 autonomous agent 的形象: 对「环境」(environment) 这概念,你应该想到像以下这经典游戏的迷宫: 包括有追捕你的怪物.和吃了会加分的食物

DQN 强化学习

pytorch比tenserflow简单. 所以我们模仿用tensorflow写的强化学习. 学习资料: 本节的全部代码 Tensorflow 的 100行 DQN 代码我制作的 DQN 动画简介我的 DQN Tensorflow 教程我的强化学习教程 PyTorch 官网论文 Playing Atari with Deep Reinforcement Learning 要点 Torch 是神经网络库, 那么也可以拿来做强化学习, 之前我用另一个强大神经网络库 Tensorflow

浅谈强化学习的方法及学习路线

介绍目前,对于全球科学家而言,“如何去学习一种新技能”成为了一个最基本的研究问题.为什么要解决这个问题的初衷是显而易见的,如果我们理解了这个问题,那么我们可以使人类做一些我们以前可能没有想到的事.或者,我们可以训练去做更多的“人类”工作,常遭一个真正的人工智能时代. 虽然,对于上述问题,我们目前还没有一个完整的答案去解释,但是有一些事情是可以理解的.先不考虑技能的学习,我们首先需要与环境进行交互.无论我们是学习驾驶汽车还是婴儿学习走路,学习都是基于和环境的相互交互.从互动中学习是所有智力发展和

强化学习（二）：马尔可夫决策过程

Finite Markov Decision Process 马尔可夫决策过程(MDP)是对连续决策进行建模,当前的动作不仅对当前产生影响,而且还会对将来的的情况产生影响,如果从奖励的角度,即MDP不仅影响即时的奖励,而且还会影响将来的长期奖励,因此,MDP需要对即时奖励与长期奖励的获得进行权衡. The Agent-Environment Interface MDP定义了从交互中学习的框架,决策者(或称为学习者)称为Agent,那与agent交互的所有统称为environment. 二者是连续