gym强化学习入门demo——随机选取动作 其实有了这些动作和反馈值以后就可以用来训练DNN网络了

# -*- coding: utf-8 -*-
import gym
import time
env = gym.make(‘CartPole-v0‘)
observation = env.reset()
print(observation)

print("env actionspace:")
print(env.action_space)

print("env observationspace:")
print(env.observation_space)
print(env.observation_space.high)
print(env.observation_space.low)

count = 0
for t in range(100):
    #随机选择一个动作
    action = env.action_space.sample()
    #执行动作 获取环境反馈
    observation, reward, done, info = env.step(action)
    #如果玩死了就退出
    if done:
        break
    env.render()
    count+=1
    time.sleep(0.2)
print(count)

效果图:

原文地址:https://www.cnblogs.com/bonelee/p/9149608.html

时间: 2024-08-30 17:00:51

gym强化学习入门demo——随机选取动作 其实有了这些动作和反馈值以后就可以用来训练DNN网络了的相关文章

强化学习——入门

强化学习: 强化学习作为一门灵感来源于心理学中的行为主义理论的学科,其内容涉及 概率论.统计学.逼近论.凸分析.计算复杂性理论.运筹学 等多学科知识,难度之大,门槛之高,导致其发展速度特别缓慢. 一种解释: 人的一生其实都是不断在强化学习,当你有个动作(action)在某个状态(state)执行,然后你得到反馈(reward),尝试各种状态下各种动作无数次后,这几点构成脑中的马尔可夫模型,使你知道之后的行为什么为最优. 另一种解释: 强化学习最重要的几个概念:agent,environment,

selenium如何随机选取省份和城市的下拉框的值

1.原始需求,选择省份后,相应的城市会自动加载 2.代码实现 Random random = new Random(); Select slp = new Select(dr.findElement(By.id("province"))); int psize = slp.getOptions().size()-1; int p = random.nextInt(24); slp.selectByIndex(p+1); Select slc = new Select(dr.findEl

David Silver强化学习Lecture1:强化学习简介

课件:Lecture 1: Introduction to Reinforcement Learning 视频:David Silver深度强化学习第1课 - 简介 (中文字幕) 强化学习的特征 作为机器学习的一个分支,强化学习主要的特征为: 无监督,仅有奖励信号: 反馈有延迟,不是瞬时的; 时间是重要的(由于是时序数据,不是独立同分布的); Agent的动作会影响后续得到的数据; 强化学习问题 奖励(Rewards) 奖励 \(R_t\) 是一个标量的反馈信号,表示Agent在 \(t\) 时

《深度学习入门基于Python的理论与实现》PDF代码学习指导

入门神经网络深度学习,推荐学习<深度学习入门:基于Python的理论与实现>,这本书不来虚的,一上来就是手把手教你一步步搭建出一个神经网络,还能把每一步的出处讲明白.理解神经网络,很容易就能入门. 深度学习真正意义上的入门书,深入浅出地剖析了深度学习的原理和相关技术.书中使用Python3,尽量不依赖外部库或工具,从基本的数学知识出发,带领读者从零创建一个经典的深度学习网络,使读者在此过程中逐步理解深度学习. <深度学习入门:基于Python的理论与实现>中文版PDF,314页,带

机器学习之非监督学习与强化学习

非监督式学习: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMzQ3NjQ2NA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" > 在此学习方式下.输入数据部分被标识,部分没有被标识,这样的学习模型能够用来进行预測,可是模型首先须要学习数据的内在结构以便合理的组织数据来进行预測.应用场景包含分类和回归,算法包含一些对经常使用监督

深度强化学习(Deep Reinforcement Learning)入门:RL base &amp; DQN-DDPG-A3C introduction

转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应用DRL前,阶段性的整理下相关知识点.本文集中在DRL的model-free方法的Value-based和Policy-base方法,详细介绍下RL的基本概念和Value-based DQN,Policy-based DDPG两个主要算法,对目前state-of-art的算法(A3C)详细介绍,其他

分享《深入浅出强化学习:原理入门》高清PDF+源代码

下载:https://pan.baidu.com/s/1RQvGYYbIkc3ob3jB6AAu0Q 更多分享资料:https://www.cnblogs.com/javapythonstudy/ <深入浅出强化学习:原理入门>高清PDF+源代码高清PDF,284页,带书签目录,彩色配图,文字可以复制.配套源代码.<深入浅出强化学习:原理入门>,作者: 郭宪 / 方勇纯 ,用通俗易懂的语言深入浅出地介绍了强化学习的基本原理,覆盖了传统的强化学习基本方法和当前炙手可热的深度强化学习方

《深入浅出强化学习:原理入门_郭宪方勇纯》高清PDF+源代码

资源链接:https://pan.baidu.com/s/1y6Fl0zUymMySZZhmBToy2Q<深入浅出强化学习:原理入门>高清PDF+源代码高清PDF,284页,带书签目录,彩色配图,文字可以复制.配套源代码.<深入浅出强化学习:原理入门>,作者: 郭宪 / 方勇纯 ,用通俗易懂的语言深入浅出地介绍了强化学习的基本原理,覆盖了传统的强化学习基本方法和当前炙手可热的深度强化学习方法.高清PDF如图: 原文地址:http://blog.51cto.com/14063572/

强化学习 平台 openAI 的 gym 安装 (Ubuntu环境下如何安装Python的gym模块)

openAI 公司给出了一个集成较多环境的强化学习平台  gym , 本篇博客主要是讲它怎么安装. openAI公司的主页: https://www.openai.com/systems/ 从主页上我们可以看到openAI 公司其实给出了多个强化学习的平台,不过最主要的就是  Gym 和  Baselines , 这里我们讲解如何安装gym . gym平台集成的环境种类较多,如较有名的Atria2600  , Baselines平台则集成了一些最新的强化学习算法, 有兴趣研究具体算法的人或许会对