【干货总结】| Deep Reinforcement Learning 深度强化学习

在机器学习中,我们经常会分类为有监督学习和无监督学习,但是尝尝会忽略一个重要的分支,强化学习。有监督学习和无监督学习非常好去区分,学习的目标,有无标签等都是区分标准。如果说监督学习的目标是预测,那么强化学习就是决策,它通过对周围的环境不断的更新状态,给出奖励或者惩罚的措施,来不断调整并给出新的策略。简单来说,就像小时候你在不该吃零食的时间偷吃了零食,你妈妈知道了会对你做出惩罚,那么下一次就不会犯同样的错误,如果遵守规则,那你妈妈兴许会给你一些奖励,最终的目标都是希望你在该吃饭的时候吃饭,该吃零食的时候吃零食,而不是在不合适的时间吃零食。同样,曾经风靡过一段时间的Flappy bird,很多玩家在短时间内达到了高分,是怎么做到的呢?除了非常厉害的玩家是真的自己手动玩的高分,其实很多高分是通过我们用强化学习的方法来训练一个模型,让小鸟自己学习如何不碰到障碍物一直往前飞,获得最高分。此外,大家熟知的Alpha Go,其实也是强化学习训练的模型,不过是深度强化学习。

  2013年DeepMind发表了一篇Playing Atari with Deep Reinforcement Learning 文章之后,深度强化学习便慢慢走入人们的视野。后来,在2015年,DeepMind又发表了一篇Human Level Control through Deep Reinforcement Learning,使得深度强化学习得到了广泛的关注,当年涌现了很多学术成果。我们熟知深度强化学习应该在16~17年的时候,尤其是Alpha Go出现后,很多公司和研究人员开始大量关注深度强化学习,并尝试将其应用在各个不同的应用场景。

  关于深度强化学习,我整理了一些资料,如果感兴趣的可以学习一下:

【论文】

【博客】

【文章】

【课程】

 

【学习网站】

【Github】

【会议】

原文地址:https://www.cnblogs.com/zhangchao162/p/11417563.html

时间: 2024-10-12 18:13:46

【干货总结】| Deep Reinforcement Learning 深度强化学习的相关文章

Deep Reinforcement Learning 深度增强学习资源

1 学习资料 增强学习课程 David Silver (有视频和ppt): http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html 最好的增强学习教材: Reinforcement Learning: An Introduction https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html 深度学习课程 (有视频有ppt有作业) https://www.cs.ox.ac.uk/p

Deep Active Learning 深度主动学习

Deep Active Learning 最上方为监督学习,对面为非监督学习,之间包括增强学习.半监督学习.在线学习.主动学习. Supervised Learing 将未标记的数据交给Work进行标记,然后将标记数据交给Learner进行训练. Semi-Supervised Learning 在监督学习的基础上加了一条线,也就是把大量的未标记数据和少量的标记数据交给Learner进行训练,这样可以减少人工标记的时间. Active Learning 通过Learner来决定哪些数据需要被标记

深度强化学习(Deep Reinforcement Learning)入门:RL base & DQN-DDPG-A3C introduction

转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应用DRL前,阶段性的整理下相关知识点.本文集中在DRL的model-free方法的Value-based和Policy-base方法,详细介绍下RL的基本概念和Value-based DQN,Policy-based DDPG两个主要算法,对目前state-of-art的算法(A3C)详细介绍,其他

深度强化学习(Deep Reinforcement Learning)的资源

来源:http://wanghaitao8118.blog.163.com/blog/static/13986977220153811210319/ Google的Deep Mind团队2013年在NIPS上发表了一篇牛x闪闪的文章,亮瞎了好多人眼睛,不幸的是我也在其中.前一段时间收集了好多关于这方面的资料,一直躺在收藏夹中,目前正在做一些相关的工作(希望有小伙伴一起交流). 一.相关文章 关于DRL,这方面的工作基本应该是随着深度学习的爆红最近才兴起的,做这方面的研究的一般都是人工智能领域的大

深度强化学习之:模仿学习(imitation learning)

深度强化学习之:模仿学习(imitation learning) 2017.12.10 本文所涉及到的 模仿学习,则是从给定的展示中进行学习.机器在这个过程中,也和环境进行交互,但是,并没有显示的得到 reward.在某些任务上,也很难定义 reward.如:自动驾驶,撞死一人,reward为多少,撞到一辆车,reward 为多少,撞到小动物,reward 为多少,撞到 X,reward 又是多少,诸如此类...而某些人类所定义的 reward,可能会造成不可控制的行为,如:我们想让 agent

repost: Deep Reinforcement Learning

From: http://wanghaitao8118.blog.163.com/blog/static/13986977220153811210319/ accessed 2016-03-10 深度强化学习(Deep Reinforcement Learning)的资源 Google的Deep Mind团队2013年在NIPS上发表了一篇牛x闪闪的文章,亮瞎了好多人眼睛,不幸的是我也在其中.前一段时间收集了好多关于这方面的资料,一直躺在收藏夹中,目前正在做一些相关的工作(希望有小伙伴一起交流)

Playing Atari with Deep Reinforcement Learning

这是一篇论文,原地址在: https://arxiv.org/abs/1312.5602 我属于边看便翻译,边理解,将他们记录在这里: Abstract: 我们提出了第一个深学习模型,成功地学习控制策略直接从高维感官输入使用强化学习.该模型是一个卷积神经网络,用Q-学习的变体训练,其输入是原始像素,其输出是估计未来的值函数.我们运用我们的方法在Atari 2600 游戏中测试,没有调整结构或学习的算法.我们发现它比所有之前的方法都好,比人类专家玩得都厉害. 1 Introduction 直接从高

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪,算是单目标跟踪中比较早的应用强化学习算法的一个工作.  在基于深度学习的方法中,想学习一个较好的 robust spatial and temporal representation for continuous video data 是非常困难的.  尽管最近的 CNN based tracke

Deep Reinforcement Learning 入门

Deep Reinforcement Learning 入门 最近对Deep Reinforcement Learning比较感兴趣,想一步一步的走进该学习策略,立帖为证,哈哈... 知乎上有一个不错的介绍入门的帖子:https://www.zhihu.com/question/41775291 首先,要知道什么是深度强化学习(Deep Reinforcement Learning) ? 答: