增强学习 | AlphaGo背后的秘密

“敢于尝试,才有突破”

2017年5月27日,当今世界排名第一的中国棋手柯洁与AlphaGo 2.0的三局对战落败。该事件标志着最新的人工智能技术在围棋竞技领域超越了人类智能,借此机会,介绍一下AlphaGo背后的秘密——增强学习技术。

增强学习(Reinforcement Learning),也称强化学习,是一种在过程中学习提高机器智能的框架。该框架通常可用马尔可夫决策过程(Markov Decision Process)概念来描述,即假设存在智能体(Agent)在约束环境下执行某动作(Action),动作的执行会改变智能体状态(State),其结果会带来奖赏或惩罚。基于此,智能体通过探索最优策略(Policy)或是最大化长期回报(Reward),进而选择最优的执行动作序列。

增强学习应用的核心是建立智能体模型,包括几个核心概念:

  • 状态:智能体内在属性的定量描述
  • 动作:使智能体状态迁移的行为
  • 策略:状态和动作的映射转移函数,例如状态转移概率等
  • 回报:评价智能体执行某动作好坏的价值函数
  • 环境:与智能体交互的模型,例如建立的马尔可夫决策模型等

根据问题不同,智能体常常使用一个或多个上述概念进行建模,进而可将增强学习粗略分为基于策略的增强学习、基于值(回报)的增强学习,以及基于模型的增强学习。

基于智能体模型,增强学习以“状态”作为输入,通过可能的“动作”与环境进行交互,以“回报”作为动作的评价,利用该过程中累积的“尝试”数据进行训练,从而学习得到最优的策略函数。

相比于经典的有监督学习方法,增强学习无需标注数据,某种意义上可以看作“延迟标注数据”的监督学习方法。增强学习更关注于在线决策的性能,在难以计算最优解时可给出次优解。

相对于经典的近似动态规划方法,增强学习无需显式的建立马尔可夫决策数学模型,更适合求解计算状态空间更加复杂的问题,即人类操作层次的任务,例如游戏AI、无人驾驶、机器人等。

然而,对于语音识别、NLP、计算机视觉等一些很难定义长期回报的应用,增强学习便难以适用。另一方面,智能体建模常常过于抽象,因此一些增强学习的应用距离实际相差还较大。

回到开头,战胜柯洁的Alpha Go使用的便是最新的深度增强学习技术,即在上述介绍的增强学习概念基础上使用深度神经网络描述值函数、策略或者模型。从这项超越现今人类智能的技术上,我们或许可以得到如下启发:

  1. 基于深层卷积神经网络判断围棋棋盘的形势,无需数据特征工程,同时能处理巨大的状态空间;
  2. 历史棋手对弈数据有限,但可通过自我博弈显著提升人工智能但策略能力;
  3. 增强学习技术并不是万能的,它更适合游戏规则确定的应用。

最后,小虾米还将文章内容总结成了更直观的思维导图,需要的朋友,请在数据小虾米公众号后台回复“增强学习”,即可获取下载地址。



数据科学武林风起云涌,
随数据小虾米共闯江湖~

?

时间: 2024-08-04 08:51:31

增强学习 | AlphaGo背后的秘密的相关文章

(转) 深度增强学习与通用人工智能

深度增强学习前沿算法思想 CSDN 作者: Flood Sung 2017-02-16 09:34:29 举报 阅读数:3361 作者: Flood Sung,CSDN博主,人工智能方向研究生,专注于深度学习,增强学习与机器人的研究. 责编:何永灿,欢迎人工智能领域技术投稿.约稿.给文章纠错,请发送邮件至[email protected]本文为<程序员>原创文章,未经允许不得转载,更多精彩文章请订阅2017年<程序员>? 2016年AlphaGo计算机围棋系统战胜顶尖职业棋手李世石

5.JavaScript优化及导航菜单背后的秘密

JavaScript优化及导航菜单背后的秘密 伍星 学习目标1.进一步了解前端优化 学习如何编写良好的 JavaScirpt2.通过导航的学习,了解JavaScirpt的应用 JavaScript在用户体验优化的实现中起着至关重要的作用3.前端开发相关的工具和手段了解 了解JavaScript开发相关的工具和手段 目录 CONTENTS1 回顾:HTML语义.CSS高级2 编写高效的 JavaScript3 认识导航菜单及其开发4 导航菜单的性能加速5 破解牛X导航菜单的秘密5 JS的调试.压缩

增强学习、增量学习、迁移学习——概念性认知

一.增强学习/强化学习(Reinforcement Learning ) 我们总是给定一个样本x,然后给或者不给label y.之后对样本进行拟合.分类.聚类或者降维等操作.然而对于很多序列决策或者控制问题,很难有这么规则的样本.比如,四足机器人的控制问题,刚开始都不知道应该让其动那条腿,在移动过程中,也不知道怎么让机器人自动找到合适的前进方向.另外如要设计一个下象棋的AI,每走一步实际上也是一个决策过程,虽然对于简单的棋有A*的启发式方法,但在局势复杂时,仍然要让机器向后面多考虑几步后才能决定

增强学习Reinforcement Learning经典算法梳理2:蒙特卡洛方法

1 前言 在上一篇文章中,我们介绍了基于Bellman方程而得到的Policy Iteration和Value Iteration两种基本的算法,但是这两种算法实际上很难直接应用,原因在于依然是偏于理想化的两个算法,需要知道状态转移概率,也需要遍历所有的状态.对于遍历状态这个事,我们当然可以不用做到完全遍历,而只需要尽可能的通过探索来遍及各种状态即可.而对于状态转移概率,也就是依赖于模型Model,这是比较困难的事情. 什么是状态转移?就比如一颗子弹,如果我知道它的运动速度,运动的当前位置,空气

神经网络+增强学习

该文章转至: https://www.cnblogs.com/xlturing/p/5844555.html 马里奥AI实现方式探索 --神经网络+增强学习 儿时我们都曾有过一个经典游戏的体验,就是马里奥(顶蘑菇^v^),这次里约奥运会闭幕式,日本作为2020年东京奥运会的东道主,安倍最后也已经典的马里奥形象出现.平时我们都是人来玩马里奥游戏,能否可以让马里奥智能的自己闯关个呢?OK,利用人工智能的相关算法来进行自动化通关一直是一个热门的话题,最近最火的相关东东就是传说中的alphaGo啦.而在

618驾到 带你揭开电商成交额背后的秘密

618年中购物大狂欢已进入倒计时,你是不是每天都要去各电商平台转转,并期待着清空购物车?那么你知道电商的成交额是如何快速直观实时呈现的吗?下面为你揭开电商成交额背后的秘密.说到电商"造节",最具代表性的莫过于天猫双11.2018年11月11日24时,随着最终数字的定格,2018年 天猫"双11"成交额突破2000亿大关,再次刷新纪录.从2009年首个双11,交易峰值仅400笔/秒:到2018年交易创建峰值高达49.1万笔/秒.如此巨大的交易峰值,流计算技术可谓是功不

增强学习 | Q-Learning

"价值不是由一次成功决定的,而是在长期的进取中体现" 上文介绍了描述能力更强的多臂赌博机模型,即通过多台机器的方式对环境变量建模,选择动作策略时考虑时序累积奖赏的影响.虽然多臂赌博机模型中引入了价值的概念,但方法在建模过程中本质上是以策略为优化目标,因此又常被归为基于策略的增强学习方法. 此外,增强学习方法还有基于价值以及基于模型两类主要方法.本文介绍第二类,先从描述价值目标的Q函数开始,它也常称之为Q-Learning方法. 最简单的Q函数可用"状态-动作"二维表

增强学习 | 多臂赌博机模型进阶

“模型是一个框架,用来描述分析者感兴趣的研究对象” 上文[增强学习 | 多臂赌博机模型]介绍了基本的多臂赌博机模型,即单步动作会根据反馈直接作出决策,因此多臂赌博机的目标是学习策略函数,以产生最优的执行动作.介绍了两种学习最优策略的方法,一是使用平均累积函数,二是使用神经网络拟合.相比下,神经网络具有更强的表达能力,效果也更好. 但基本的多臂赌博机模型有两个限制,一是行动与环境状态无关:二是不能处理延时累积回报,这些因素限制了基本多臂赌博机模型的描述和解决现实更复杂问题的能力. 对于行动与环境状

增强学习与马尔科夫决策过程

现有的机器学习算法根据模型的学习过程大致可以分为四类:监督式学习,无监督式学习,半监督式学习和增强学习. ① 监督式学习:从标记好的训练数据中进行模型的训练,常用来做分类和回归,例如逻辑回归.反向神经网络: ② 无监督式学习:根据数据的特征直接对数据的结构和数值进行归纳,常用来做聚类,例如周知的K-均值,谱聚类: ③ 半监督式学习:根据部分标记的和部分没有标记的训练数据进行模型的学习,常用来做回归和分类: ④ 增强式学习:作为今天要讨论的主角,是机器学习中最酷的分支之一,其通过不断的试错.反馈进