ICML 2017 Reading (1): Combining Online and Offline Knowledge in UCT

立帖要读paper,已经过了快两周了,还一篇博文都没发出来,略汗。

今天第一篇,读的是今年ICML的十年Test of Time Award得奖论文Combining Online and Offline Knowledge in UCT,来自Sylvain Gelly和David Silver,发表于十年前的ICML 2007(所以,我还是没有开始讨论今年的paper...)。作者Sylvain Gelly现在Google Brain。David Silver现在在DeepMind任职,是AlphaGo的主要领导者之一,也是AlphaGo的Nature论文的并列第一作者。这篇获奖文章中提出的想法,后来被广泛运用到围棋程序中,AlphaGo也从中得到了很多养分。这届ICML的十年大奖颁给这篇文章,应当多少也有向AlphaGo致意的意思吧。

这篇文章提出了经典的UCT算法的三个改进,让其性能得到了大幅提升。这里的UCT算法开创了Monte-Carlo Tree Search,其想法也很简单易懂,由下面两个式子决定:

$$Q_{UCT}^{\bigoplus}(s, a) = Q_{UCT}(s, a) + c\sqrt{\frac{\log n(s)}{n(s, a)}}$$

$$\pi_{UCT}(s) = \arg\max_a Q_{UCT}^\bigoplus (s, a)$$

这里\(Q_{UCT}\) 是UCT的value function,\(n(s)\)和\(n(s, a)\)分别是状态s和状态-动作对(s, a)的访问计数,\(n(s)=\sum_a n(s, a)\),即在搜索或者学习的过程中经历s或者(s, a)的次数,\(\pi_{UCT}(s)\)是UCT算法的最终策略,在状态s处选择执行动作\(\pi(s)\)。\(Q_{UCT}(s, a)\)通过下面的Monte-Carlo学习方法来学:

$$Q_{UCT}(s, a)\leftarrow Q_{UCT}(s, a) + \frac{1}{n(s, a)}[R - Q_{UCT}(s, a)]$$

这里R是在状态s执行动作a之后得到的reward。每一个episode\(s_1, a_1, s_2, a_2, ..., s_T, a_T\)结束之后,可以用这个式子来更新所有的\(Q_{UCT}(s_t, a_t)\)。

UCT的树搜索算法保留三个表\(Q_{UCT}(s, a)\),\(n(s, a)\)和\(n(s)\),然后每到一个状态s,就开始按照自己的policy进行simulation,simulation一直进行到episode结束,得到simulated reward,据此更新这三个表,当设定的思考时间到之后,再根据UCT计算出应当选择的动作。UCT算法基于更之前的Upper Confidence Bound (UCB)方法,value function \(Q_{UCT}\)保证了算法的正确性,即看过足够量的数据之后根据这个value function进行决策保证最优;另一方面\(\sqrt{\log n(s) / n(s, a)}\)一项鼓励尝试各种不同的动作,而分子中的\(\log n(s)\)同时保证最终这一鼓励探索的一项将会变得可以忽略。

再回到这篇获奖文章本身,它提出了三个想法,所有的想法都在当时尚未解决的9x9围棋上进行验证:

第一,默认策略。在UCT算法中,如果某一个状态s尚有未被探索过的动作,则在simulation进行到该处或环境状态变为该状态后,UCT会在未被探索过的所有a中随机选择一个。这篇文章提出,使用这样的随机策略远非最优,我们可以使用一个默认策略,用它进行决策。而这个默认策略可以通过offline的self-play学到。这是个很简单的想法,实验验证这一想法对效果提升有少量帮助。

第二,Rapid Action Value Estimation (RAVE)。这个想法的提出是为了快速的得到一个不错的value function estimate。在大状态空间的环境中,要想有效地探索所有的状态非常困难,一个agent无法用足够多的经验去准确估计大部分状态的value function。RAVE这个想法说的是,在一个episode\(s_1, a_1, s_2, a_2, ..., s_T, a_T\)中,我们并不单单只是用最后的reward R去更新所有对应的\((s_t, a_t)\)对,而是同时也更新\((s_t, a_{t‘}), \forall t‘>t\)。即把所有t时刻以后的适用的动作都当做是直接作用在\(s_t\)上,即便它可能发生在很远以后才遇到的\(s_{t‘}\)状态中。这样就能显著地提高每一个\((s, a)\)对的数据量,快速的得到一个较好的Q函数。RAVE这个办法对于围棋非常有效,因为某一盘面后的很多着法对于当前的盘面都是不错的选择。但对于其他更通用的场景这个想法不一定能很好的适用。而且,这个方法虽然能够快速得到准确的Q函数估计,但它实质上会引入一些bias,毕竟后面发生的事情并不能直接当做发生在当下,所以使用时还需要一些合适的weighting,才能让其能不跑偏。

第三,node prior。在UCT中\(Q(s, a)\)通常初始化为第一次的reward,\(n(s, a)\)通常初始化为1,这篇文章提出可以用一个prior,特别是Q可以通过offline的self-play学到,并作为prior。实验中这个想法的效果也很突出。

读这篇文章的时候最大的感觉就是,十年前AlphaGo的雏形Monte-Carlo Tree Search其实已经出来了,当时距离最近的AlphaGo最主要的差别就是神经网络。而现在神经网络加上MCTS已经成为了完整信息game play的标配。

时间: 2024-10-26 07:56:36

ICML 2017 Reading (1): Combining Online and Offline Knowledge in UCT的相关文章

paper reading(1) - Combining Sketch and Tone for Pencil Drawing Production

目录 Combining Sketch and Tone for Pencil Drawing Production paper content understanding algorithm understand report outlines paper writing strategies note Abstract Introduction Related Work Combining Sketch and Tone for Pencil Drawing Production paper

zz【清华NLP】图神经网络GNN论文分门别类,16大应用200+篇论文最新推荐

[清华NLP]图神经网络GNN论文分门别类,16大应用200+篇论文最新推荐 图神经网络研究成为当前深度学习领域的热点.最近,清华大学NLP课题组Jie Zhou, Ganqu Cui, Zhengyan Zhang and Yushi Bai同学对 GNN 相关的综述论文.模型与应用进行了综述,并发布在 GitHub 上.16大应用包含物理.知识图谱等最新论文整理推荐. GitHub 链接: https://github.com/thunlp/GNNPapers 目录            

深度强化学习泡沫及路在何方?

一.深度强化学习的泡沫 2015年,DeepMind的Volodymyr Mnih等研究员在<自然>杂志上发表论文Human-level control through deep reinforcement learning[1],该论文提出了一个结合深度学习(DL)技术和强化学习(RL)思想的模型Deep Q-Network(DQN),在Atari游戏平台上展示出超越人类水平的表现.自此以后,结合DL与RL的深度强化学习(Deep Reinforcement Learning, DRL)迅速

本体概述

原文地址:http://blog.csdn.net/sfbegingmail/article/details/6093010 本体的定义 Ontology的概念最初起源于哲学领域,可以追溯到公元前古希腊哲学家亚里士多德(384-322 b.c.)尝试对世界上的事物分类,在哲学中定义为"对世界上客观存在物的系统地描述,即存在论"[1].牛津英语词典定义为"存在的科学或研究".当不同的理论家提出本体的不同建议,或者不同的知识领域谈论本体建议时,应该使用本体的复数即本体论

中斯间极积况意称天参并

措不及防下只得单手一张领域盾 当然啦其中一个看起来挺柔软的生胸前抱着书籍很自豪的说我已经是级的光明牧师了哦 大风骤起站在最前面的我冷笑着看着敌人的冲阵剑锋向前一指喝道给我杀 顿时傲世狂人和傲世嗜血均是大惊失色忍不住道居然那么高的防御 阉池够来琶得够湍贪纪偬允http://p.baidu.com/ihome/center?uid=6b336162636462303866650946&f6=2017/12_26 锌妓椭把彻写痉锰尤埠仆亟http://p.baidu.com/ihome/center?

平向图问济须提标省子离

而且还有N多附加属性至于那个炎舞的特技估计也差不到哪里去总之一套亚特兰蒂斯穿上之后凌雪在白云城基本上是难逢敌手了 当着两个NPC士兵的面完成了虐杀我们再次返回的时候这次畅通无阻的进入了临时营地 打开窗一股清香飘来是桂花树的香味远远可见院落里一棵绿树初秋正是桂花飘香的季节啊 得到这个启发之后我又再次巡视了铁矿石料场和农田均多获了的资源但是再去第二次就没有获得了大概是每天只能鼓舞一次的关系 蚀菜终酉毕匆雅门鸭掌押戮http://p.baidu.com/ihome/center?uid=1865616

Paper Reading - Attention Is All You Need ( NIPS 2017 )

Link of the Paper: https://arxiv.org/abs/1706.03762 Motivation: The inherently sequential nature of Recurrent Models precludes parallelization within training examples. Attention mechanisms have become an integral part of compelling sequence modeling

Saw a tweet from Andrew Liam Trask, sounds like Oxford DeepNLP 2017 class have all videos slides practicals all up. Thanks Andrew for the tip!

Saw a tweet from Andrew Liam Trask, sounds like Oxford DeepNLP 2017 class have all videos/slides/practicals all up. Thanks Andrew for the tip! Preamble This repository contains the lecture slides and course description for the Deep Natural Language P

Learning to Compare Image Patches via Convolutional Neural Networks --- Reading Summary

Learning to Compare Image Patches via Convolutional Neural Networks ---  Reading Summary 2017.03.08 Target: this paper attempt to learn a geneal similarity function for comparing image patches from image data directly. There are several ways in which