关于 AlphaGo 论文的阅读笔记

这是Deepmind 公司在2016年1月28日Nature 杂志发表论文 《Mastering the game of Go with deep neural networks and tree search》。介绍了 AlphaGo 程序的细节。

本博文是对这篇论文的阅读笔记。

AlphaGo 神经网络构成

AlphaGo 总体上由两个神经网络构成。以下我把它们简单称为「两个大脑」,这并非原文中的提法,仅仅是我的一个比喻。

第一个大脑(Policy Network)的作用是在当前局面下推断下一步能够在哪里走子。它有两种学习模式:一个是简单模式。它通过观察 KGS(一个围棋对弈server)上的对局数据来训练。粗略地说:这能够理解为让大脑学习「定式」,也就是在一个给定的局面下人类通常会怎么走,这样的学习不涉及对优劣的推断。

还有一个是自我强化学习模式。它通过自己和自己的海量对局的终于胜负来学习评价每一步走子的优劣。由于是自我对局,数据量能够无限增长。

第二个大脑(Value Network)的作用是学习评估总体盘面的优劣。它也是通过海量自我对局来训练的(由于採用人类对局会由于数据太少而失败)。

在对弈时。这两个大脑是这样协同工作的:

第一个大脑的简单模式会推断出在当前局面下有哪些走法值得考虑。

第一个大脑的复杂模式通过蒙特卡洛树来展开各种走法,即所谓的「算棋」,以推断每种走法的优劣。在这个计算过程中,第二个大脑会协助第一个大脑通过推断局面来砍掉大量不值得深入考虑的分岔树,从而大大提高计算效率。

与此同一时候,第二个大脑本身通过下一步棋导致的新局面的优劣本身也能给出关于下一步棋的建议。

终于,两个大脑的建议被平均加权。做出终于的决定。

在论文中一个有趣的结论是:两个大脑取平均的结果比依赖两者各自得出的结果都要好非常多。

这应当是让 AlphaGo 表现出和人类相似性的关键所在。

======================================
两个网络的输入都是整个棋盘的状态,不存在一个注重局部一个注重总体。差别在于功能,policy network用于直接给出落子策略,value network用于高速预计当前局面导致终于获胜的概率。MCTS在一个简化版的policy network的指导下多次搜索到终局来实时(但比較慢)预计当前局面终于获胜的概率。

value network估算的概率和MCTS估算的概率直接加权平均,终于选择落子位置的时候是根据这个加权平均和完整版policy network给出的对各落子位置的收益的一个加权平均,可是一个位置被MCTS搜索(相似于计算)的次数越多,policy network的结果(相似于经验和直觉)给的权值也越小。所以这一步并非一个简单的加权平均。也不是局部推断和全局推断的加权平均。两个网络考虑了多少全局因素和局部因素仅仅跟训练数据和当前棋盘状态有关,跟用的哪个网络没有关系。

使用图像识别经常使用的卷积神经网咯识别棋局确实可能不是最好的方案,可是围棋的状态和图像都具有一定的平移对称性。这是卷积网络擅长利用的特点。

我不了解围棋,但我猜人识别围棋局面应该也是有使用识别图像时的相似思维的。我看到有懂围棋的说人会使用一些抽象的模糊的概念进行高速但不精确的推演,假设这点非常重要的话,如今的算法可能还须要增加recurrent neural network来实现相似的功能。但也应该不是大问题。

加上机器高速搜索的能力。我觉得三月份输赢或许不好说。可是AI在围棋上碾压人类也就一两年内的事了。

学习效率问题。如今AI学习的方式确实跟人非常不一样,但这仅仅是由于人在学习一个新领域的知识的时候并非真正从零開始的,而像神经网络这样的模型往往是从随机的參数開始训练的,没有不论什么别的先验信息。

比方AI假设懂得人类语言以及各种常识,经常使用概念,那么開始学围棋的时候并不用像如今这样看大量人类的棋谱,然后疯狂自己跟自己下,而能够跟人一样由老师从基础知识開始一点点教授。这样或许起步能更快一些。

可是到了须要大量模仿和练习来提升技能的阶段,AI的学习效率真不一定比人差。

======================================

提出以下这些问题和评论

首先,这些神经网络训练在非常大程度上是通过自我对局来实现的。

这既是某种优势(依照 Facebook 人工智能研究员田渊栋的说法,几千万自我对局这样的规模是相当惊人的数据量)。某种程度上来说也是不得已而为之,由于人类对局的总数实在太少,会导致机器学习中常见的过度拟合问题。

可是这样是否有可能造成自我设限乃至画地为牢的后果?这同一时候牵涉到人们对神经网络学习过程的理解和对围棋本身的理解。

一方面,神经网络本身是否包容一定程度的「think out of the box」的能力。这固然取决于详细的神经网络算法,但也确实是人们对神经网络方法的一个本质困惑。

还有一方面,由于 AlphaGo 最基础的定式仍然是来源于人类对局,因此。这个问题依赖于人类棋手本身是否已经穷尽了围棋中全部有意义的基本定式。

(作为一个案例,在 AlphaGo 和樊麾的第二盘对局中,非常多人都注意到 AlphaGo 走了一个不标准的大雪崩定式。这是说明 AI 学错了呢,还是它发现这是更好的走法?)

其次,这两个大脑的工作方式确实和人类非常相似,一个推断细部,一个纵览全局。但 AlphaGo 终于的结合两者的方式相当简单粗暴:让两者各自评估一下每种可能的优劣,然后取一个平均数。

这可绝不是人类的思维方式。

对人类来说,这两种思考问题的方式的结合要复杂的多(不仅仅是在围棋中是这样)。

人们并非总是同一时候对事态做出宏观和微观的推断。而是有时候側重于大局。有时候側重于细部。

详细的精力分配取决于事态本身,也取决于人在当时的情绪、心理和潜意识应激反应。这当然是人类不完美之处,但也是人类行为丰富性的源泉。

而 AlphaGo 固然体现出一定的大局观,但从详细算法看来。它在为了宏观优势做出局部牺牲这方面的能力和人类全然不能相提并论。AlphaGo 引入总体盘面评估确实是它胜于很多别的围棋 AI 的地方。但从根本上来说,这仅仅是人们让 AI 具有「战略思维」的尝试的第一步,还有太多能够改进的可能性。

最后。和非常多别的围棋 AI 一样,当 AlphaGo 学习盘面推断的时候,採用的是图像处理的技术,也就是把围棋棋盘当做一张照片来对待。这当然在技术上是非常自然的选择,可是围棋棋局到底不是一般意义上的图案,它是否具有某些特质是常见的图像处理方法本身并不擅好处理的呢?

应用

为什么要让人工智能去下围棋?有非常多理由。但在我看来最重要的一个,是能够让我们更深入地理解智能这件事的本质。

神经网络和机器学习在过去十年里跃进式的发展,确实让 AI 做到了很多之前仅仅有人脑才干做到的事。但这并不意味着 AI 的思维方式接近了人类。并且吊诡的是,AI 在计算能力上的巨大进步。反而掩盖了它在学习人类思维方式上的短板。

以 AlphaGo 为例。

和国际象棋中的深蓝系统相比,AlphaGo 已经和人类接近了很多。深蓝仍然依赖于人类外部定义的价值函数,所以本质上仅仅是个高效计算器。但 AlphaGo 的价值推断是自我习得的,这就有了人的影子。然而如前所述。AlphaGo 的进步依赖于海量的自我对局数目,这当然是它的好处,但也恰好说明它并未真正掌握人类的学习能力。

一个人类棋手一生至多下几千局棋,就能掌握 AlphaGo 在几百万局棋中所训练出的推断力,这足以说明,人类学习过程中还有某种本质是临时还无法用当前的神经网络程序来刻画的。

(顺便提一句,非常多评论觉得 AlphaGo 能够通过观察一个特定棋手的对局来了解他的棋风以做出相应的对策。

至少从论文来看,这差点儿确定是不可能的事。

一个棋手的对局数对 AlphaGo 来说实在太少,无从对神经网络构成有效的训练。观察和总结一个人的「棋风」这件事仍然是人类具有全然优势的能力,对电脑来说。这恐怕比赢棋本身还更难一些。)

这当然不是说。AlphaGo 应该试图去复刻一个人类棋手的大脑。可是 AlphaGo 的意义当然也不应该仅仅反映在它终于的棋力上。

它是怎样成长的?成长曲线具有什么规律?它的不同參数设置怎样影响它的综合能力?这些不同參数是否就相应了不同的棋风和性格?假设有还有一个不同但水平相当的 AI 和它重复对弈。它是否能从对方身上「学到」和自我对弈不同的能力?对这些问题的研究和回答,恐怕比单纯观察它是否有朝一日能够超越人类要告诉我们多得多的知识。

因此。即使 AlphaGo 在三月份战胜了李世乭,在我看来也是还有一扇大门的开启而非关闭。

其实,即使就围棋发展本身而论。假设把 AlphaGo 的两个大脑以如此简单的方式线性耦合起来就能胜过人类,那仅仅能说明人们对围棋的规律还有太多值得探索的空间。

而对人工智能领域来说。AlphaGo 和一切神经网络一样,本质上还仅仅是个大黑盒,我们能观察到它表现出的巨大能力,但对它到底是怎样「思考」的这件事依旧所知甚少。

在project上,这是个伟大的胜利。在科学上,这仅仅是万里长征的第一步而已。

參考资料

AlphaGo 项目主页:http://www.deepmind.com/alpha-go.html

Nature 论文:http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html

Nature 报道:http://www.nature.com/news/google-ai-algorithm-masters-ancient-game-of-go-1.19234

Dan Maas 对论文的浅显总结:http://www.dcine.com/2016/01/28/alphago/

关于程序算法艺术与实践很多其它讨论与交流,敬请关注本博客和新浪微博songzi_tea.

时间: 2024-11-14 13:45:27

关于 AlphaGo 论文的阅读笔记的相关文章

程序算法艺术与实践关于 AlphaGo 论文的阅读笔记

这是Deepmind 公司在2016年1月28日Nature 杂志发表论文 <Mastering the game of Go with deep neural networks and tree search>,介绍了 AlphaGo 程序的细节.本博文是对这篇论文的阅读笔记. AlphaGo 神经网络构成 AlphaGo 总体上由两个神经网络构成,以下我把它们简单称为「两个大脑」,这并非原文中的提法,只是我的一个比喻. 第一个大脑(Policy Network)的作用是在当前局面下判断下一

Google File System 论文阅读笔记

核心目标:Google File System是一个面向密集应用的,可伸缩的大规模分布式文件系统.GFS运行在廉价的设备上,提供给了灾难冗余的能力,为大量客户机提供了高性能的服务. 1.一系列前提 GFS的系统构建针对其自身使用的特点在传统的分布式系统的基础上又进行了一些创新,基于的前提假设主要包括以下方面: 1.由于系统由廉价的商用机构成,组件失效被认为是一种常态,系统必须可以持续监控自身的状态. 2.系统存储以大文件为主,小文件也支持,但是没有进行特别的优化处理. 3.系统的工作负载主要包含

深度学习论文阅读笔记--Deep Learning Face Representation from Predicting 10,000 Classes

来自:CVPR 2014   作者:Yi Sun ,Xiaogang Wang,Xiaoao Tang 题目:Deep Learning Face Representation from Predicting 10,000 Classes 主要内容:通过深度学习来进行图像高级特征表示(DeepID),进而进行人脸的分类. 优点:在人脸验证上面做,可以很好的扩展到其他的应用,并且夸数据库有效性:在数据库中的类别越多时,其泛化能力越强,特征比较少,不像其他特征好几K甚至上M,好的泛化能力+不过拟合于

论文《Chinese Poetry Generation with Recurrent Neural Network》阅读笔记

这篇文章是论文'Chinese Poetry Generation with Recurrent Neural Network'的阅读笔记,这篇论文2014年发表在EMNLP. ABSTRACT 这篇论文提出了一个基于RNN的中国古诗生成模型. PROPOSED METHOD 第一句的生成 第一句的生成是规则式的. 先自定义几个keywords,然后通过<诗学含英>(这是清朝人编写的)扩展出更多的相关短语.然后生成所有满足格式约束(主要是音调方面的)的句子,接下来用一个语言模型排个序,找到最好

ImageNet?Classification?with?Deep?Convolutional?Neural?Networks?阅读笔记 转载

ImageNet Classification with Deep Convolutional Neural Networks 阅读笔记 (2013-07-06 22:16:36) 转载▼ 标签: deep_learning imagenet hinton 分类: 机器学习 (决定以后每读一篇论文,都将笔记记录于博客上.) 这篇发表于NIPS2012的文章,是Hinton与其学生为了回应别人对于deep learning的质疑而将deep learning用于ImageNet(图像识别目前最大的

Hadoop阅读笔记(一)——强大的MapReduce

前言:来园子已经有8个月了,当初入园凭着满腔热血和一脑门子冲动,给自己起了个响亮的旗号“大数据 小世界”,顿时有了种世界都是我的,世界都在我手中的赶脚.可是......时光飞逝,岁月如梭~~~随手一翻自己的博客,可视化已经快占据了半壁江山,思来想去,还是觉得把一直挂在嘴头,放在心头的大数据拿出来说说,哦不,是拿过来学学.入园前期写了有关Nutch和Solr的自己的一些阅读体会和一些尝试,挂着大数据的旗号做着爬虫的买卖.可是,时间在流失,对于大数据的憧憬从未改变,尤其是Hadoop一直让我魂牵梦绕

《构建之法阅读笔记02》

这次主要对<构建之法>的第四章“两人合作”作一次阅读笔记. 首先是代码规范问题. 我过去对于代码规范问题并没有做到注意.在编程中,许多变量和函数的命名都非常的简单而没有实际的意义.而且编程时不注意对齐缩进.很多时候也不加注释,导致对这些简单的变量名称不熟悉. 这样做会使得很多人读代码费劲,甚至是自己都要花时间再次阅读懂自己的代码.而且很多没必要的注释也会使得注释失去意义.当自己再次在原基础上编程时,可能要重新编程等问题. 因此,通过阅读“代码规范”,我找到一些解决方法.代码的风格要简明.易读.

《代码阅读方法与实践》阅读笔记之二

时间过得真快,一转眼,10天就过去了,感觉上次写阅读笔记的场景仿佛还历历在目.<代码阅读方法与实践>这本书真的很难写笔记,本来我看这本书的名字还以为书里大概写的都是些代码阅读的简易方法,心想着这就好写笔记了,没想到竟然好多都是我们之前学过的东西,这倒让我有点无从下手了.大概像我们这些还没有太多经历的大学生,总是习惯于尽量避免自己的工作量,总是试图找到一些完成事情的捷径吧.总之,尽管我不想承认,但我自己心里很清楚,我就是这种人.下面开始言归正传,说说接下来的几章内容归纳. 这本书在前面已经分析了

《大道至简》阅读笔记1

<大道至简>阅读笔记1 不知不觉间看完了第一章,从这个章节里我看到了一些我们都明白可是却自己很难做到的道理. 书中从愚公移山的故事和编程相结合给出了编程的精义就是顺序.分支.循环,这些都是我们所熟悉的,也是老师在教学中耳提面命的,可是我们又有几个人能做到呢. 我们总是在找着各种各样的学不好学不会理由,“它太难了”,“我太笨了”,认真的想一想难道真的是它太难了或者是自己太笨了么?不,答案是否定的,追根究底是懒惰,是没能坚持.从根本上来说,不存在会不会写程序的问题,除了先天智障和后天懒惰者,这要你