退役赛的最后一局,李世石回到了自己的家乡。对战之地距离李世石的出生地飞禽岛 40 多公里,他曾在飞禽岛度过了他的童年时光,也是在这里决定成为职业围棋选手。
12 月 21 日,全罗道新安郡曾岛 EI dorado 度假村,李世石在第 181 手投子认输。这是与 Handol 退役赛对战的最后一局,<strong>前两局,李世石一胜一负。最后一盘棋,还是惜败于 AI。</strong>12 岁入段,36 岁正式退役,24 年揽获 14 项国际项冠军和 32 项国内冠军,从此以后,「李世石九段」不会再以职业棋手的身份出现在众人面前。
11 月 19 日,李世石向韩国棋院正式递交辞呈,宣告了自己 24 年职业围棋生涯的结束。
在接受韩联社采访时,他表示自己之所以选择退役,是因为「AI 不可战胜」:「在围棋 AI 出现以后,我发觉即使自己成为第一名,也永远需要面对一个不可战胜的实体。」
李世石曾经的对手,曾经「绝代双骄」的另一人——中国围棋职业选手古力九段在得知这一消息之后,在社交平台上公开表示:「此刻只想给他一个大大的拥抱。」
当很多人都以为李世石的最后一战会选择与古力对决时,李世石却选了韩国围棋 AI「Handol」,理由是担心「最后和他下棋的人会有负担」。
这是他自从 2016 年负于 AlphaGo 之后,再一次对战围棋 AI,也是人类棋手第一次与 AI 下升降三番棋。
一直以来,人们都认为顶尖人类棋手与 AI 之间的差距在二子到三子之间,但由于从来没有进行过正式比赛的对局,所以真正差距无从得知。李世石提到,自己最终选择下升降棋,也是想确认人类和人工智能之间的差距到底有多少。在对战 Handol 之前,李世石说自己已经有大概 5 个月的时间没有参加过比赛,也几乎没有进行过围棋训练。
<strong>北京时间 12 月 18 日 12 时,李世石与 Handol 开始第一局对弈。</strong>李世石执黑被让两子,按 7 目半还子。前半盘黑棋先拿到右上角实地,胜率一直保持在 80% 以上。随后白棋开始反击,直到第 78 手之前,胜率一直处于上升阶段。
转折点出现在李世石的第 78 手(值得一提的是,李世石当年对战 AlphaGo 获胜的唯一一局,胜负手同样是第 78 手)。黑棋吃掉白棋棋筋,加之 Handol 在第 84 手征子失误,只得在第 92 手时投子认输。
这场比赛仅用两小时就分出了胜负, 在 100 手以内即告结束。尽管李世石表示赛前曾连续练习了十天的被让两子棋,「几乎醒着的时候都在练棋」,但他也表示未能料到自己会在与 AI 的对决中获胜。
<strong> 12 月 19 日,第二局。</strong>由于李世石在第一局比赛中获胜,第二局 Handol 不再让子,李世石仍然执黑先行。
这一局,李世石在第 31 手出现误判,而后白棋的胜率预测一直保持在 90% 以上,到了第 40 手以后,胜负已经基本明朗。
最终李世石在第 122 步认输。这一局时长 3 小时 20 分钟,至此,李世石与 Handol1:1 战平,而剩下的最后一局尤为关键。
人类再次在围棋「人机大战」中取得了一场胜利。谷歌 DeepMind 资深研究员、ALphaGo 主要程序开发者黄士杰曾在看完前两盘对决之后表示,如果再有两年的算法更新和优化,AlphaGo Master 将会是最强的棋手。但 AI 要做到万无一失,仍需要解决 bug 问题。
<strong>12 月 21 日,最后一局的赛场转移到了李世石的家乡全罗道新安郡。</strong>这一场李世石依然受两子执黑挑战 AI,黑棋贴目 7 目半。人类与 AI 在棋盘右下角展开激战。
在最后一局中,Handol 解除了大部分限制,在每一步上花费了更多「思考」时间。AI 执白在右下角存活之后,逐渐将胜率从 20% 扳至五五开,李世石的思考时间则逐渐用尽。
下午 2 时 50 分左右,李世石进入读秒,此时白棋已在右侧和左上成活,李世石试图通过打劫寻找 AI 的破绽。但李世石的努力并没有扭转颓势,在弈至 159 手时,AI 判断李世石的胜率降到 5%。
最终,在行至 181 手时,李世石投子认负。这是三局之中最漫长的一局,双方对弈超过四小时。
赛后,李世石在接受采访时表示:「这场比赛中,Handol 的表现与前几场类似,如果自己能够再谨慎一点,或许比赛的结果会有所不同。」对于退役后的工作,李世石还没有做出选择。
<strong> 二、棋坛再无「李世石九段」</strong>
李世石的退役消息来得突然,但也算早有苗头。今年 3 月份,李世石在「三一运动一百周年纪念对局」中败于柯洁之后,即透露过自身想要「在一年之内」退役的想法。
除了没有信心战胜 AI,李世石的退役似乎也和自己与韩国棋院之间的矛盾分不开。在韩国棋院的 24 年中,李世石曾提交过休职申请,也强行退出过棋士会,特立独行的处事方式与其在棋盘上的风格如出一辙。
李世石 1983 年出生在距离全罗南道新安郡的飞禽岛,爱好围棋的父亲是李世石的第一任导师。6 岁开始接触围棋的李世石是兄弟姐妹中年龄最小的一个,但也是天赋最高的一个。9 岁时,因大哥李相勋成功入段,父亲终于也下定决心将李世石送到有「韩国围棋山脉」之称的首尔权甲龙围棋道场学棋。
3 年零 6 个月后,年仅 12 岁的李世石成功入段,从此在韩国棋院开始了职业围棋生涯。24 年来,李世石已经获得了 14 个国际比赛冠军,32 次国内比赛冠军,皆仅次于李昌镐,高居历史第二。
2000 年,当时的「李世石三段」在巴斯卡杯天元战和倍达王战中击败柳才馨九段和刘昌赫九段,连获两个冠军,成为围棋史上成就最高的「三段」选手。但他却拒绝参加升段赛,声称「段位并不能体现实力」。为此,韩国棋界不得不废除了升段赛,改以成绩定段位。2001 年,李世石在获得第五届 LG 杯世界棋王赛亚军后升至七段,2003 年获 LG 世界棋王战冠军,直升九段。
李世石的围棋生涯中曾有一次「妥协」的退役风波,2009 年 6 月,李世石曾向韩国棋院提交过休职书,称因「韩国棋院对棋手不合理的约束」而身心疲惫,计划从当日起休职到 2010 年底。半年后,李世石复职,但桀骜不驯的性格并未改变。2016 年,李世石又与哥哥李相勋一起,因韩国棋院「克扣奖金」的原因退出了棋士会。
尽管在围棋上已经登峰造极,真正让李世石名声大噪的还是与 AlphaGo 的「人机大战」。
李世石在 2016 年 3 月与 AlphaGo 的一番激战,被认为是人工智能历史上的一次里程碑事件——虽然李世石以 1:4 的比分落败,但在比赛的第四局,李世石的惊天翻盘却让他成为了迄今为止唯一一个战胜过 AlphaGo 的棋手。<strong>他在第 78 手出人预料的一挤,让 AlphaGo 后续的反应出现失常,彻底改变了战局</strong>——这与此次在第一局中战胜 Handol 的场面何其相似。
李世石面对 AlphaGo 的那一次胜利,曾经为人类战胜人工智能带来了一线希望,但后来李世石将胜利归功于 AlphaGo 程序的缺陷。「我的第 78 手并不应该用直接的方式应对。」
当然,这样的 bug 不止存在于 AlphaGo。李世石曾说:「在腾讯『绝艺』中,这样的 bug 至今仍然会出现。即使现在的绝艺已经可以做到让人类两子胜利了,但它仍然会以奇怪的方式输掉比赛,这是因为一个 bug 所致。」
在前三场比赛输给 AlphaGo 之后,他曾感到相当沮丧。「我很少看网上对我的评论,但是输给了阿尔法狗以后,我很好奇大家怎么看我。意外的是,很少有人批评我。」
<strong>四、人类真的永远不会再战胜 AI?</strong>
这一次对战 Handol,李世石赚了 2 亿韩元(约合 121 万元人民币),包括 1 亿 5000 万韩元的基本出场费,每胜一局额外获得 5000 万韩元的奖金。
自从 2016 年 AlphaGo 大战李世石之后,围棋 AI 即被推上风口浪尖。基于近年以来深度学习和强化学习的发展,AlphaGo 和各类围棋 AI 的不断升级,人们一度认为,人类再不可能战胜 AI。
Handol 是韩国 NHN 娱乐公司推出的一款围棋 AI,用以训练的数据来自 1999 年以来 NHN 公司在游戏业务方面的大量积累。与 AlphaGo 的进化路线相似,2017 年 12 月,Handol1.0 出世,当时已拥有人类职业棋手 9 段棋力,可以实现在人类棋谱及既定模式的基础上对棋局进行预测,到了 Handol 2.0 已经能够脱离棋谱,自己与自己下棋。在 NHN 看来,Handol2.1 的实力已经超越了当初对战李世石的 AlphaGo。
2019 年 1 月,Handol 连续战胜了申旻埈九段、李东勋九段、金智硕九段、朴正焕九段和申真瑞九段五位韩国顶级围棋选手,8 月在山东举行的「中信证券杯」世界智能围棋公开赛中,Handol 也捧回了季军奖杯。
在「Handol」首局落败之后,NHN 公司人工智能项目的负责人李昌律推测称,「输掉这一局的原因 kennel 在于「Handol」总体学习量尚且不足,缺少对开局让两子和让三子等棋局的学习」。
据「Handol」研发团队估算,<strong>「Handol」的棋力水平相当于世界围棋中的 4500 积分</strong>,而目前李世石的积分为 3414 分,柯洁、朴廷桓等人类顶尖棋手的积分接近 3700 分。
在围棋 AI 领域,棋力最高的选手仍然是 DeepMind 公司的 AlphaGo,它也是第一个击败人类围棋世界冠军的人工智能程序。在 2017 年柯洁与 AlphaGo 对战之后,David Silver、谷歌大脑负责人 Jeff Dean 等人曾在乌镇围棋峰会现场对 AlphaGo 背后的技术进行过解读。
AlphaGo 最初主要是依靠大量学习人类棋手的棋谱来提高棋艺,之后进入到完全的自我深度学习阶段,也就是完全摒弃人类棋手的思维方式,按照自己(左右互搏)的方式研究围棋。结合监督学习与强化学习的优势,AlphaGo 通过训练形成一个策略网络,将棋盘上的局势作为输入信息,并对有所可行的落子位置形成一个概率分布。然后训练一个价值网络对自我对弈进行预测,以-1(对手的绝对胜利)到 1(AlphaGo 的绝对胜利)的标准,预测所有可行落子位置的结果。
AlphaGo 真正的优势来源于将策略网络和价值网络整合进基于概率的蒙特卡罗树搜索(MCTS)中。在获取棋局信息后,AlphaGo 会根据策略网络探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中被系统最繁琐考察的位置将成为 AlphaGo 的最终选择。经过先期的全盘探索和过程中对最佳落子的不断揣摩,AlphaGo 的探索算法就能在其计算能力之上加入近似人类的直觉判断。2016 年 1 月 28 日,<strong>击败李世石的 AlphaGo 版本登上《Nature》封面</strong>,随后在 3 月即 4:1 击败李世石,名声大振。
和人类不同,AlphaGo 没有先入为主的概念,这恰恰也是所有围棋 AI 的优势所在:尽管有时 AI 的落子显得违反直觉,但确实是最合理的。
乌镇之后,DeepMind 宣布 AlphaGo 从此不会再参与比赛,但在几个月后推出了更强版本的围棋 AI「AlphaGo Zero」。如果说 AlphaGo 版本最初还需要观察数千场人类围棋比赛来训练如何学习围棋,AlphaGo Zero 则直接跳过这一步,从自己完全随机的下围棋开始来学习围棋,几天之内即超越人类棋手的水平,并且以 100:0 的比分打败了之前战胜世界冠军的 AlphaGo。
早期的 AlphaGo 使用「决策网络」选择下一步棋的位置,使用「价值网络」预测每一个位置上决定的胜者。这两个网络在 AlphaGo Zero 中被结合起来,从而使其更高效地训练和评估赛况。并且,AlphaGo Zero 版本只需 4 块 TPU 即可运行。
上个月,DeepMind 又推出了名为 MuZero 的「通用版」AlphaGo,在国际象棋、日本将棋和围棋的精确规划任务中可以匹敌 Alpha Zero,在围棋中甚至超过了 Alpha Zero。但与前辈不同的是,MuZero 不需要提前获知规则。
在围棋 AI 领域,国内研究机构和企业也在发力,其中最有代表性的要数上文中李世石提到的腾讯围棋 AI「绝艺」。「绝艺」诞生于 2016 年,实力或仅次于 AlphaGo。
「绝艺」的训练主要包括人类棋谱数据库和机器自对弈,它的算法基于策略网络与价值网络两大核心,并创新性地大幅提升了价值网络的精度,使其大局观表现更好。在 2018 腾讯世界人工智能围棋大赛中,「绝艺」在决赛中 7:0 大胜另一款围棋 AI「星阵」夺冠,半决赛五番棋和决赛七番棋不失一局,赛后「星阵」研发团队亦称赞「绝艺」已经「达到了 AlphaGo 的水准」。
虽然在围棋的算力上,人类已经难以与机器相比,但棋手们可以通过与 AI 的对弈不断提升自己的水平,甚至发展出更为先进的战术。据古力此前透露,「绝艺」已经成为中国国家围棋队训练专用 AI。
原文地址:https://blog.51cto.com/13450928/2460771