购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

人类的反击

第三局比赛在3月12日星期六举行,李世石有一天的时间可以用来休息、恢复状态。第一局比赛进行了三个多小时,第二局进行了四个多小时。在这方面,人与机器毕竟不同,人需要休息,而机器是不需要的。连续的两场败局无疑给李世石带来了很大的精神压力和挫败感。

然而,李世石并没有躺下来睡大觉,而是与一群职业棋手分析和探讨此前两场比赛中失利的原因,这场讨论一直持续到次日清晨6点。AlphaGo有弱点可以利用吗?李世石认为不只机器可以学习和进化,人也可以从失败中学到一些东西。

第三局比赛开局时,李世石非常强势,并取得了不错的战果。在他凌厉的棋势下,AlphaGo只能被驱赶,被压迫在一小片区域内。这种一边倒的局面使得评论员都开始兴奋了起来,有人直接表示李世石已经发现了AlphaGo的弱点。但在后来,局势出人意料地急转直下,一位评论员回忆道:“形势急转直下,眼睁睁地看着所发生的一切,让我深感不适……”当李世石把AlphaGo逼到绝境,AlphaGo的巨大潜力似乎被激发出来了。随着比赛的进行,AlphaGo开始采用被评论员称为怠惰走法(lazy moves)的策略。通过分析,AlphaGo确信自己最终可以获胜,正因为如此,它选择了这种安全的策略。它并不关心能赢多少目,重要的是它最终一定会赢。这种耍赖一样的怠惰走法可能对李世石来说有些冒犯,但AlphaGo这种做法并没有任何挟私报复的性质。它这样做只是单纯地为了赢棋。李世石不想就此认输,他在棋盘上坚持应对着,觉得也许在这些怠惰走法中还有可乘之机。

但在第176手后,李世石还是投子认输了,AlphaGo以3:0战胜了人类。不过在后台,DeepMind团队的成员却产生了异样的情绪:虽说他们已经赢得了比赛,但他们看到的AlphaGo对李世石造成的巨大影响使他们很难高兴起来。百万奖金很显然已是他们的囊中之物,在比赛之前DeepMind团队就已经达成共识,如果能赢得这笔奖金,就将它捐赠给致力于推广围棋和科学研究的项目以及联合国儿童基金会等慈善机构,但人类的思维和逻辑让他们对李世石的痛苦产生了同情。

AlphaGo获胜后没有任何情绪反应,不会产生任何小小的电流波动,更不会显示出一段代码或是大叫一声“爽!”。机器的这种“镇定”给人带来希望的同时,也让我们为将来感到忧心。带来希望,是因为正是人类的这种情绪反应激励着我们去探索未知、开创未来,毕竟还是人类给AlphaGo编写了制胜的代码。感到忧心,是因为机器太过“冷漠”,它根本就不关心事情发展的最终结局是不是程序编写者所期望的。

李世石被三连败的事实打击得有些恍惚,他在新闻发布会上道歉说:

不知该如何开口,也不知道今天要说些什么,我必须为辜负了大家的期望表达歉意。我应该在比赛中表现得更好,我尽力了,但我还是体会到了深深的无力感。

同时,他也呼吁大家继续关注后续的两场比赛,他现在的目标是至少为人类扳回一局。

连输三局,整个比赛的胜负已定。李世石在第四局时似乎卸下了沉重的思想包袱,放松了许多,这样反而使他能够更专注于比赛本身。在第四局中,与第三局慎之又慎的行棋风格形成鲜明对比的是,李世石采用了一种更为激进、极端的“先捞后洗”(amashi)的策略。一位评论员将这种冒险的行为比作:一位金融家,不想通过日积月累的小收益来积累财富,而是激进地将整个银行作为赌注押了出去。

李世石和他的团队在星期六晚上通宵达旦,试图通过逆向工程的方法掌握AlphaGo的下棋思路。他们发现AlphaGo似乎遵循着逐步增加获胜概率并去调整落子的原则,而不是押注于复杂的单一走法。在第三局中,李世石就亲身体验了AlphaGo的怠惰走法。他们针对这个特点制定了应对策略,通过一着险棋来扰乱AlphaGo的策略:“胜负手”(all-or-nothing)策略可能会让AlphaGo更难轻易得分。

AlphaGo似乎对这种策略毫不在意。比赛进行到第70手时,评论员开始觉察到AlphaGo再次占据了上风——当AlphaGo的棋路开始变得保守,频频使用怠惰走法时,就标志着AlphaGo已经确认自己领先了。李世石必须要做点什么了,否则很难扭转乾坤。

如果说第二局对弈的第37手是AlphaGo的神来一笔,那么第四局的第78手就是李世石的逆袭大招。当他盯着棋盘审时度势了30分钟后,突然在看似不寻常的一处落下白子,刚好在AlphaGo的两个黑子之间。当时在YouTube上发表评论的迈克尔·雷德蒙德(Michael Redmond)说道:“这一步让我感到意外,我相信大多数人,包括AlphaGo,都会觉得措手不及。”

AlphaGo确实有些无措,下了一步莫名其妙的棋作为回应。又经过了几手棋,AlphaGo就发现自己败局已定。紧盯着电脑屏幕的DeepMind团队发觉他们的程序在第78手时就开始失控了。之后,AlphaGo已经彻底崩溃,所以下了一连串的昏招。这显然是围棋程序的另一特点:当它意识到自己失败后,会做出一些令人费解的疯狂行为。

西尔弗看到AlphaGo的表现后说道:“我觉得大家看到这一幕会感到很搞笑!”果不其然,韩国的评论员们开始嘲笑AlphaGo的混乱状态。很显然,AlphaGo的行为没有通过图灵测试,因为任何一个具有战略眼光的人都不会做出那样的决策。当下到第180手时,AlphaGo在电脑屏幕上表示投子认输。新闻演播室里爆发出雷鸣的掌声。

人类终于扳回一局,3:1!当晚的新闻发布会上,李世石的笑容说明了一切:“这场胜利是如此的珍贵,世界上的任何东西都无法替代。”伴随着媒体的欢呼,他高声说道:“我能取得这局对弈的胜利是因为你们所有人给我的欢呼和鼓励。”

当时,在中国评论这次比赛的古力称赞道:“李世石的第78手实乃‘上帝之手’。”那一步棋打破了传统棋路,是为整局比赛带来深远影响的关键所在。这是真正的人类创造力的体现,也是博登变革性创造力的一个极好的典范。不破不立,当你突破原有系统的束缚时,你的创意就会层出不穷。

哈萨比斯和西尔弗在新闻发布会上表示无法解释AlphaGo失利的原因,他们需要回去好好分析——为什么它在应对李世石第78手时会走出如此糟糕的一系列昏招。事实上,AlphaGo与人类对弈的历史经验让它完全摒弃了某些思考。根据它的评估,那种下法只有万分之一的可能性会出现。它似乎没有认真考虑去学习如何应对那种下法,所以就不自觉地优先考虑了应对其他下法的可能性。

如果李世石有足够长的时间深入了解对手,那么他在比赛中战胜AlphaGo的可能性或许会增大。他能在第五局比赛中保持获胜的势头吗?同样是输掉比赛,3:2还是4:1的结果大不相同。最后一局意义非凡,如果李世石能拿下第五局的胜利,那么他将在人们的心中播下对“AlphaGo绝对优势”怀疑的种子。

经此一役,AlphaGo也收获颇丰。现在就算李世石在第10 000手下出违反常规的怪招,它也不会再想着侥幸过关了。这就是算法的强大之处:从错误中吸取教训,进而反败为胜。

但这并不意味着AlphaGo不会再犯新的错误。随着第五局棋的进行,AlphaGo似乎放弃了一套针对特定布局的标准下法。正如哈萨比斯在后台所讲到的:AlphaGo在开局之初犯了一个错误(因为它并不知道围棋中有一个著名的“手筋” ),但现在它正在努力地改正,亡羊补牢。

开局时李世石处于主动,之后AlphaGo渐渐地挽回了颓势。比赛非常激烈,直到比赛结束之前,DeepMind团队也还不清楚AlphaGo是否获胜了。历时5个小时的人机大战,在第281手棋时分出了胜负,李世石中盘认输。这一次后台一片欢呼,DeepMind团队击掌相庆,哈萨比斯激动地握紧拳头挥向空中以庆祝胜利。李世石在第四局的获胜重新激起了他们的斗志,对他们来说赢得最后一局尤为重要。

回顾此次人机对弈,很多人都意识到了它非凡的意义。一些人立即发表了评论:“这是人工智能的重要转折点!”从表面上看,AlphaGo所能做的仅仅是下围棋,但实际上,它的学习和适应能力才是最值得人类关注的一种全新的东西。哈萨比斯在赢得首局胜利后就曾发表Twitter消息:“AlphaGo赢了!我们成功地把它降落在了月球表面。”这是一个很好的比喻,登月并没有产生关于宇宙的非凡的新突破,但却意味着我们为实现这一壮举而开发的技术产生了非凡的新突破。赛后,韩国围棋协会授予AlphaGo荣誉九段称号,这是围棋选手所能获得的最高荣誉。 KyNgqJEPgMh+8EcWt/rBG4u/guY22HegiaiXEuoj+vWkhVNft7UFdOx7dz2LZYBp

点击中间区域
呼出菜单
上一章
目录
下一章
×