购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

AlphaGo与未来之始

围棋是一项起源于中国的古老棋类游戏,两位对弈者在19×19的棋盘上分别执黑、白棋子进行对局,目标是用自己的棋子包围对方的棋子,当对方的棋子被完全包围时,这些棋子就会被拿走。这大致就是围棋的基本规则。

尽管围棋的规则相对简洁,但其复杂性让人惊叹。与国际象棋相比,围棋要复杂得多。在国际象棋中进行了三对步(也就是双方各自移动三步)后,棋盘上就可能出现约1.21亿种不同的布局。 1 但在围棋里,同样进行三对步后,可能的布局数量高达惊人的2 000万亿(2×10 15 )。总体而言,围棋棋盘上的布局可能性达到了令人难以想象的10 170 种。 2

人们常说,围棋棋盘上的布局可能性之多,甚至超过了已知宇宙中的原子数量。面对如此浩瀚的可能性,传统方法显得束手无策。1997年,IBM的“深蓝”计算机凭借“暴力破解”方法在国际象棋比赛中战胜了加里·卡斯帕罗夫。然而,这种通过算法系统计算尽可能多的潜在走法的策略,在围棋这样分支繁多的游戏中无济于事。

当我们于2015年开始研究围棋时,大多数人都觉得开发一个世界冠军级别的围棋程序还需要好几十年。谷歌的联合创始人谢尔盖·布林鼓励我们去攻克这项任务,他认为任何进展都将是难能可贵的。AlphaGo最初是通过观摩人类专家对弈的15万场比赛进行学习的。在我们对它的初步表现感到满意后,接下来的关键一步就是创建大量的AlphaGo副本,让它们自己反复对弈。这样一来,该算法就能模拟出数百万场新对弈,尝试以前从未走过的棋局组合,有效地探索出大量可能性,并在这个过程中学习新策略。

后来,在2016年3月,我们在韩国举办了一场锦标赛,由AlphaGo对阵技艺精湛的世界冠军李世石。比赛结果充满悬念。开赛前,大多数评论员都看好李世石。然而,AlphaGo却赢得了第一局比赛,这让我们又惊又喜。到了第二局,AlphaGo下出了人工智能和围棋史上都堪称著名的第37步。那步棋令人费解。看起来,AlphaGo像是犯了个大错,盲目地采取了一种职业棋手绝不会选择的、几乎注定要失败的策略。现场两位解说员都是最高级别的专业人士,他们评价那步棋“异常古怪”,认为是个“错误”。那步棋实在太不寻常,以致李世石过了整整15分钟才做出回应,其间他甚至起身离开棋盘,出去散了会儿步。

我们在控制室里观看比赛,紧张到了极点。然而,随着比赛接近尾声,大家才意识到那步“错”棋竟成了制胜的关键。AlphaGo再次获胜。围棋策略就在我们眼前被改写了。我们的人工智能发现了数千年来最杰出的棋手都未曾想到的策略。在短短几个月内,我们的算法就通过训练发掘了新知识,展现出了似乎超越人类的洞察力。这不禁让人思考:我们如何能将这种技术推向更高层次?它能用于解决现实世界的问题吗?

AlphaGo最终以4∶1战胜了李世石。但这仅仅是开始。随后的软件版本,如AlphaZero,完全摒弃了对现有人类知识的参考,系统只是简单地自我训练,与自己进行数百万次对弈。在没有接受任何现有人类玩家的智慧输入的情况下,它从零开始学习,最终却达到了超越原始AlphaGo的表现。简言之,AlphaZero仅通过一天的训练,就能够掌握比整个人类经验所能传授给它的更多的围棋知识。

AlphaGo的胜利,预示着人工智能新时代的到来。与DQN时期的做法不同,我们向数百万人直播了这一次的比赛。在公众的密切关注下,我们的团队走出了曾被称为“人工智能寒冬”的困境,那是一个资金短缺、整个领域备受冷落的时期。AlphaGo的胜利表明,人工智能已经回归,并开始取得实质性的成果。又一次,席卷全球的技术变革即将来临,一场新的浪潮已经开始涌动,而这仅仅是个开始。 cWGZtJNNo8QlTQaTYKuY2Ml19aGA428wjDPtou4FKe7pX29dQsd/U/XmCc+1V/Dl

点击中间区域
呼出菜单
上一章
目录
下一章
×