浪潮将至最新章节_穆斯塔法·苏莱曼著

AlphaGo与未来之始

围棋是一项起源于中国的古老棋类游戏，两位对弈者在19×19的棋盘上分别执黑、白棋子进行对局，目标是用自己的棋子包围对方的棋子，当对方的棋子被完全包围时，这些棋子就会被拿走。这大致就是围棋的基本规则。

尽管围棋的规则相对简洁，但其复杂性让人惊叹。与国际象棋相比，围棋要复杂得多。在国际象棋中进行了三对步（也就是双方各自移动三步）后，棋盘上就可能出现约1.21亿种不同的布局。 1 但在围棋里，同样进行三对步后，可能的布局数量高达惊人的2 000万亿（2×10 15 ）。总体而言，围棋棋盘上的布局可能性达到了令人难以想象的10 170 种。 2

人们常说，围棋棋盘上的布局可能性之多，甚至超过了已知宇宙中的原子数量。面对如此浩瀚的可能性，传统方法显得束手无策。1997年，IBM的“深蓝”计算机凭借“暴力破解”方法在国际象棋比赛中战胜了加里·卡斯帕罗夫。然而，这种通过算法系统计算尽可能多的潜在走法的策略，在围棋这样分支繁多的游戏中无济于事。

当我们于2015年开始研究围棋时，大多数人都觉得开发一个世界冠军级别的围棋程序还需要好几十年。谷歌的联合创始人谢尔盖·布林鼓励我们去攻克这项任务，他认为任何进展都将是难能可贵的。AlphaGo最初是通过观摩人类专家对弈的15万场比赛进行学习的。在我们对它的初步表现感到满意后，接下来的关键一步就是创建大量的AlphaGo副本，让它们自己反复对弈。这样一来，该算法就能模拟出数百万场新对弈，尝试以前从未走过的棋局组合，有效地探索出大量可能性，并在这个过程中学习新策略。

后来，在2016年3月，我们在韩国举办了一场锦标赛，由AlphaGo对阵技艺精湛的世界冠军李世石。比赛结果充满悬念。开赛前，大多数评论员都看好李世石。然而，AlphaGo却赢得了第一局比赛，这让我们又惊又喜。到了第二局，AlphaGo下出了人工智能和围棋史上都堪称著名的第37步。那步棋令人费解。看起来，AlphaGo像是犯了个大错，盲目地采取了一种职业棋手绝不会选择的、几乎注定要失败的策略。现场两位解说员都是最高级别的专业人士，他们评价那步棋“异常古怪”，认为是个“错误”。那步棋实在太不寻常，以致李世石过了整整15分钟才做出回应，其间他甚至起身离开棋盘，出去散了会儿步。

我们在控制室里观看比赛，紧张到了极点。然而，随着比赛接近尾声，大家才意识到那步“错”棋竟成了制胜的关键。AlphaGo再次获胜。围棋策略就在我们眼前被改写了。我们的人工智能发现了数千年来最杰出的棋手都未曾想到的策略。在短短几个月内，我们的算法就通过训练发掘了新知识，展现出了似乎超越人类的洞察力。这不禁让人思考：我们如何能将这种技术推向更高层次？它能用于解决现实世界的问题吗？

AlphaGo最终以4∶1战胜了李世石。但这仅仅是开始。随后的软件版本，如AlphaZero，完全摒弃了对现有人类知识的参考，系统只是简单地自我训练，与自己进行数百万次对弈。在没有接受任何现有人类玩家的智慧输入的情况下，它从零开始学习，最终却达到了超越原始AlphaGo的表现。简言之，AlphaZero仅通过一天的训练，就能够掌握比整个人类经验所能传授给它的更多的围棋知识。

AlphaGo的胜利，预示着人工智能新时代的到来。与DQN时期的做法不同，我们向数百万人直播了这一次的比赛。在公众的密切关注下，我们的团队走出了曾被称为“人工智能寒冬”的困境，那是一个资金短缺、整个领域备受冷落的时期。AlphaGo的胜利表明，人工智能已经回归，并开始取得实质性的成果。又一次，席卷全球的技术变革即将来临，一场新的浪潮已经开始涌动，而这仅仅是个开始。