我永远不会忘记人工智能对我而言变得真实的那一刻。它不再仅仅是一个闲聊的话题或工程领域的憧憬,而是现实。
那一刻发生在2012年的一天,DeepMind位于伦敦布卢姆斯伯里的第一个办公室里。在成立DeepMind公司并获得初始资金后,我们花了几年时间秘密专注于通用人工智能的研究与工程开发。通用人工智能中的“通用”指的是这项技术预期覆盖的范围广阔;我们想构建真正通用的学习代理,使其可以在大多数认知任务上的表现超越人类。随着DQN(深度Q网络)算法的开发取得成功,我们低调隐秘的工作方式也发生了变化。团队成员训练DQN算法,让它挑战一系列经典的雅达利游戏。更确切地说,我们训练它自己学习如何玩游戏。这种自主学习的特质是我们的系统与以往的工作的关键不同所在,它也首次让我们看到了实现最终目标的希望。
起初,DQN表现得很糟糕,似乎学不会任何东西。然而,2012年秋天的一个下午,事情出现了转机。我们DeepMind的一小群人围在一台机器旁,观看DQN学习《打砖块》游戏的训练过程回放。在这个游戏中,玩家需要控制屏幕底部的挡板,将球弹起以击落上方一排排的彩色砖块,击落越多,得分越高。我们仅向DQN提供了原始像素信息(逐帧)以及得分,让它学习像素与挡板左右移动控制动作之间的联系。起初,算法只能通过随机探索来改善自身表现,直到它偶然发现了一种奖励机制。经过反复试错,DQN终于学会了如何控制挡板,使球来回反弹并击落一排排砖块。这令人印象深刻。
然后,出现了让人惊叹的一幕。DQN似乎找到了一种新的、非常巧妙的策略。它不再按照常规方式一排排地击落砖块,而是开始瞄准某一列的砖块,打通了一条通往砖块堆后方的路径。它一路“挖凿”到了顶部,创建了一条高效的路径,使球能从后墙反弹,稳稳地摧毁整个砖块堆,就像弹珠机里的疯狂弹珠一样。这种方法以最小的努力获得了最高的分数。这是一个不可思议的策略,虽然游戏的资深玩家可能知道,但它绝非显而易见。我们亲眼见证了算法自己学会新东西,那一刻我彻底震惊了。
我第一次目睹了一个非常简约且高效的系统,它能够学习有价值的知识,学会了一种可以说对许多人来说并不容易想到的策略。那是一个令人振奋的时刻,一个突破性的时刻。那个人工智能代理已经展现出了发现新知识的早期迹象。
起初,DQN的表现并不理想,但经过数月的调试,其算法性能已超越人类。这样的结果正是我们创办DeepMind的初衷所在,它充分展现了人工智能的潜能。既然人工智能能够发现上述案例中的“挖凿”这样一个巧妙的策略,那么它还能学习些什么?我们能否利用这种新力量,为我们的物种提供新知识、新发明和新技术,从而帮助解决21世纪最棘手的社会问题?
DQN对我、DeepMind乃至整个人工智能界来说都是一个巨大的进步,但公众对此的反应相当平淡。人工智能依旧是一个边缘话题和边缘研究领域。但是,就在接下来短短几年内,随着新一代人工智能技术在世界舞台上崭露头角,一切都将发生改变。