引言

创造具有人类智能的机器，是一场重大的智力冒险

计算机似乎正在以惊人的速度变得越来越智能，但它们仍然会干出一些令人觉得颇具讽刺意味的事儿。几年前，我去加利福尼亚州山景城的谷歌全球总部Googleplex参加一个人工智能研讨会，虽然我用了谷歌地图导航，但还是迷路了，而且，我是在谷歌地图的大楼里迷路的，这是多么讽刺。

谷歌地图的大楼很容易找到。一辆谷歌街景车停靠在大楼门前，车顶上伸出来一个巨大的金属支架，上面顶着一个红黑相间的足球形状的摄像头。走进大楼后，我戴着安全部门发给我的十分显眼的“访客”徽章，尴尬地在挤满了谷歌员工的隔间中徘徊，他们中的很多人都戴着耳机，专心致志地在苹果电脑上打着字。凭借楼里的指示牌，我终于找到了分配给这次研讨会使用的会议室，顺利与研讨小组会合了。

2014年5月召开的这次会议由年轻的计算机科学家布雷斯·阿奎拉·阿尔卡斯（Blaise Agüeray Arcas）组织，他那时刚从微软的高层离职，加入谷歌来领导其机器智能方面的工作。谷歌起源于1998年推出的一款“产品”：一个使用一种新颖的、非常成功的网络搜索方法的网站。这么多年过去了，谷歌已经发展成为当今世界上最重要的科技公司之一，推出了大量的产品和服务，包括Gmail、谷歌文档、谷歌翻译、YouTube、Android智能手机操作系统等，还有很多你可能每天都在用的，以及一些你可能从未听说过的产品和服务。

谷歌的创始人拉里·佩奇（Larry Page）和谢尔盖·布林（Sergey Brin）长期以来一直受到“在计算机上创造人工智能”这一理念的激励，人工智能现已成为谷歌重点关注的领域。在过去的10年里，谷歌雇用了大量的人工智能专家，其中最知名的要数雷·库兹韦尔。库兹韦尔是著名的发明家，也是备受争议的未来学家，他提出了人工智能“奇点理论”：在不久的将来，计算机将比人类更智能。谷歌聘请库兹韦尔担任工程总监来帮助实现这一愿景。2011年，谷歌内部创建了一个名为“谷歌大脑”（Google Brain）的人工智能研究小组，此后，谷歌还收购了多家颇有前景的人工智能初创公司，如Applied Semantics、DeepMind和Vision Factory等。

从长远来看，谷歌已不再仅仅是一个门户网站了，它正在迅速成长为一家应用型人工智能公司。人工智能是将谷歌及其各种产品、服务和没有明确目标的研究与其母公司Alphabet联结在一起的黏合剂。公司的最终愿景是“破解智能，并用它来解决其他一切问题” ¹ ，这和DeepMind团队最初的使命一致。

“GEB”开启我的人工智能追寻之旅

能来参加谷歌的人工智能研讨会让我倍感兴奋。从20世纪80年代读研究生开始，我就一直在研究人工智能的诸多方面，并且对谷歌取得的成就尤为印象深刻。虽然我也想为这次会议贡献一些好的想法，但我必须承认，我只是作为随行人员出现在那里。这次会议召开的目的是让一组经过精挑细选的谷歌人工智能研究人员听取侯世达的报告并与之交流。侯世达是人工智能界的传奇人物，也是名著“GEB”的作者。如果你是一名计算机科学家，你很可能听说过、读过“GEB”这本书。

“GEB”成书于20世纪70年代末，是侯世达对诸多学术领域研究热情的流露，汇集了数学、艺术、音乐、语言和文字游戏等诸多领域的知识，旨在探讨智能、意识甚至自我意识这些人类基本技能是如何从非智能、无意识的生物细胞基质中产生的。“GEB”也是一本关于计算机最终将如何获得智能和自我意识的著作，这是一本独一无二的书，我不知道还有哪本书能与之媲美。这本书读起来并不容易，但却成了畅销书，并获得了普利策奖和美国国家图书奖。毫无疑问，“GEB”激励了非常多的年轻人去研究人工智能，这是其他大部分书籍都做不到的，而我，就是那些年轻人当中的一员。

20世纪80年代初，从大学毕业取得了数学学士学位之后，我在纽约市的一所预科学校教数学，但我过得很不开心，因为我一直在苦苦思索自己这一生真正想做的是什么。我是在阅读了《科学美国人》（ Scientific American ）杂志上一篇热情洋溢的评论文章后发现了“GEB”的，然后就立刻去买了这本书。接下来的几个星期里，我便如饥似渴地阅读这本书，越来越确信自己不但想成为一名人工智能的研究人员，而且尤其想与侯世达共事。我从来没有对其他任何一本书或一种职业有过如此强烈的渴望。

当时，侯世达是印第安纳大学计算机科学系的教授，我异想天开的计划是申请那里的计算机科学博士学位，然后说服他接受我做他的学生。然而，有一个“小”问题：我从未上过哪怕一门计算机科学课程。不过，我从小就对计算机非常熟悉。我父亲是20世纪60年代一家科技创业公司的硬件工程师，作为一项业余爱好，他在我们家的书房里组装了一台大型计算机——一台像冰箱一样大的“Sigma 2”机器，上面有一个磁性按钮，写着“我用FORTRAN ⁽⁹⁾ 祈祷”。当我还是个孩子的时候，我半信半疑地以为它确实是在祈祷，尤其是在夜深人静，家人都睡着的时候。20世纪六七十年代，随着我的成长，我对当时流行的各种计算机编程语言都略有了解：先是FORTRAN，然后是BASIC，再然后是Pascal，但我对规范的编程技术几乎一无所知，更不用说那些对即将入学的计算机系研究生来说所必须知道的知识了。

为了加快我的计划，我在学年末辞去了教职，搬到波士顿，开始学习计算机科学的入门课程，来为我的新职业做准备。开始新生活几个月后的某一天，我在麻省理工学院（MIT）的校园里等着上课，无意间瞄到了一张关于侯世达讲座的海报，而且举行时间就在两天后。我简直不敢相信自己的好运。我去听了这场讲座，在一大群崇拜者中排了很长时间的队后，终于和侯世达说上话了。原来他正在麻省理工学院度过他为期一年的学术假期，在这之后他会从印第安纳州搬到密歇根州安娜堡的密歇根大学。

经过不懈的努力，我成功地说服侯世达让我做他的研究助理，先是一个暑假，然后在接下来的6年里，我又成了他的硕士生、博士生，并最终作为密歇根大学的计算机科学博士毕业。这些年来，侯世达和我一直保持着密切的联系，我们曾多次就人工智能进行讨论。他知道我对谷歌的人工智能研究很感兴趣，所以特别好心地邀请我陪同他参加在谷歌举行的会议。

国际象棋和第一颗怀疑的种子

在那个谷歌地图App定位不到的会议室里，有大约20名工程师（包括侯世达和我），大都是来自谷歌各个人工智能团队的成员。会议像往常一样从自我介绍开始，许多人提到，他们选择人工智能研究作为自己的职业，是受到了在年少时阅读的“GEB”的驱动。他们都很兴奋且好奇，久负盛名的侯世达会如何评价人工智能。自我介绍环节结束后，侯世达站起来讲道：“总体上说，关于人工智能特别是谷歌人工智能的研究，我想说的是，”他的声音变得激昂起来，“我被吓坏了，真的吓坏了！”

侯世达继续发表他的评论。 ² 他描述了当他在20世纪70年代刚开始研究人工智能时，那是一番令人兴奋的景象，根本没有意识到近在眼前的危险实际上正在发生！创造具有人类智能的机器，是一场重大的智力冒险，是一项被认为至少需要“100个诺贝尔奖”作为奠基的长期研究项目 ³ 。侯世达认为，从原则上讲，人工智能是有可能实现的：“它的‘敌人’是那些说人工智能不可能实现的人，比如约翰·瑟尔（John Searle）、休伯特·德雷福斯（Hubert Dreyfus）以及其他怀疑论者。他们不理解大脑是一堆服从物理定律的物质，也不理解计算机可以模拟任何东西，更不用说神经元、神经递质等层面的内容了。从理论上讲，这是可以实现的。”实际上，侯世达在“GEB”一书中详尽地讨论了在从神经元到意识的各个层面上模拟智能的想法，这也是他数十年来的研究重点。直到最近，侯世达似乎才认识到，通用的、人类水平的人工智能在他甚至是他下一代的一生中都不可能出现，所以他对这点并不是特别担心。

在临近“GEB”一书结尾的地方，侯世达列出了关于人工智能的“十大问题和猜想”。其中一个问题是：“会出现能够打败人类的国际象棋程序吗？”侯世达的猜想是“不会。有可能出现在国际象棋中击败人类的程序，但它们不会成为专业的棋手，它们只是通用智能的程序” ⁴ 。

在2014年的那次谷歌会议上，侯世达指出自己“大错特错”，他回想起20世纪八九十年代国际象棋程序的快速发展，为他对人工智能短期前景的设想埋下了第一颗怀疑的种子。尽管人工智能的先驱赫伯特·西蒙（Herbert Simon）在1957年就预测国际象棋程序将会在10年内获得世界冠军，但直到20世纪70年代中期，也就是侯世达写“GEB”时，最好的计算机国际象棋程序也就只能达到一个优秀但非卓越的业余棋手的水平。侯世达与国际象棋冠军、心理学教授艾略特·赫斯特（Eliot Hearst）是好朋友，赫斯特曾就人类国际象棋专家与计算机国际象棋程序的不同写过大量文章。实验表明，专家级的人类棋手依靠快速识别棋盘上的局势来决定下一步棋的走向，而所有国际象棋程序使用的都是大量简单粗暴的前向预测搜索。在一局对弈中，顶级的人类玩家能够将棋子位置的排列组合感知为一种特定的、需要“某种策略”来应对的“局势”，也就是说，这些玩家可以快速地将特定的排列组合识别为更高级别概念的实例。赫斯特认为，计算机国际象棋程序如果没有这种感知模式和识别抽象概念的通用能力，那么将永远无法达到顶级人类棋手的水平。侯世达被赫斯特说服了。

20世纪八九十年代，计算机国际象棋程序的能力经历了一次大飞跃，这要归功于计算机运算速度的急剧提升。顶级的程序仍在以一种非人类的方式运行，执行大量的前向预测搜索来决定下一步行动。到90年代中期，装备国际象棋专用硬件的IBM深蓝计算机（Deep Blue）已经达到了大师级水平。1997年，深蓝在一场六局的比赛中击败了世界冠军加里·卡斯帕罗夫（Garry Kasparov）。国际象棋大师，曾一度被视为人类智慧的巅峰，也向这种粗暴的前向预测搜索的方法屈服了。

音乐，人性的堡垒

尽管深蓝的胜利引发了媒体关于智能机器崛起的诸多报道，然而“真正的”人工智能似乎仍然遥不可及。深蓝能够下棋，但并不能做其他任何事情。侯世达对国际象棋的预测是错误的，但他仍然坚持他在“GEB”中的其他猜想，尤其是他列出的第一个猜想：

问题： 计算机会谱写出优美的音乐吗？

猜想： 会，但不会很快实现。

侯世达继续讲道：

音乐是一种关于情感的语言，在程序能够拥有我们人类所拥有的如此复杂的情感之前，它绝无可能谱写出任何优美的作品。可能会出现对早期音律的肤浅模仿的“伪造品”，但不管一个人最开始会怎么想，音乐表达的内容远比他在音律规则中能捕捉到的要多得多……认为我们可能很快就能用一个预先编程好的、批量生产的、邮购仅需20美元的台式音乐盒，通过消过毒的电路元件“谱写”出肖邦或巴赫可能会谱写出的那种音乐，这绝对是对人类精神之深度的一种荒诞而可耻的错误估计。 ⁵

侯世达将这一猜想描述为“‘GEB’最重要的部分之一，我愿为此赌上性命”。

然而，到了20世纪90年代中期，侯世达对人工智能的信心再次产生动摇，这次更加彻底。他接触到了音乐家大卫·科普（David Cope）编写的一个程序，这个程序名为“音乐智能实验”（EMI）。科普是一名作曲家和音乐教授，他研发EMI的最初目的是让它自动地按照自己规定的特定风格来创作音乐片段，帮助自己完成乐曲的创作。不过，EMI变得出名是因其能够创作巴赫和肖邦等古典作曲家风格的音乐作品。EMI遵循由科普研发的大量规则来作曲，这些规则用于捕捉作曲的通用语法，把这些规则应用于某一个作曲家的大量作品上，就可以产生符合这位作曲家风格的一个新作品。

再说回那次谷歌会议，侯世达怀着非同寻常的情感谈到了他与EMI的相遇：

我坐在钢琴前，弹了一首EMI“创作”的肖邦风格的马祖卡舞曲。曲子听起来并不完全像肖邦，但已经足够像了，而且像一首连贯的乐曲，我对此感到深深地不安。

从孩童时期开始，音乐就令我心潮澎湃，并能将我带入它最核心的地方。对于我所钟爱的每一件作品，我都能感受到它是来自作曲之人情感深处的一封“私信”，那感觉仿佛使我能够直抵作曲者灵魂的最深处，这让我觉得世界上没有任何一样东西比音乐的表达更具人性。然而，对最浅显的音节排序进行模式操纵，却能够产生听起来仿佛来自人类内心的音乐，一想到这里，我就非常非常不安。

侯世达接着讲述了他在纽约州罗切斯特市著名的伊士曼音乐学院的一次演讲。在介绍了EMI之后，侯世达请听众猜一猜：由一位钢琴家为他们演奏的两首曲子中，哪一首是肖邦鲜为人知的马祖卡舞曲，哪一首是EMI创作的乐曲。这些听众中包括几位从事音乐理论和作曲研究的教员。正如一位听众后来所描述的：“第一首马祖卡舞曲优雅且有魅力，但缺少‘真正肖邦式’的创作深度和更强的流畅性……第二首显然是真正的肖邦，有抒情的旋律，大幅的、优美的半音阶转调，以及一种自然、平衡的形式。” ⁶ 令侯世达感到震惊的是：许多听众都同意这位听众的观点，认为第一首是EMI的创作，而相信第二首是“真正的肖邦”。然而，正确答案恰恰相反。

在谷歌的会议室里，侯世达忽然停下来，凝视着我们的脸，大家都静静的不说话。最后，他继续说道：“我被EMI吓坏了，完全吓坏了。我厌恶它，并感受到了极大的威胁——人工智能对我最珍视之人性的威胁。我认为EMI是我对人工智能感到恐惧的最典型的实例。”

我们将成为遗迹，我们将被尘埃淹没

接下来，侯世达谈到了他对谷歌试图在人工智能领域取得的目标怀有一种深深的矛盾心理，包括自动驾驶汽车、语音识别、自然语言理解、语言翻译、计算机生成的艺术、音乐创作等领域，而谷歌聘请库兹韦尔以及库兹韦尔对奇点的愿景进一步加重了侯世达的担忧。奇点是指在不久的将来，在某个假设的时间点上，出现了具有自我提升和自主学习能力的人工智能，随后，这种人工智能将很快成为达到进而超过人类水平的智能，谷歌似乎正竭尽一切努力来加速这一愿景的实现。尽管侯世达强烈怀疑奇点的假设，但他承认库兹韦尔的预言仍然困扰着自己。

我被这些场景吓坏了。我认为他们的时间表可能是错误的，当然，也有可能他们是对的。我们将会完全措手不及，我们可能会认为什么都没有发生，但是突然之间，在我们意识到之前，计算机已经变得比我们人类更聪明了。

如果这真的发生了，我们将被取代，我们将成为遗迹，我们将被尘埃淹没。也许这就是正在发生的现实，但我不想让它发生得太快。我不想让我的孩子们淹没在尘埃中。

最后，侯世达用一句话结束了他的演讲，这句话是对在场的所有谷歌的研究人员说的，所有人都全神贯注地听着，侯世达说：“我发现这非常可怕，非常令人困扰，非常令人悲伤、困惑、迷茫，非常糟糕、可怕、奇怪，因为，人们正在盲目地、极其兴奋地向前冲，去创造这些东西。”

最为珍视的人性，结果只不过是“一套把戏”？

我环顾了一下房间，听众看起来困惑不已，甚至有些尴尬。对于谷歌的人工智能研究人员来说，前文所述的那些一点儿也不可怕，事实上，那都是老新闻了。当深蓝击败卡斯帕罗夫时，当EMI开始创作肖邦风格的马祖卡舞曲时，当库兹韦尔撰写他关于奇点的第一本书 ⁽¹⁰⁾ 时，这些研究者中的许多人都还在上高中，他们可能读过“GEB”并喜欢这本书，尽管其中有些对人工智能的预测已经有点过时了。他们之所以在谷歌工作，正是为了让人工智能出现在当下，且越早越好，而非在100年之后。他们不明白侯世达为什么如此紧张。

在人工智能领域工作的人早就已经习惯了这个领域之外的人的各种恐惧，他们可能是受到了科幻电影刻画的超级智能机器会变邪恶等情节的影响。人工智能研究人员也熟悉这样的担忧：日益复杂的人工智能将取代人类在某些工作中的地位；人工智能应用于大数据后可能会侵犯个人隐私，并造成难以察觉的歧视；那些被允许做出自主决定的、难以被人理解的人工智能系统，则有可能会制造一场浩劫。

侯世达的恐惧针对的则是完全不同的方面。他不是担心人工智能变得太聪明、太有侵略性、太难以控制，甚至太有用。相反，他担心的是：智能、创造力、情感，甚至意识本身都太容易产生了，这些他最为珍视的人性特征和人类精神，结果只不过是“一套把戏”，一套肤浅的暴力算法就可以将其破解。

正如在“GEB”中所充分阐明的那样，侯世达坚信：精神及其所有特征完全来自大脑及身体的其他部分组成的物质基础，以及身体和外界物理世界间的交互，其中没有任何非物质或无形的东西。令他担心的问题其实是一个关于复杂性的问题。他担心人工智能可能会展现给我们，我们最看重的人的品质可以通过简单的机械化方法获得，这让人十分沮丧。会后，侯世达又向我进一步解释了他的想法，他说的是关于肖邦、巴赫以及其他杰出人类的看法。他说：“如果人类这种无限微妙、复杂且具有情感深度的心灵能被一块小小的芯片所简化，这将会摧毁我对人性的理解。”

混乱与噪声，高尚使命与召唤恶魔的对抗

在侯世达的演讲后有一个简短的讨论，困惑的听众试图进一步向侯世达探询他对人工智能特别是对谷歌人工智能研究之恐惧的解释，但沟通障碍依然存在。会议继续进行，与会者展示了他们当前正在研究的项目，之后是小组讨论、茶歇等环节，一切都很正常，只是这一切都与侯世达的观点无关了。在会议接近尾声的时候，侯世达询问了与会者对于人工智能近期的发展前景有什么看法。谷歌的一些研究人员表示，他们预计通用的、人类水平的人工智能很有可能在未来30年内出现，这在很大程度上要归功于谷歌在深度学习领域的优势。

我满怀困惑地离开了会场。我知道侯世达曾为库兹韦尔的一些关于奇点的文章所困扰，但我以前从未理解他的这种感情和焦虑的程度。我也知道谷歌一直在大力推进对人工智能的研究，但谷歌某些研究人员对于将很快达到通用的、人类水平的人工智能如此乐观，这让我感到震惊。我个人的观点是：人工智能在某些细分领域已经取得了很大的进步，但仍然离通用的、人类水平的人工智能差得很远，可能一个世纪后都无法实现，更别说30年了。我认为，那些持相反观点的人大大低估了人类智能的复杂性。我读过库兹韦尔的书，发现大部分都很荒谬。然而，听完会上来自我所尊敬和钦佩的人的所有评论后，也迫使我更批判性地审视自己的观点。如果说这些人工智能研究人员低估了人类的复杂性，那么我是否也低估了当今人工智能的力量和发展前景呢？

在接下来的几个月里，我开始更加关注与这些问题有关的讨论。然后，我就注意到有大量知名人士的系列文章、博客和书籍在告诉我们，从现在开始应当要担心超级智能的危险了。2014年，物理学家斯蒂芬·霍金（Stephen Hawking）宣称：“完全的人工智能的发展将导致人类种族的终结。” ⁷ 同年，Tesla和Space X公司的创始人埃隆·马斯克（Elon Musk）说：“人工智能可能是我们最大的生存威胁，而我们正在用人工智能召唤恶魔。” ⁸ 微软创始人比尔·盖茨（Bill Gates）表示：“我同意埃隆·马斯克和其他人对此的观点，我不明白为什么有些人对此毫不关心。” ⁹ 哲学家尼克·波斯特洛姆（Nick Bostrom）的《超级智能》（ Superintelligence ）一书，阐述了机器变得比人类更加智能后会出现的危险，尽管枯燥乏味，但却出人意料地成了畅销书。

其他一些著名的思想家则提出了相反的观点。他们认为，我们的确应该确保人工智能程序是安全的，而不是冒着伤害人类的风险，但是近期关于超级智能的报道都被严重地夸大了。企业家和活动家米歇尔·卡普尔（Mitchell Kapor）劝告道：“人类智能是一种不可思议的、微妙的、难以理解的东西，短期内不会有被复制的危险。” ¹⁰ 麻省理工学院人工智能实验室前主任、机器人专家罗德尼·布鲁克斯（Rodney Brooks）同意这一观点，他说：“我们严重高估了机器在当下和几十年后的能力。” ¹¹ 心理学家和人工智能研究专家盖瑞·马库斯（Gary Marcus） ⁽¹¹⁾ 甚至断言，在寻求创造“强人工智能”的过程中，“几乎没有任何进展”，这里的强人工智能指的是通用的、人类水平的人工智能 ¹² 。

我可以引用许多双方辩论的话，简而言之，我发现：人工智能领域正处于一片混乱之中。人工智能的确取得了巨大的进展，但也的确几乎没有任何进展。可能我们离真正的人工智能只有咫尺之遥，但也可能还有数世纪之远。人工智能将解决我们所有的问题，或令我们所有人失业，或贬低我们的人性，甚至消灭人类种族。这项研究要么是一个高尚的使命，要么就是在“召唤恶魔”。

一路狂飙的人工智能，我们应该如何重新思考它

这本书源于我对人工智能领域发展的真实状态的尝试性理解： 计算机现在能做什么，我们在未来几十年又能从它们身上期待什么。 侯世达在谷歌人工智能研讨会上的启发性言论，以及谷歌的研究人员对人工智能的近期前景充满信心的言论，对我而言就像一个警示。在接下来的章节中，我尝试厘清人工智能的发展现状，并阐明其迥然不同、有时甚至相互冲突的目标。与此同时，我将描述一些最著名的人工智能系统实际的工作原理，并分析它们的成功之处以及它们的局限性在哪里。我将着眼于计算机如今可以在多大程度上做到我们认为需要高水平智能才能做到的事情，比如，在对智能要求最高的游戏中击败人类、在不同语种之间进行翻译、回答复杂问题、在充满挑战的地形中进行导航等。我还会考查计算机在那些我们认为理所当然的、在无意识情况下执行的日常任务上的表现，如识别图像中的人脸和目标、理解口语和书面文字，以及应用最基本的常识。

我还将努力弄清楚人工智能自创立以来就备受争论的、那些更广泛的问题：我们所说的通用智能甚至超级智能到底是什么意思？当前的人工智能是否接近这个水平？或者是否在接近的道路上会遇到什么危险？人类智能的哪些方面是我们最为珍视的？人类水平的人工智能会在多大程度上影响我们对于自身人性的思考？用侯世达的话来说，我们应该要害怕到什么程度？

《AI 3.0》这本书不是关于人工智能的综述或历史，确切地说，它是对一些人工智能方法的深入探索，这些方法可能正在影响或者即将影响我们的生活。本书还将论述那些在挑战我们人类独特性方面发展程度最高的人工智能成就。写作本书的目的是与读者一同分享我自己在这一领域的探索，帮助读者更加清楚地认识这个领域已经取得了什么成就，以及机器距离“能够为自身之‘人性’进行辩护”还有多长的路要走。