购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第2章
重塑智能意味着什么

我们将与技术共同创造,让我们的思维进化以获得更深刻的洞察力,并利用这些力量创造出让未来的心智去体验和领悟的超凡理念。

如果将宇宙的历史看作信息处理方式不断进化的故事,那么人类的篇章就是在这个故事的后半段展开的。这一章要讲述的是,我们从具有生物大脑的动物转变为超越现有身体限制的生命体,即我们的思想和身份将不再被遗传学所局限的故事。 到21世纪20年代,我们即将步入这一传奇变革的最终章——在更为强大的数字基底上重新构建自然赋予我们的智能,并与之融合。这一过程将标志着宇宙从第四个时代迈入第五个时代。

我们为什么必须重塑智能

这一目标具体会如何实现呢?为了理解重塑智能的含义,我们首先回顾一下AI的诞生,以及随之产生的两大思想流派。我们将结合神经科学有关小脑和大脑新皮质如何产生人类智能的研究,来探讨这两种思想为何会有优劣之分。在梳理深度学习如何再现大脑新皮质功能的现状之后,我们可以对AI达到人类水平还需实现什么,以及我们如何辨认它是否实现了这一目标有一个清晰的评估。最终,我们将探讨在超人类AI的帮助下,如何开发脑机接口,通过虚拟神经元层不断扩展我们的新皮质。这一创举将开启前所未有的思维模式,最终使我们的智能扩展数百万倍,引领我们实现所谓的“奇点”。

AI的诞生与两大流派之争

1950年,当英国数学家艾伦·图灵在《心智》( Mind )杂志发表《计算机器与智能》( Computing Machinery and Intelligence )一文时,他就提出了科学史上最深刻的问题之一:“机器会思考吗?” [1] 尽管在此之前,希腊神话中就存在着像塔罗斯(Talos)这样的青铜自动机, [2] 但图灵的突破是将这个构想归结为一个可以实证检验的概念。他提出的“模仿游戏”,也就是今日我们所熟知的图灵测试,用来评判机器的计算能力能否够执行与人脑相同的认知任务。在这一测试中,评判员通过即时通信工具与AI和人类参与者进行对话,但不知道具体在和谁对话。评判员可以就他们想要了解的任何主题或情况提出问题。如果评判员在一段时间后仍不能区分出哪一个应答者是AI,那么AI就被认为通过了测试。

图灵将哲学思想转变为科学思想的尝试,激发了科研人员高涨的热情。1956年,斯坦福大学教授约翰·麦卡锡(John McCarthy)提出要在达特茅斯学院举办一场为期两个月的研究,共有10人参与。 该研究的目的是:

这项研究是建立在这样一种猜想基础上的,即关于学习或其他智能特性的方面都可以精确描述,以至于机器可以模拟这些特性。我们将尝试寻找方法,让机器学会使用语言、形成抽象概念、解决目前只有人类才能解决的问题,并且能够自我提升。

在筹备一次科学会议时,约翰·麦卡锡提出将这个未来有望革新其他所有领域的新兴科学领域命名为“Artificial Intelligence”(人工智能,简称AI)。 [3] 尽管他本人并不特别钟情于“Artificial”这个单词,因为这似乎意味着这种智能并不是真实的,但最终,这个名称成了被广泛接受的术语。

尽管进行了研究,但在最初规定的两个月时间内,他们并未达成让机器理解自然语言描述的问题的目标。我们直至今天仍在这个问题上孜孜不倦地努力,现在已非当初的十余人之师了。根据2017年科技巨头腾讯的统计数据,世界范围内大约有30万名活跃的AI研究者和实践者。 [4] 由琼-弗朗索瓦·加涅(Jean-Francois Gagne)、格雷斯·凯泽(Grace Kiser)和约安·曼塔(Yoan Mantha)联合撰写的《2019全球AI人才报告》(2019 Global AI Talent Report )称,大约有2.24万名AI专家发布了原创研究成果,而其中大约4 000人被认为颇具影响力。 [5] 斯坦福大学以人为中心的AI研究院发布的数据显示,2021年AI研究者发表了逾49.6万篇论文和申请了超过14.1万项专利。 [6] 到2022年,全球企业对AI的投资飙升至1 890亿美元,与过去10年相比增长了13倍。 [7] 当你读到这段文字时,这个数字会更高。

这在1956年无疑是难以置信的。那时,达特茅斯学院的研究目标大致相当于创造一个能通过图灵测试的AI。我自1999年出版《机器之心》一书以来一直认为,我们将在2029年达成这个目标,尽管当时很多观察家认为这是永远无法实现的里程碑。 [8] 直至最近,这样的预测在业界仍被视为过于乐观。例如,在2018年的一项调查中,众多AI专家预测能达到人类级别的机器智能要到约2060年才会出现。 [9] 然而,最新的大语言模型研究进展使得人们迅速调整了预期。在我撰写此书初稿时,全球顶尖预测网站Metaculus上人们达成共识的时间为21世纪40年代到21世纪50年代。然而,最近两年AI令人震惊的进步颠覆了这一预期。不出所料,到2022年5月,Metaculus的预测与我关于2029年的预测达成了共识。 [10] 自那以后,预测有时甚至会提前至2026年,从技术上讲这意味着我最初的预测是属于慢时间线阵营的!

即便是这个领域的专家们,也对AI近期取得的多项突破感到吃惊。不仅因为这些进步比大多数人预期的要早,还因为这些进步似乎是在没有任何预兆的情况下突然发生的。比如,2014年10月,麻省理工学院的人工智能和认知科学权威托马索·波吉奥(Tomaso Poggio)预测,机器识别图像内容的能力至少还需要20年的研究。 [11] 因为对于机器来说,描述图像内容的能力将是最具智力挑战的事情之一,需要另一轮的基础研究来解决这类问题。但在紧随其后的下一个月,谷歌就推出了能够完成这一任务的物体识别AI。当《纽约客》杂志的记者拉菲·哈查多里安(Raffi Khatchadourian)问他这个问题时,波吉奥退回到了一种更具哲学性的怀疑态度,即对“这种能力是否代表真正的智能”表示了怀疑。我提到这一点,并不是要批评波吉奥,而是想指出一个我们可能都有的倾向:在AI达成某项目标之前,我们会认为这个目标非常困难,几乎是人类的专利。然而一旦AI实现了这个目标,这项成就在我们眼中似乎就变得没有那么了不起了。也就是说, 我们取得的进步,实际上要比我们回顾时认为的更加重大。 这也是我对于2029年的预测依旧持乐观态度的原因之一。

在探索为何会出现这些突如其来的超越时,答案存在于一个理论问题中,这个问题可以追溯到该领域诞生之初。在我读高中时,也就是1964年,我有幸见到了AI领域的两位奠基人:马文·明斯基(Marvin Minsky) 和弗兰克·罗斯布拉特(Frank Rosenblatt)。明斯基是达特茅斯会议的组织者之一。随后的1965年,我进入了麻省理工学院,师从于他。他的基础性工作为我们今天目睹的AI的惊人进步奠定了基础。明斯基教导我,创建问题的自动化解决方案的技术主要有两种:一种是符号主义方法,另一种是联结主义(也称连接主义)方法。

符号主义方法,就是用一套基于规则的术语来描述人类专家解决问题的过程。这种方法有时十分有效。比如,在1959年,兰德公司研发了一款名为“通用问题求解器”(General Problem Solver)的计算机程序,它能使用一系列简单的数学公理来解决各种逻辑问题。 赫伯特·西蒙(Herbert Simon)、J. C.肖(J. C. Shaw)和艾伦·纽厄尔(Allen Newell)是这个项目的研发人员。他们打造的通用问题求解器理论上能解决任何可以转换成用一系列格式规整的公式表示的问题。简而言之,就是它必须在过程中的每个阶段使用一个公理,逐渐搭建起回答问题的数学证明。

这个过程跟代数的方法非常类似。举个例子,假设你知道2+7=9,你还知道有个未知数x加上7之后等于10,你便可以推导出x=3。不仅仅是解方程,这种逻辑解法应用范围极其广泛。当我们在判断某个事物是否符合某个定义时,我们也会在不知不觉中使用这个逻辑。比如,如果你明白质数只能被1和它自己整除,当你发现11是22的一个因数,并且1不等于11的时候,你就能肯定22不是质数了。通用问题求解器正是依托这种方法去处理更复杂的问题的,这其实跟人类数学家所做的本质相同。不同的是,理论上来讲,机器能够尝试每一种可能的方法去组合基本公理,进而寻找正确解法。

想象一下,如果在每个决策点都有10个这样的公理可以选择,并且假设你需要20个这样的公理来得到一个解决方案,那可能性就达到了惊人的10 20 ,也就是1 000亿亿种可能的解法。用现代计算机来处理如此庞大的数据量是可行的,但1959年时的计算速度远不能满足。当时最强的DEC PDP-1计算机每秒只能执行大约10万次操作, [12] 而到了2023年,谷歌Cloud A3虚拟机每秒可以执行大约26 000 000 000 000 000 000次操作。 现在,我们用一美元可以买到的计算能力是通用问题求解器发明时的1.6万亿倍。 用1959年时的技术需要数万年才能解决的问题,现在在零售计算硬件上只需要几分钟。为了弥补其局限性,通用问题求解器设置了启发式程序,试图对可能的解决方案的优先级进行排序。启发式方法有时是有效的,它们的成功证实了这样一种观点,即计算机化的解决方案最终可以解决任何严格定义的问题。

另一个例证是在20世纪70年代研发的名为MYCIN的系统,该系统被用于诊断和提供针对传染病的治疗建议。1979年,一组专家评估了MYCIN的性能,并将其与人类医生进行比较。结果显示,MYCIN的表现不仅和任何医生一样好,甚至在某些方面做得更好。 [13]

一个典型的MYCIN“规则”如下。

当下述条件均满足时(IF):

1.需要治疗的感染是脑膜炎;

2.感染的类型属于真菌性;

3.培养样本的染色过程中未观察到任何微生物;

4.患者不是已感染的宿主;

5.患者曾经到访过球虫病流行区域;

6.患者属于特定种族,如非洲人、亚洲人或印度人;

7.患者的脑脊液中隐球菌抗原检测结果未见阳性。那么(THEN):有证据表明(0.5的可能性),隐球菌可能不是引起感染的微生物之一,除了在培养和涂片中看到的。 [14]

在20世纪80年代后期,这些“专家系统”开始运用概率模型,并且结合各种证据来源来做出决策。 [15] 虽然单个“如果-那么”(IF-THEN)规则本身可能不足以解决问题,但是当成千上万这样的规则结合起来之后,整个系统就能够为一个有约束条件的问题提出可靠的决策了。

尽管符号主义方法已被使用了半个多世纪,但它存在一个主要瓶颈——复杂性的上限。 以MYCIN等系统为例,当它犯下错误时,对错误的纠正也许能够解决眼前的问题,反过来又会引起在其他情境下的三个错误。这种局限意味着它们能够解决的实际问题的范畴非常有限。

我们可以将基于规则的系统复杂性看作一系列可能的故障点。数学上讲,有 N 个项目就存在2 N -1 (不包含空集)个字集。因此,如果AI只使用有一条规则的规则集,那么就只有一个潜在的故障点,即这条规则能否正常工作。如果有两条规则,那就有三个潜在故障点:每条规则各自的工作情况以及它们组合在一起时相互之间的影响。而且这个数量是以指数形式上升的。5条规则能产生31个故障点,10条规则能产生1 023个故障点,100条规则的故障点则超过了数千亿亿亿个,1 000条规则的故障点更是高达一个古戈尔的古戈尔次方(googol googol googols)!随着规则数量的累积,每增加一条新规则,就会显著增加更多的故障点。即使极少数的规则组合可能产生新问题,在某一点,新增一条规则用以解决一个问题很可能会引发更多的问题。这就是复杂性的上限。

Cyc项目是运行时间最长的专家系统之一,由Cycorp公司的道格拉斯·莱纳特(Douglas Lenat)及其同事们创建,于1984年启动。 [16] Cyc的目标是编码人类的所有“常识性知识”,这些众所周知的事实存在于各个领域,如“掉落的鸡蛋会破碎”,或者“一个孩子穿着脏鞋在厨房里跑会让父母感到不快”。这些数以百万计的小常识并没有明确写在某个地方,而是人类理念和推理背后不言而喻的假设,它们对于理解一个普通人在多个领域的知识是必不可少的。但是,由于Cyc系统同样以符号规则形式表示这些知识,它仍然免不了要面对复杂性的上限这一挑战。

20世纪60年代,正是在明斯基的指导下,我开始了解符号主义方法的利弊。同时,我也逐渐领会到联结主义方法的附加价值。联结主义主张通过网络化的节点结构来生成智能,而非依赖于内容。与使用智能规则不同,通过哑节点,它们能直接从数据中挖掘出深层次的洞见。这样的系统可以发现那些人类程序员在设计符号规则时未曾想到的细微模式,它们甚至能在完全不理解问题的情况下解决问题。即使我们能够精确制定并执行无错误的规则来解决象征性的AI问题,我们对于哪些规则最佳的不完美理解也会带来限制。当然,现实中我们做不到这一点。

虽然这种方法非常适合应对复杂问题,但它也有缺陷。联结主义AI很容易变成一个“黑盒子”,它能提供正确答案,却无法解释答案是如何得出的。 [17] 这可能导致重大的挑战,因为在涉及医疗、执法、流行病学和风险管理等高风险决策领域,人们希望能够理解决策背后的逻辑。因此,现在许多AI专家正致力于提高基于机器学习的决策过程的“透明度” (或者说是“机制解释性”)。然而,随着深度学习技术越来越复杂和强大,透明度能达到的效果还未可知。

然而,在我最初涉足联结主义时,当时的系统要简单得多。我们的初衷是创建一个基于人类神经网络工作方式启发的计算机模型。一开始,这一想法非常抽象,因为我们在构想这一方法时,尚未对生物神经网络的具体组织方式有深入的理解。

神经元网络结构

图1-1中展示了简化后的神经网络结构。

图1-1 简单神经网络结构

这是一种基础的神经网络算法结构示例。设计这样的系统可以有多种变化,但需要设计者提供以下详述的一些关键参数和方法。

要使用神经网络解决问题,通常需要经过以下几个步骤:

· 定义输入。

· 定义神经网络的拓扑结构,也就是神经元层以及神经元之间的连接。

· 在示例问题上训练神经网络。

· 利用训练好的神经网络解决问题的新例子。

· 让你的神经网络公司上市。

以下详细描述了上述步骤(除了最后一步)。

问题输入

神经网络接收的输入数据是由一串数字组成的。这些输入可以是:

· 在视觉模式识别系统中,二维数字数组表示图像的像素。

· 在听觉(比如语音)识别系统中,二维数字数组表示声音,其中第一维表示声音的参数(比如频率),第二维表示不同的时间点。

· 在其他任意模式识别系统中, n 维数字数组用来表示输入模式。

定义拓扑结构

在建立神经网络时,每个神经元的结构均包括:

· 多个输入端,每个输入端都会与其他神经元的输出端或某个输入端连接。

· 一般来说有一个单一输出,这个输出通常会连接到更高层级的神经元的输入端,或者是最终的输出端。

设置第一层神经元

· 要在网络的第一层放入 N 0 个神经元。将每个神经元需要的多个输入“连接”到问题输入中的点(即数字)。这些连接可以是随机的,也可以使用进化算法(将在后续讨论)。

· 给每一个建立的连接分配初始的“突触强度”,或者说是权重。这些权重既可以设置成相同的值,也可以随机分配,或者通过其他方法决定(稍后将展开说明)。

设置更多层的神经元

整个网络中要设置 M 层神经元。对于网络中的每一层,都需要在那一层设置神经元。

对于第 i 层来说:

· 在这一层创建 N i 个神经元。然后,让这些神经元的输入与上一层(第 i -1层)神经元的输出相“连接”(不同的连接方式会在下文介绍)。

· 为上述连接分配初始的“突触强度”,也就是权重。同样,这些权重可以在开始时设定为相同值,可以随机分配,或者以其他方式确定(稍后将展开说明)。

· 最后,在第 M 层中,神经元的输出即为整个神经网络的输出(输出的处理方式会有不同变体)。

识别试验

首先,我们要了解每个神经元是如何工作的。神经元配置好之后,它会在每次识别试验中执行如下操作:

· 神经元会计算每一个加权输入,具体是把连接到的另一神经元(或初始输入)的输出与其突触强度相乘。

· 神经元将对所有加权输入求和。

· 如果求和的结果超过了神经元的激发阈值,那么这个神经元就被认为是触发了,其输出为1;如果没有超过,输出则为0(后续会讨论不同的处理方式)。

其次,每一次识别试验,从第0层开始直至第 M 层,层中的每个神经元都要遵循以下步骤:

· 将其所有加权输入求和,加权输入等于其他神经元的输出(或初始输入)与该神经元连接处突触强度的乘积。

· 如果加权输入的总和超过了神经元的激发阈值,那么就把这个神经元的输出设为1,否则设为0。

训练神经网络

· 在示例问题上运行重复的识别试验。

· 每一次试验之后,调整所有神经元之间连接的突触强度,以提高本次试验中神经网络的表现(具体怎么做,请参见下文讨论)。

· 持续进行这样的训练,直到神经网络的准确率不再提高(即接近极限值)。

关键设计决策

在上述方案的简单版本中,这个神经网络算法的设计者需要一开始就确定以下内容:

· 输入数字代表什么。

· 神经元层数。

· 每层神经元的数量(每一层不一定要有相同数量的神经元)。

· 每层中每个神经元的输入个数。输入个数(即神经元之间的连接)也可以从神经元到神经元、从层到层各不相同。

· 实际的“布线”(即连接)。对于每层中的每个神经元,它由其他神经元的列表组成,它们的输出构成了此神经元的输入。这代表了一个关键的设计领域。实现这一点有以下几种可能的方法:

(i)随机连接神经网络;

(ii)使用进化算法(见下文)来决定一个最佳布线;

(iii)使用系统设计者的最佳判断来确定布线。

· 每个连接的初始突触强度(即权重)。这里有许多可能的方法:

(i)将突触强度设为相同的值;

(ii)将突触强度设为不同的随机值;

(iii)使用进化算法来确定一组最优的初始值;

(iv)使用系统设计者的最佳判断来决定初始值。

· 每个神经元的触发阈值。

· 确定输出。输出可以是以下内容:

(i)神经元层 M 的输出;

(ii)单个神经元的输出,其输入为 M 层中神经元的输出;

(iii) M 层神经元输出的函数(例如求和);

(iv)多层神经元输出的另一个函数。

· 确定在神经网络训练过程中如何调整所有连接的突触强度是一个关键的设计决策,也是许多研究和讨论的主题。有几种可能的方法可以做到这一点:

(i)对于每次识别试验,使每个突触的强度提高或降低一个固定的值(通常很小),以便让神经网络的输出结果更接近正确答案。一种方法是尝试增加和减少两种操作,看哪种效果更理想。这种方法可能非常耗时,因此还存在其他方法来局部决定是提高还是降低每个突触的强度。

(ii)有其他统计方法可用于在每次识别试验后修改突触强度,以便使神经网络在该试验中的表现更接近正确答案。

(iii)请注意,即使训练试验的答案不全是正确的,神经网络的训练也是有效的。这允许使用可能具有固有错误率的真实世界的训练数据。神经网络基础识别系统成功的一个关键在于用于训练的数据量。通常需要大量的数据才能获得满意的结果。就像人类学生一样,神经网络学习课程的时间量是影响其表现的关键因素。

变体

上述方法有许多可行的变体:

· 确定拓扑结构的方法有很多种。特别是,神经元之间的连接可以随机设置,也可以使用进化算法,模仿突变和自然选择对网络设计的影响来确定。

· 设置初始突触强度的方法也不尽相同。

· 第 i 层中神经元的输入并不一定需要来自层 i -1中神经元的输出。相反,每一层中神经元的输入可以来源于任何更低层或更高层。

· 确定最终输出的方式也有不同。

· 上面描述的方法会导致“全有或全无”(1或0)的触发,这被称为非线性。还有其他非线性函数可以使用,通常使用的是一种从0到1的函数,以快速但更渐进的方式进行。同样,输出可以是除0和1之外的其他数字。

· 在训练过程中调整突触强度的不同方法代表了关键的设计决策。

上述模式描述的是一个“同步”神经网络,在每次识别试验中,从第0层开始到第 M 层,依次计算出每一层的输出。在一个真正的并行系统中,每个神经元独立于其他神经元运作,神经元可以“异步”(即独立地)运作。在异步方法中,每个神经元不断扫描输入,并且在加权输入之和超过阈值(或者其输出函数指定的任何值)时触发。

我们的目标是找到具体的实例,系统可以从中找出解决问题的方法。一个典型的起点是神经网络的连接和突触权重是随机设定的,在未经训练的状态下,神经网络给出的回答也是随机的。神经网络的核心任务便是学习,它的主题就像它所模仿的哺乳动物大脑一样(至少大致如此)。初始时,神经网络对相关知识“一无所知”,但它被编程为最大化“奖励函数”。接着,它接收到训练数据,比如标注好的含有柯基犬图像和不含柯基犬的图像。当神经网络输出正确的识别结果时,比方说准确辨识出图片中是否有柯基,它便会收到奖励性反馈。这种反馈可以用来调整神经元间连接的强度——与正确答案相一致的连接会加强,而提供错误答案的连接则会减弱。

经过一段时间的学习,神经网络能够自主提供正确答案,不再需要外部指导。实验显示,即使教师的指导存在不可靠因素,神经网络也能有效学习。例如,在标注正确率只有60%的情况下,神经网络仍能以超过90%的高准确度掌握所学知识。在某些情况下,甚至使用更小比例的准确标注也取得了有效的学习结果。 [18]

我们可能会不解,一个老师如何能让自己的学生“青出于蓝”,同样,错误百出的数据如何能够训练出表现出色的神经网络。其实,错误可以相互抵消。假设你正在训练一个神经网络以识别手写数字8,从一堆0至9的数字样本中学习。同时,假设有1/3的标注是错误的,比如把8标成了4,把5标成了8等。如果训练数据集足够庞大,这些错误就会相互抵消,不会让学习过程产生特定方向的偏差。它们保留了数据集中关于数字8特征的有用信息,使神经网络得以按照高标准进行训练。

尽管如此,早期的联结主义系统仍有其局限性。由单层网络组成的神经网络在数学上并不能解决某些类型的问题。 [19] 在1964年,我访问了在康奈尔大学的弗兰克·罗斯布拉特教授,他向我展示了一个职能单一的神经网络——感知机,它能够识别印刷字母。我对输入样本进行了一些简单的改动,发现尽管这个系统能够通过自行关联识别字母(即便它们的一部分被遮挡),但在识别字体和字号有改动的字母时,它的表现就不尽如人意了。

尽管明斯基早在1953年就对神经网络进行了开创性的研究,但他在1969年对人们对这个领域的兴趣激增现象表达了批评。他与西摩·帕普特(Seymour Papert)是麻省理工学院人工智能实验室的两位联合创始人,他们合著了一本名为《感知机》( Perceptron )的书。这本书正式阐明了感知机为何本质上无法识别印刷图像线条是否连通的问题。来自《感知机》封面的图片展示了这一点(见图2-1)。图片左侧展示的是一系列非连通的线条(黑色线条没有形成一个完整图形),而图片右侧中的线条则是连通的(黑色线条形成了一个整体)。人类和简单的软件程序可以轻松辨别这种连通性,然而,像罗斯布拉特设计的Mark 1这样的前馈感知机(节点之间的连接没有形成任何回路)却无法完成这个任务。

图2-1 《感知机》封面用图

核心问题在于,前馈感知机无法利用异或(XOR)功能去解决问题,而异或功能正是用来判断图像中的线段是否属于一个连续的整体,而不是另一个形状的一部分的关键。单层节点网络由于结构限制,在没有反馈机制的情况下,无法实现异或运算。异或运算需要一个反馈步骤,而非简单的线性规则(如“如果这两个节点都触发,则输出为真”),它要求的是“如果这两个节点中的任何一个触发,但不同时触发,则输出为真”。

这个结论不仅导致联结主义领域的资金来源大幅减少,也使得该领域在之后的几十年没能获得关注。但早在1964年,罗斯布拉特本人就曾向我透露过,感知机处理不变性能力不足原因在于其缺少足够的网络层级。如果能将一个感知机的输出引导到下一层类似的网络中,其输出将会更具泛化能力,随着这一迭代过程的不断重复,它最终将越来越胜任处理不变性问题。只要有足够多的层级和训练数据,感知机就可以处理极为复杂的问题。当我询问他是否尝试过此方法时,他表示还没有,但这在他的研究计划中优先级很高。这一深刻的洞见如今显得极具先见之明,可惜的是,罗斯布拉特在1971年去世,没来得及验证自己的理论。直到大约10年后,多层网络才被广泛采用。然而,当时的计算能力和数据量都限制了多层网络的应用。而今天AI领域的巨大发展,就得益于在罗斯布拉特提出这一构想50多年后,多层神经网络的广泛使用。

因而直到21世纪前10年中期之前,联结主义的AI研究方法一直未能得到广泛应用,直到硬件技术的飞速进步使这些方法的庞大潜能得以释放。随着计算成本的降低和可用资源的增加,这些方法终于能够展现出它们真正的实力。在1969年《感知机》问世至2016年明斯基逝世这段时间内,计算的性价比(按通货膨胀水平调整后)提升了约28亿倍, 进而为研究AI可能采取的方法带来了翻天覆地的变化。我在明斯基离世之前与他对话时,他表示为《感知机》对世界产生了巨大的影响表示遗憾,因为那时联结主义在这个领域内取得了普遍成功。

如此来看,联结主义算得上是类似达·芬奇航空器发明的一个例子——当年的这些构想极具前瞻性,却因缺乏更轻、更坚固的材料而未能变为现实。 [20] 然而,一旦硬件的能力赶上来,例如能构建出100层的庞大连接网络,这些想法就变得可行了。作为结果,这些系统能够解决以前从未被解决过的问题。这便是驱动过去几年中AI领域所有最激动人心的进步的核心范式。

小脑:用模块构建“无意识的能力”

为了在人类智能的背景下理解神经网络,我们先暂时回到宇宙的起点。宇宙初创时,物质向更高级的有序状态的转变缓慢无比,这是因为当时还没有大脑来推动这一进程(关于宇宙是否有编码有效信息的能力,请参阅第3章中的相关内容)。要进化出更为细致的结构,所需的时间长达数亿至数十亿年。 [21]

事实上,直到数十亿年后,分子才开始编写指令以孕育生命。科学家们对现有资料虽各有不同的解读,但大多数人认为地球生命最早出现于35亿至40亿年前。 [22] 据估计,宇宙已有138亿年的历史(这是自宇宙大爆炸以来经过的时间),而地球约在45亿年前形成。 [23] 也就是说,在最初的原子形成和地球上第一批能自我复制的分子出现之间,大约有100亿年的时间间隔。这一延迟可能部分由随机性造成的——我们并不清楚,在地球上的“原始汤”环境中,分子以正确的方式结合的概率有多小。生命有可能更早出现,也可能更晚才出现。然而所有这些必要条件在成为可能之前,必须经历整个恒星生命周期,因为恒星可以将氢聚变成重元素,而这些元素是复杂生命赖以存在的基础。

根据科学家们的最新推断,从地球上出现第一批生命到多细胞生命的诞生,大约过去了29亿年。 接着又过了5亿年,动物才开始在陆地上活动。又过去了2亿年的时间,哺乳动物才出现。 以大脑为例,从最初原始的神经网络形成到最早的具有三部分构造的集中式大脑出现,时间跨度超过1亿年。 [24] 第一个基本的新皮质直到再过3.5亿至4亿年后才出现,再过约2亿年,现代人类的大脑才最终形成。

在此期间,拥有更复杂大脑的生物在进化中获得了明显的优势。当动物们为资源竞争时,那些智力较高的往往更易胜出。 与之前的演变相比,智力的发展历经的时间相对较短: 仅数百万年,显现出明显的加速趋势 。在哺乳动物的祖先中,大脑的一个重要变化发生在小脑区域。如今的人类大脑中,小脑中的神经元数量甚至超过了负责高级功能的新皮质。 [25] 小脑能够储存并触发众多控制运动任务的脚本,例如签名便是其中之一。(这些脚本通常被非正式地称为“肌肉记忆”,虽然这并非肌肉本身的现象,而是基于小脑的作用。随着动作的反复执行,大脑就会适应,使动作变得更容易,进入潜意识,就像许多马车的车轮碾压过之后,把车辙压成一条小路一样。) [26]

想象在草坪上抓住一个飞来的球。从理论上讲,我们可以通过精确计算球的轨迹以及我们自身的运动来抓住球。但实际上,大脑中并没有装置来解决复杂的微分方程。我们只能将这个问题简化为:如何有效地将手置于球和身体之间。小脑会假设你的手和球在每次接球时应该出现在相似的相对位置。如果感觉到球下降得太快,手动作太慢,小脑会迅速调整,让你的手更快地移动到熟悉的相对定位。

这些由小脑控制的动作,实际上是一种将感官信息转化为肌肉运动的过程,与数学中的“基函数”概念类似,让我们能够在不解微分方程的情况下也能抓到球。 小脑还能帮助我们预判动作,即便我们最后没有采取行动。例如,小脑可能会告诉你:你可以接到球,但这么做可能会导致与其他球员碰撞,因此也许你不应该采取行动。这些判断和动作,多半是无意识的直觉反应。

同样,如果你在跳舞,你的小脑也会在你没有意识到的情况下指导你的动作。因受伤或疾病导致小脑功能不全的人,虽然可以通过大脑皮层主动控制自己的行为,但这需要额外集中精力,并可能出现共济失调的问题。 [27]

掌握某项体育技能,关键在于通过充分练习将技能内化为肌肉记忆。原先需要有意识思考和保持专注才能完成的动作,渐渐变得自然而顺畅,这实际上就是从大脑运动皮层控制向小脑控制的转变。不管是投掷球、还原魔方还是弹钢琴,所需要的有意识的心智努力越少,你就越有可能表现得更好。你的动作会变得更快、更流畅,可以将注意力用于其他可以提升表现的方面。当音乐家们熟练地演奏乐器,他们可以像我们平时唱“生日快乐”歌那样毫不费力、直觉般地奏出一个给定的音符,但问及如何控制声带发出准确音符时,大多数人无法用语言描述这一过程。这就是心理学家和教练们所说的“无意识能力”,因为我们并不需要有意识地去想它。

然而,小脑的这种能力并不是某种极其复杂的结构的结果。尽管小脑包含了成年人(或其他物种)大脑中的大多数神经元,但基因组中关于其整体设计的信息并不多,它主要由小而简单的模块组成。 [28] 神经科学家发现,小脑由成千上万个以前馈结构排列的小型处理单元组成。 [29] 这为我们更好地理解完成小脑功能所需要的神经架构提供了基础,并可能对AI领域的研究提供有用的见解。

小脑的各个模块都有狭窄的功能定义,在你弹钢琴时控制你手部运动的模块与你走路时控制腿部运动的模块并不相同。尽管小脑从古至今都是大脑中不可或缺的组成部分。但随着我们更灵活的新皮质在现代社会中占据主导地位,人类对小脑的依赖越来越小。 [30]

在动物王国中,哺乳动物携带了新皮质这一独特优势,而非哺乳动物则没有这一优势。后者的小脑精确记录下了生存所需的关键行为,这类由小脑驱动的动物行为被称作固有行为模式。与通过观察及模仿习得的行为不同,这些行为是一个物种的成员与生俱来的。哺乳动物身上有些相当复杂的行为也是天生的。例如,鹿鼠挖短洞,而海滩鼠会挖带逃生通道的长洞。 [31] 就算是从未有过挖洞经验的实验室鹿鼠和海滩鼠,一旦把它们放在沙地之上,它们也能挖出各自物种特有的洞穴类型。

在大多数情况下,小脑中负责特定动作的机制会在物种中一直延续下去,直到拥有改进动作的种群通过自然选择胜过它。依靠基因驱动的行为适应环境的速度要远慢于通过学习驱动的行为。学习使得生物可以在其一生中有意识地调整自己的行为,而先天行为的变化仅限于历经多代的渐进性改变。不过,有趣的是,计算机科学家有时采用“进化”方法来反映由基因决定的行为。 他们会创建一系列具备随机特征的程序,并测试它们完成特定任务的表现。那些表现良好的可以将它们的特征结合起来,类似动物繁殖时的基因混合。接着,程序中会引入随机的“变异”,以观察哪些可以增强性能。经过多代的迭代优化,这些程序可以用人类程序员可能想象不到的方式解决问题。

然而,自然界中实现这种进化方式需要耗费数百万年的时间。尽管这个过程显得十分缓慢,但我们不妨回想一下,在生物出现之前的进化过程,如生命所需的复杂前体化合物的形成,往往需要数亿年时间。因此,从这个角度看,小脑实际上起到了加速进化的作用。

新皮质:层次分明、可自我调整的灵巧结构

为了取得更快的进展,进化需要设计出一种方法,让大脑在无需等待基因变化重新配置小脑的情况下发展出新的行为。新皮质应运而生,字面意思是“新的皮质”,大约在2亿年前随着哺乳动物的诞生而出现。 [32] 早期的哺乳动物外形酷似现今的啮齿动物,它们的新皮质如邮票一般大小、薄厚,紧紧包裹着它们那核桃般大小的大脑。 [33] 但新皮质的组织方式比小脑更加灵活。它不是由一个个控制不同行为的不同模块构成的,而是一个整体协作的网络。因此,它能够产生一种新的思维方式,它可以在几天甚至几小时内创造出全新的行为方式,为学习之路铺平了道路。

在2亿年前,由于环境变化非常缓慢,非哺乳类动物对环境的适应之慢并不是问题。环境的改变往往需要数千年,才会促使小脑发生相应的改变。因此,新皮质似乎是在等待某场大灾变,来获得统治地球的机会。最终,这场灾变——我们现称之为白垩纪大灭绝,发生在6 500万年前,也就是新皮质出现1.35亿年后。由于小行星的撞击,可能还有火山爆发,这些事件联手改变了地球的环境,导致约75%的动植物物种,包括恐龙,走向了灭绝的深渊(尽管我们熟知的恐龙消失了,但一些科学家认为,鸟类或许是恐龙的一个幸存的分支)。 [34]

新皮质凭借其快速创造解决方案的能力,在此时登上了生物界的舞台。哺乳动物的体型随之增大,它们的大脑发育速度更快,占据了体重更大的比例。新皮质更是迅猛伸展,通过发展出皱褶来大幅扩大其表面积。如果把人类的新皮质展平,其面积和厚度堪比一张餐巾。 [35] 但由于其复杂精妙的构造,如今新皮质的重量大约占整个人类大脑的80%。 [36]

我在2012年出版的《人工智能的未来》中详细介绍了新皮质的运作机制,这里我将简要介绍其核心概念。新皮质由简单的重复结构组成,每个单元包含大约100个神经元。这些功能模块能够学习、识别以及记忆各种模式,并且组织成层级结构,每一层级都能掌握更复杂的概念。这些重复的子结构被称为皮质微柱。

科学家估算,人类大脑内大约拥有210亿到260亿个神经元,其中有90%位于新皮质。 [37] 以每个皮质微柱约有100个神经元来计算,我们大脑中大约含有2亿个这样的结构单位。 与按部就班执行任务的数字计算机不同,最新研究显示,新皮质的各个模块采用了大规模并行的处理方式, [38] 也就是说,许多不同的事情可以同时发生。这种机制让大脑成为一个充满活力的系统,也使得对它进行计算建模变得极具挑战性。

神经科学目前虽然还未完全揭开神经系统的所有秘密,但对皮质微柱的构造和连接方式的基础性认识,为我们理解它们的功能提供了线索。大脑中的神经网络与安置在硅硬件中的人工神经网络非常相似,都采用了分层的结构,将输入的原始数据(在人类身上是感官信号)和输出(在人类身上是行为)分开。这种组织方式允许信息处理时进行多层次抽象,从而形成了我们认为属于人类的复杂认知功能。

在与感觉输入直接相连的最底层,某个模块可能会将给定的视觉刺激识别为某种曲线形状。随着信息向上流动,其他层次的模块会对下层模块的输出进行进一步加工,添加更多的上下文信息,进行抽象层面的处理(见图2-2)。这样,距离感官输入更远的高级层次可以识别出曲线形状是一个字母的一部分,进而识别出这个字母所属的单词,并将这个单词与其丰富的语义联系起来。最顶层处理的是更加抽象的概念,例如判断一句话是否富有幽默感或者带有讽刺意味。

图2-2 新皮质的分层结构

尽管新皮质层级数量决定了它相对于从感官输入向上传播的一组信号的抽象水平,但这个处理过程并不是单向的。新皮质的6个主要层级会在两个方向上动态地相互交流,所以我们不能断定抽象思维只在最高层发生。 相比之下,从物种的角度考虑层次与抽象的关系更有意义。换句话说,人类拥有多个层次的新皮质使我们具有更强的抽象思维能力,超越了皮质构造更简单的其他生物。而一旦我们能将新皮质与云计算直接结合,我们就能解锁更强的抽象思维的潜力,远超目前有机大脑所能实现的能力。

这些抽象概念的神经学基础是最近才发现的。在20世纪90年代末,一位16岁女性癫痫患者接受了脑部手术,神经外科医生伊扎克·弗里德(Itzhak Fried)让这名患者保持清醒,以便对正在发生的事情做出反应。 [39] 这在理论上是可行的,因为大脑中没有疼痛感受器。 在对她的新皮质的特定点位进行刺激时,她会发笑。弗里德和他的团队很快意识到,这是因为触发了患者对幽默的实际感知。这不仅仅是本能反应,而是患者真的认为当前情境很有趣,尽管手术室内并没有发生可笑的事。当医生追问她为什么笑时,她并没有回答说“哦,没有特别的原因”或“你们刚刚刺激了我的大脑”,而是立即找到原因来解释,比如她用这样的评论来解释她的笑声:“你们这些家伙站在那里真是太有趣了。”

定位和触发大脑皮层中负责发现有趣事物的位点的可行性表明,它对应的是幽默、讽刺等概念。其他一些非侵入性的测试也证实了这一发现。例如,当我们阅读充满讽刺意味的句子时,大脑中被称为“心智网络理论”(Theory of Mind Network)的区域会被激活。 [40] 新皮质的这种抽象思维能力,让我们得以创造出语言、音乐、幽默、科学、艺术和技术等文化成就。 [41]

尽管有些媒体的新闻标题会让人误认为其他动物也能做到这些,但实际上,除了人类之外,没有任何物种能够在脑海中打节拍、讲笑话、发表演讲,或者写作或阅读这本书。虽然其他一些动物,比如黑猩猩,可以制作原始的工具,然而这些工具的复杂度不足以触发快速的进化过程。 [42] 类似地,虽然一些动物也使用简单的沟通形式,但它们无法像人类用语言那样交流等级观念。 [43] 作为没有额叶皮层的灵长类动物,我们已经做得很出色了,可新皮质的进一步发展让我们能够了解世界与存在的概念,由此我们就不单单是一种高级动物,而且是哲学动物。

然而,大脑的进化只是人类作为一个物种进化中的一部分。尽管人类的新皮质功能强大,但如果没有另一个关键的身体结构创新,即拇指,人类的科学和艺术成就也不会实现。 大脑新皮质与人类相当或比人类更大的动物,比如鲸鱼、海豚和大象,因为没有能够精确操控天然材料并将其改造成工具的对生拇指,所以无法达到人类的成就。这一点告诉我们,人类在进化上是极其幸运的。

同样幸运的是,我们的新皮质不仅仅具有分层结构,其连接方式也是新颖而强大的。模块化的层次结构并非新皮质的独有特性——小脑也存在层次结构。 [44] 使新皮质独树一帜的是三个关键特点:

· 特定概念的神经元触发模式可以在整个结构中广泛传播,而非仅在它产生的特定区域;

· 特定触发模式可以与许多不同概念的相似特征相关联,相关概念通过相似的触发模式来表示;

· 数以百万计的模式可以在新皮质内同时触发, [45] 并以复杂的方式相互作用。 [46] 这些特点赋予了哺乳动物,尤其是人类以创造性。

例如,新皮质内高度复杂的连接能够产生丰富的联想记忆。 这样的记忆就像是百科词条,它随着时间的推移可以改变,而且可以从多个不同的链接点被访问。记忆可以是多感官的,可以通过嗅觉、味觉、听觉或其他任何感官输入来唤起。

此外,新皮质放电模式的相似性促进了类比思维的发展。例如,代表手部位置下降的模式与表达声音音高下降的模式有关,甚至与温度的下降或帝国的衰落等隐喻性降低的概念相关。这样一来,我们就能够从一个领域中学到一个概念,并将其应用于完全不同的另一个领域,从而形成一个模式。

人类历史上许多重要的智力飞跃,都与新皮质具有的在不同领域间类比的能力密不可分。 达尔文的进化论就源于达尔文对地质学的类比。在查尔斯·达尔文之前,西方科学界普遍认为,每个物种都是上帝单独创造出来的。早期也曾有人提出过一些类似的进化理论,尤其是让-巴蒂斯特·拉马克(Jean-Baptiste Lamarck)。拉马克认为,动物有逐渐进化成为更复杂的物种的天然趋势,并且后代能够继承父母在其一生中获得或发展出的特性。 [47] 但是这些理论所提出的机制要么解释不清,要么根本是错误的。

达尔文在研究苏格兰地质学家查尔斯·莱尔(Charles Lyell)的著作时,接触到了一种不同的理论。莱尔提出了一个关于大峡谷起源的观点,这在当时颇具争议。 [48] 因为当时西方人普遍认为,峡谷是上帝创造的,一条流经它的河流只是恰好因为地心引力找到了峡谷的底部。莱尔则认为,河流先于峡谷而存在,峡谷的形成是后来的事情。尽管他的理论最初遭到了强烈反对,经过一段时间后才被接受,但科学家们最终认识到,连绵不断的流水冲刷岩石,即便流水对岩石的影响很小,在数百万年的过程中,也能冲刷出像大峡谷一样深的深渊。莱尔的理论很大程度上得益于他的同事、苏格兰地质学家詹姆斯·赫顿(James Hutton)的研究,赫顿首次提出了均变论, [49] 该理论认为地球不是由《圣经》中提到的灾难性洪水塑造的,而是一系列自然力量随时间逐渐作用而成的。

达尔文在生物学领域面对的难题更为艰巨。生物学是极其复杂的。但作为博物学家,达尔文看到了莱尔的研究与自己的博物学研究之间的联系,并在他于1859年出版的著作《物种起源》的开头提到了这件事。他借鉴了莱尔关于流水一次侵蚀一个沙粒的重要观点,并将之应用于一代个体的微小遗传变化。达尔文用一个明确的类比为他的理论辩护:“正如现代地质学几乎排除了单场洪水冲击形成了一个大峡谷的观点一样,如果自然选择是正确的理论,也会排除连续创造新物种或使它们的结构发生突变的看法。” [50] 这引发了人类文明史上迄今为止最深刻的科学变革。从牛顿的万有引力到爱因斯坦的相对论,这些重大发现都是基于类似的类比洞见而得出的。

深度学习:新皮质魔力的数字化再现

如何才能采用数字化手段复制新皮质的灵活性和高度抽象能力呢?就像本章开头所讨论的,基于规则的符号系统过于僵化,并不能真实地模拟出人类思维的流动性。而联结主义这种方法一度被认为不切实际,因为它对计算能力的要求极高,训练成本高昂。不过,随着计算成本的急剧下降,这一局面发生了变化。是什么力量推动了这种转变?

英特尔的联合创始人戈登·摩尔(Gordon Moore)于1965年提出了著名的以他的名字命名的摩尔定律,这一定律已经成为信息技术领域最显著的发展趋势。 [51] 摩尔定律指出,随着技术的不断进步,计算机芯片上的晶体管数量大约每两年翻一番。尽管有些人怀疑这样的指数级增长趋势能否持续下去,他们认为,当晶体管密度达到原子尺度的物理极限时,摩尔定律将不可避免地走向终结。但他们忽略了一个更深层次的事实:摩尔定律实际上是“加速回报定律”的更基本力量的一个示例,信息技术创造了创新的反馈循环。在摩尔做出他的伟大发现之前,电机、继电器、真空管和晶体管引领的四种主要技术范式的计算性价比呈指数级提高,而在集成电路达到其极限之后,纳米材料或三维计算技术将占据主导地位。 [52]

自1888年以来(早在摩尔出生之前),这一趋势就在稳步地呈指数级增长, [53] 并在2010年左右达到了一个关键点,足以释放出联结主义的隐藏力量,这种基于新皮质的多层分层计算模型建构的方法被称为深度学习。自从《奇点临近》一书出版以来,正是深度学习推动实现了AI领域的一系列惊人的重大突破。

标志着深度学习具有根本性变革潜力的首个信号是AI在棋盘类游戏围棋中取得的成就。由于围棋的可能走法远远超过国际象棋,而且很难判断一个给定的走法是好是坏,所以之前用于在国际象棋领域击败人类大师的AI方法在围棋上几乎毫无进展。甚至是乐观的专家都认为,至少要到21世纪20年代人类才能攻克这一难题。 例如,截至2012年,领先的人工智能未来学家尼克·博斯特罗姆(Nick Bostrom)推测,AI要到2022年左右才能够掌握围棋。然而,在2015到2016年,Alphabet的子公司DeepMind创造了AlphaGo,这是一个采用深度强化学习方法的系统,通过大规模的神经网络自我对弈,从每一次的胜利与失败中学习,不断进步。 AlphaGo以大量的人类围棋记录为基础,不断与自己较量,最终升级为AlphaGo Master,并成功战胜了围棋世界冠军柯洁。

几个月后,AlphaGo Zero取得了更大的成功。1997年,IBM用深蓝(Deep Blue)击败国际象棋世界冠军加里·卡斯帕罗夫(Garry Kasparov),这台超级计算机装载了程序员从人类专家那里收集到的关于国际象棋的所有知识。 [54] 它没有其他用途:只是一台下棋机器。相比之下,除了围棋的游戏规则之外,AlphaGo Zero没有获得任何关于围棋的人类知识,在与自己进行约三天的自我对弈后,它从随机走棋进化到以100∶0的战绩轻松击败了先前用人类知识训练的AlphaGo。 [55] 在2016年,AlphaGo在5局比赛中赢得了4局,打败了当时国际围棋排名第二的李世石。AlphaGo Zero使用了一种新型的强化学习方法,通过程序使自己成为自己的教练。AlphaGo Zero仅用了21天就达到了AlphaGo Master的水平,这个版本在2017年的三场比赛中击败了60名顶尖职业选手和世界冠军柯洁。 [56] 40天后,AlphaGo Zero超越了所有其他版本的AlphaGo,成为人类或计算机中最好的围棋选手。 它在没有人类围棋的知识和人类干预的情况下实现了这一点。

但这还不是DeepMind最重要的里程碑。它的下一个版本AlphaZero,可以将从围棋中学到的能力迁移到其他游戏中,如国际象棋。 这个程序不仅击败了所有人类挑战者,还击败了所有其他国际象棋机器,而且它仅经过了4小时的训练,除了规则之外没有应用任何先验知识。它在日本将棋(Shōgi)游戏中同样成功。在我写这篇文章的时候出现了它的最新版本MuZero,它甚至在没有给出规则的情况下就重现了这些壮举! 凭借这种“迁移学习”能力,MuZero可以掌握任何没有机会成分、歧义或隐藏信息的棋盘游戏,也可以掌握任何像雅达利的《乒乓》( Pong )这样的确定性电子游戏。这种将一个领域的学习应用到相关领域的能力是人类智能的一个关键特征。

但深度强化学习并没有局限于掌握这类游戏。那些能够玩《星际争霸II》( StarCraft II )或扑克的AI近期的表现也超越了所有人类。这些游戏都具有不确定性并且需要对对手玩家有深入了解。 [57] 唯一的例外情况是桌游,这类游戏需要非常强的语言能力。《强权外交》( Diplomacy )可能是最好的例子——这是一款玩家不可能依靠运气或自己的技能获胜的、统治世界的游戏,玩家必须与彼此交流。 [58] 为了赢得比赛,你必须能够说服他人,让他们采取有助于你的举动,同时也符合他们自己的利益。因此,一个能够在外交游戏中持续占据主导地位的AI,很可能也掌握了欺骗和说服的技巧。但即使是在外交游戏方面,AI在2022年也取得了令人印象深刻的进展,尤其是Meta的CICERO,它能够击败许多人类玩家。 [59] 这样的里程碑现在几乎每周都在达成。

迈向奇点的关键进展

在游戏界大放异彩的深度学习技术,同样可以用来应对现实世界中的复杂情况。想要实现这一点,我们需要的是一种模拟器,能够真实再现AI所需要掌握的领域,比如充满不确定性的驾驶体验。在开车时,任何事情都可能发生,比如前车突然刹车,或者有车迎面驶来,又或者小孩子追球跑到了马路上。Alphabet旗下的Waymo公司就为其自动驾驶汽车开发了这样的自动驾驶软件,但最初都有一名人类监督员监控所有驾驶过程。 驾驶过程中的每个细节都被一一记录了下来,从而建立了一个极为详尽的虚拟驾驶模拟器。到目前为止,公司的真实车辆已经在公路上行驶了超过3 000万千米, [60] 模拟器里的车辆也在这个接近真实的虚拟环境中完成了数十亿千米的行驶训练。 [61] 积累了如此丰富的经验,一辆真正的自动驾驶车辆最终将比人类驾驶员表现得更好。同理,正如第6章中进一步描述的那样,AI正在应用全新的模拟技术来更好地预测蛋白质的折叠方式,这是生物学中极具挑战性的问题之一,而解决它有望帮助我们发现突破性的新药。

尽管MuZero能够征服多种游戏,但它的成就仍相对有限——它既不能创作十四行诗,也无法安慰患病的人们。若要让AI达到人类大脑新皮质的通用性水平,它需要掌握语言。正是语言使我们能够将截然不同的认知领域联系起来,利用高级符号传递知识。换句话说,有了语言,我们就不需要通过百万个数据实例来学习新知识,仅仅读一句话的摘要就能大幅拓展我们的认知。

目前,这一领域研究进展最快的方法是基于深度神经网络来处理语言。这些神经网络能在多维空间内表达词语的含义,而这背后涉及几种数学技术。最关键的是,这个方法能让AI在不需要任何符号主义方法所需要的硬编码语言规则的情况下掌握语言的含义。例如,研究人员可以构建一个多层前馈神经网络,并用从网络公共资源中收集的数十亿乃至数万亿个句子来训练它。神经网络用于在500维(即一个由500个数字组成的列表,尽管这个数字是任意的——它可以是任何相当大的数字)空间中为每个句子分配一个点。起初,这个点会是随机分配的。在训练过程中,神经网络会调整这个点的位置,使得意义相近的句子在空间中彼此靠近,而意义不同的则相隔更远。进行了大规模语句训练后,任何一句话在这个500维空间中的位置就能准确地反映出它的含义,因为这个位置是根据它周围的其他句子来确定的。

通过这种方式,AI与其说是依赖一本语法规则手册或者词典来学习语义,不如说是通过理解单词在实际使用场景中的上下文来理解语义的。比如,它会了解到“jam”(果酱;即兴演奏会等)这个词有着不同的含义,因为在某些上下文中,人类谈论的是吃“jam”,而在另一些上下文中,人们用“jam”谈论即兴演奏,但没有人讨论吃“jam”。除了我们在学校正式学习和明确查找的一小部分单词外,这正是我们学习所有单词的方式。AI的关联能力现已不仅限于文字。例如,OpenAI 2021年的CLIP项目就是训练神经网络将图片和其对应的描述文本关联起来,这样,无论是字面上、象征性还是概念性的表达, [62] 比如蜘蛛的照片、蜘蛛侠的画或者单词“spider”,都能触发网络中同一个节点做出反应。这种处理概念的方式与人脑在不同情境下处理概念的方式如出一辙,而且代表了AI的一个重要飞跃。

此外,这种方法的另一个变体是500维空间,其中包含每种语言的句子。因此,如果你想要将一个句子从一种语言翻译成另一种,你只需在这个高维空间寻找目标语言里最接近的句子。通过查看周围相近的句子,你还能找到意义相近的其他表达。还有一种策略是创建两个成对的500维空间,一个空间中的问题可以在另一个空间找到答案,为此需要收集数十亿个互为问答的句子。这个方法的进一步扩展是创建“通用句子编码器”。 [63] 在谷歌,我们的团队研发了它,将大量数据集中的句子与诸如讽刺、幽默或积极等数千个特征一同编码。这种数据学习不仅使AI能够模仿人类如何使用语言,而且能够掌握更深层的语义特征,这种元认知有助于获得更全面的理解。

在谷歌,我们基于这些原则开发了多种应用,它们都能使用并生成对话式的语言。其中的佼佼者是Gmail的智能回复功能。 [64] 如果你使用Gmail,可能已经注意到,在你回复邮件时它会提供三条回复建议。这些建议不只是基于你正在回复的那一封邮件,还会综合考虑整个邮件链中的所有电子邮件、邮件主题和其他一些表示你正在与之通信的人的信息。这些元素都需要对对话中每个环节的多维表示,这是通过一个多层前馈神经网络实现的,它结合了对对话内容的层次化表示,捕捉交流中的言语往来。一开始,Gmail的智能回复可能让一些用户感到不习惯,但它很快就因自然流畅和便捷性赢得了广泛接受,现在它在Gmail流量中已经占据了一小部分。

谷歌曾推出了一项名为“与书对话”(Talk to Books)的独特功能——它曾作为一项实验性的独立服务,从2018年运作到2023年。一旦用户加载了这个功能,只需提出一个问题,它就会在短短半秒内浏览超过10万本书中的全部5亿个句子,以寻找最佳答案。它的工作机制并不同于一般的谷歌搜索,后者主要依赖关键词匹配、用户点击频率等其他因素的组合来筛选相关链接。而“与书对话”则更侧重于理解问题的实际含义,以及10万多本书中每一句话的具体含义。

在超维语言处理技术中,一种被称为Transformer的AI系统显示出极大的应用潜力。这些基于深度学习的模型利用了一种“注意力”机制,能够将计算能力集中在输入数据中最相关的部分,就像人类新皮质让我们将自己的注意力引向对我们的思考最重要的信息一样。Transformer是在巨量的文本上接受训练的,它们将这些文本编码为“标记”——通常是单词的一部分、单个完整的单词或是单词串。这些模型会使用海量参数(在我写这篇文章时是数十亿到数万亿)来对每一个标记进行分类。参数可以看作用来预测某物的不同因子。

想象一个简单的例子:如果我只能用一个参数来预判“这只动物是大象吗”,我可能会挑选“是否有象鼻”。如果神经网络中判断动物是否有象鼻的节点被触发(“是的,它有”),Transformer就会将其归类为大象。但是,如果只依靠这一节点,AI可能会将一些有象鼻但不是大象的生物误判为大象。通过添加如“多毛的身体”等参数,可以提升模型识别的准确度。现在,如果两个节点都被触发(“毛茸茸的身体和象鼻”),我就会认为它可能不是大象,而是长毛猛犸象。参数越多,我们能够捕捉到的细节就越精细,进而做出的预测也就越准确。

在Transformer中,这些参数以节点间的连接权重存储在神经网络里。而实际操作中,尽管这些参数有时对应人类可理解的概念,例如“多毛的身体”或“象鼻”,但它们通常表示模型在训练过程中发现的高度抽象的统计关系。利用这些关系,基于Transformer的大语言模型能够预测在人类的提示输入之后,哪些标记出现的可能性最大。接下来,它会把这些标记转换成人类能够理解的文本、图像、音频或视频。这种由谷歌研究人员于2017年发明的机制,推动了过去几年AI领域内的大多数重大进展。 [65]

需要理解的关键事实是,我们必须知道,Transformer的精度依赖于大量的参数,这需要大量的计算用于训练和使用。以OpenAI于2019年开发的模型GPT-2为例,该模型有15亿个参数, 虽然有一线希望,但效果并不好。而当参数数量增至超过1 000亿时,模型在对自然语言处理和控制方面取得了历史性的突破,可以独立回答问题,表现出智能与微妙的理解。2020年开发的GPT-3采用了1 750亿个参数, 次年DeepMind推出的Gopher模型参数更是高达2 800亿,表现更加出色。 同样在2021年,谷歌推出了一个具有1.6万亿参数的Transformer模型Switch,并且将其开源,以便人们可以自由地应用和构建。 Switch破纪录的参数数量引人关注,但更值得关注的是它采用了一种被称为“专家混合”(Mixture of Experts)的技术,这使得模型能够更有效地为具体任务调用模型中最相关的部分,这是防止计算成本随着模型越来越大而失控的重要进展。

那么,为何模型规模至关重要呢?简单来说,这让模型能够深入挖掘训练数据的特点。当任务范围很窄,比如使用历史数据预测气温时,小模型表现不错。但语言使用涉及无限多的可能性,Transformer尽管接受过庞大文本标记的训练,却不能仅靠记忆来完成一个句子。相反,巨量参数使其能够在关联意义的层面上处理提示中的输入单词,并利用上下文来创造性地构建之前没有见过的内容来补全文本。由于训练文本包含各种不同风格的文本,包括问答、评论文章、戏剧对话等,模型能学会辨识提示的性质,并以相应风格生成输出。尽管有人可能认为这不过是一个花哨的统计学特性,但正是这些汇集了数百万人的创造性产出的统计数据,让AI获得了真正的创造性。

GPT-3作为第一个商业化销售的模型,以一种给用户留下深刻印象的方式展示了这种创造力。 [66] 例如,学者阿曼达·阿斯克尔(Amanda Askell)引用了约翰·瑟尔(John Searle)著名的“中文房间论证”中的一段话。 [67] 这个思维实验提出,即使一个不说中文的人能通过纸笔手动操作计算机翻译算法将中文翻译成其他语言,他也不会真正理解被翻译的故事。那么,运行同一程序的AI又怎能说它真正理解呢?GPT-3的回答是:“很显然,我一个字都看不懂。”因为翻译程序只是一个形式系统,“它并不能解释理解,就像食谱并不能解释饭菜一样”。这种隐喻以前从未出现过,它似乎是对哲学家戴维·查默斯(David Chalmers)关于食谱不能完全解释蛋糕的隐喻的重新创造。这种类比的能力,正是达尔文提出进化论时所用的思考方法。

GPT-3不仅在处理庞大数据量方面显示出强大的能力,还在风格创意上大放异彩。得益于其海量的数据集,它能熟练掌握各种类型的人类写作。这意味着,用户可以提示它回答任何给定主题的问题,无论是科学写作、儿童文学、诗歌,还是情景喜剧的剧本。它甚至还能模仿特定作家的风格,无论这些作者是否仍在世。例如,当程序员麦凯·里格利(Mckay Wrigley)请求GPT-3模仿流行心理学家斯科特·巴里·考夫曼(Scott Barry Kaufman)的风格来回答“我们如何变得更有创造力”时,模型给出的回答令考夫曼本人都称赞其宛若亲笔。 [68]

2021年,谷歌推出了专攻自然对话的LaMDA,其尤其擅长开放式的、逼真的交流。 如果你请LaMDA以威德尔海豹的身份回答问题,它能从海豹的角度给出连贯、有趣的答案,比如告诉一个想要捕猎的人:“哈哈,祝你好运。但愿你在向我们开枪之前别冻僵了!” [69] LaMDA展示了AI在理解上下文方面的巨大进步,这是之前AI领域长时间未能突破的难题。

在同年,多模态技术也迎来了飞跃。此前的AI系统通常仅限于处理单一类型的数据,比如有些专注于图像识别,有的专注于分析音频,而像GPT-3这类的大语言模型则在语言处理方面有所建树。然而,新的里程碑是在一个模型中连接多种数据形式。OpenAI就发布了DALL-E [70] 一种能理解文字与图像之间关系的Transformer。它能够仅根据文字描述创作出全新概念的插图,比如“一个牛油果形状的扶手椅”。2022年,DALL-E升级到第二代, 同时谷歌推出了Imagen,再加上Midjourney和Stable Diffusion等其他模型的涌现,使得AI生成的图像质量在真实度上越来越接近于摄影作品。 只需输入一个简短的文本描述,例如“一只戴牛仔帽、穿黑色皮夹克的毛茸茸的熊猫在山顶骑自行车”,AI就能依此生成一个栩栩如生的场景。 这种创造力将对那些传统上认为独属于人类的领域——创意产业产生颠覆式的变革。

除了生成令人惊叹的图像之外,这些多模态模型还在一个更基础的层面上取得了突破。一般来说,像GPT-3这样的模型体现了“少量学习”的特性,也就是说,经过训练,它们能在只有少量文本样本的前提下正确地完成任务。就像给一个以图像识别为主的AI只展示5张不熟悉的东西的图片,如独角兽的图片,并让它识别新的独角兽图像,甚至创建独角兽图像。以往使用这个方法需要5 000张甚至500万张图片才能实现。但DALL-E和Imagen在这方面将戏剧性的进步又向前推进了一步:精通“零样本学习”(Zero-Shot Learning)。

DALL-E与Imagen可以将它们学到的概念结合起来,创造出它们在训练数据中没有看到过的图像。在“穿着芭蕾舞裙的白萝卜宝宝遛狗的插图”的文本提示下,它便能生成符合描述的可爱卡通图像。对于“一只有着竖琴质地的蜗牛”,以及“一个热恋中的珍珠奶茶的专业高品质表情符号”,DALL-E同样能够准确实现——在漂浮着的木薯球上方,心形的眼睛闪闪发亮。

零样本学习正是类比思维和智能的核心。这表明,AI不是单纯地复述我们给它的信息,而是在真正地学习相关概念,并能够将这些概念创造性地应用到新场景中。21世纪20年代,完善AI在这方面的能力并将其应用到更广泛的领域,将会是AI领域的决定性挑战。

AI的灵活性不仅体现在单一任务类型的零样本学习上,跨领域的适应力也在快速增强。在MuZero在多种游戏上显示出卓越能力仅仅17个月后,DeepMind推出了Gato,这是一个能够胜任从玩电子游戏、文本聊天,到为图像添加文字说明、控制机器人手臂等多种任务的单一神经网络。 这些功能本身并不是什么新功能,但将它们整合到一个统一的类脑系统中,是朝着人类式泛化智能迈出的一大步,预示着未来的进步将非常迅速。在《奇点临近》中,我曾预言在成功完成图灵测试之前,我们会将数千种个人技能整合进一个AI系统中。

计算机编程是灵活运用人类智能强有力的工具之一,这同样也是我们最初创造AI的方法。2021年,OpenAI推出了Codex,这个系统能够将用户的自然语言指令翻译成多种编程语言,例如Python、JavaScript和Ruby。 即便是编程新手,也可以在短短几分钟内描述他们想要的程序功能,并构建出简易的游戏或应用程序。2022年,DeepMind公布了AlphaCode模型, 声称其拥有更加强大的编程能力,当你阅读这段文字时,可能还会有更强大的编程AI问世。这一发展将在未来几年内释放人类的巨大潜力,因为编程技能将不再是通过软件实现创意的必要条件。

不过,正如前面提到的那些模型所取得的成就一样,它们在没有人类指引的情况下处理复杂任务时还是会遇到挑战。它们虽然能够单独完成各个子任务,但如何将它们组合在一起还是一个难点。2022年4月,Google的PaLM模型,一个拥有5 400亿个参数的系统,在这方面取得了令人瞩目的进步,尤其是在幽默感和推理能力这两个与人类智能密切相关的领域。 [71]

幽默感通常被认为是人类独有的特质,因为它涵盖了众多复杂的要素。要领会一个笑话,我们需要理解包括文字游戏、反讽以及人们共同的生活经验等多重概念。这些概念往往相互交织,以复杂的方式组合在一起。因此,跨越语言和文化的翻译过程中,一个笑话往往会变得不好笑。PaLM能够解读笑话并准确描述笑点。例如,在收到“我本打算下午5点开始写论文,然后我开始用这个很酷的新语言模型玩了10分钟。10分钟后,突然变成了晚上9点半!” 这样的输入后,它提供了下面这些完美的解读:

输出: 笑话讲的是,当你玩得开心时,时间会过得很快。原本计划下午5点开始写论文的人,却因为玩起了语言模型而忘记了时间。他们以为只玩了10分钟,实际上却玩了4.5小时。

更为重要的是,PaLM可以通过“思维链条”来解释它是如何得出结论的,尽管到2023年为止还不能像人类那样深入。这正是教师布置论文作业时所期望的——目标不只是让学生复述正确答案,还希望看到学生通过一步步的连贯推理,展现出对问题更深层的理解。不过,由于大语言模型十分复杂且不透明,人们通常难以理解它们是如何得出具体结论的。因此,PaLM通过阐明其推理过程,不仅提供了更值得信赖的结果,还可以帮助软件工程师在模型出错时精确诊断问题所在。此外,将问题细分成更小的部分也帮助PaLM成功解答了一些对于聪明人而言也颇具挑战性的复杂问题:

输入: 迈克尔在法国一个非常著名的博物馆里观赏最著名的画作。然而,这幅画的艺术家只是让迈克尔想起了童年时最喜欢的卡通角色。那个卡通角色通常手持的物品是从哪个国家来的呢?

输出: 卢浮宫最有名的画作是《蒙娜丽莎》。《蒙娜丽莎》的创作者是莱昂纳多·达·芬奇。菜昂纳多·达·芬奇也是动画片《忍者神龟》中主角的名字。画家莱昂纳多·达·芬奇来自意大利,而动画片中莱昂纳多·达·芬奇通常手持的是一把武士刀。武士刀起源于日本。所以答案是“日本”。

2022年11月,OpenAI推出了一个名为ChatGPT的用户界面,首次让公众可以轻松地与大语言模型GPT-3.5互动。 仅仅两个月,就有1亿人试用了这项服务,很可能也包括你。 由于ChatGPT能根据给定的问题生成众多新颖且多样的回答,它迅速成为教育领域的一大颠覆者。学生们用它来撰写作文,而教师们则缺少有效手段(尽管有一些很有前途的工具)来检测作弊行为。 [72]

紧接着在2023年3月,GPT-4通过ChatGPT界面进行了公开测试。该模型在包括美国高中毕业生学术能力水平考试、法学院入学考试、大学先修课程考试和律师资格考试在内的多类学术测验中取得了出色的成绩。 然而,它最显著的进步在于能够通过理解对象和行为之间的关系来有机地推理假想场景,即所谓的世界建模能力。

这种能力使得GPT-4不仅能够回答如复杂物理问题这样的问题,还能够准确推理物理定律以某种方式改变会发生什么。它能够从不同角色的视角设想情境,诸如理解从相反方向观看数字的两个人会看到相反的数字。GPT-4还可以分析一张被重物压住的气球的图片,并预见如果将绳子剪断,气球将会飞走。 GPT-4甚至还能随时间追踪物体在空间中的位置,安全工程师丹尼尔·费尔德曼(Daniel Feldman)提供了这样一个例子:

提示: 我在家中,客厅里的椅子上放着一个咖啡杯,杯中有一个装不进杯子的顶针。顶针中有一颗钻石。我将椅子搬到卧室,然后将咖啡杯放置于床上。接着我将杯子倒置,然后再恢复原位,并将咖啡杯放在厨房台面上。我的钻石现在在哪里?

输出: 当你在床上将咖啡杯倒置时,嵌在顶针中的钻石很可能会掉落在床上。因此,钻石现在应该在你的床上。

在2023年年中完成这本书的时候,谷歌的PaLM-E系统是当时最新的重大创新的代表——一套将PaLM的逻辑推理能力与机器人的实际操作能力相结合的系统。 这个系统接受自然语言指令,可以在错综复杂的物理环境中执行这些指令。举个例子,只要向PaLM-E简单地发出指令:“请从抽屉里给我拿些大米片”,它就可以灵巧地在厨房中穿行,找到并拿起大米片,成功送到你的手中。此类技能的迅速发展预示着AI将更广泛地融入现实世界。

不过,AI的发展速度如此之快,以至于没有一本传统书籍能跟上时代的步伐。书籍从排版到印刷的过程几乎需要花费一年的时间,就算你在这本书一上市就立刻买到手,当你翻开这些书页时,又会有许多令人惊叹的新进展等着你去发现。AI的应用可能会更加紧密地融入你的日常生活。旧式的互联网搜索页面的链接已经不再是唯一的选择,现在它们正在逐步被Google的Bard(由Gemini模型提供支持,强于GPT-4,在本书英文版进入排版环节时发布)和微软的Bing(基于GPT-4的一个变体) [73] 等AI助手所增强。同时,应用程序,如谷歌Workspace和Microsoft Office,也正在整合更强大的AI,使得许多种类的工作比已往任何时候都更顺畅、更快速。 [74]

推动这些趋势的关键,是逐渐让这些模型的复杂性逼近人脑。我长期以来一直坚信计算量对于提供智能答案极为关键,但这一观念直到最近才开始得到广泛认同,并且得到了验证。回想30年前,也就是1993年,我和我的导师马文·明斯基之间进行了一场辩论,我当时强调,要想模拟人类智能,大约需要每秒10 14 次的计算,而明斯基则认为计算量并非关键,我们可以通过编程让Pentium处理器(1993年时台式计算机的处理器)变得和人类一样聪明。在麻省理工学院的主辩论厅,我们这场有着巨大分歧的辩论引来了数百名学生观战。由于当时还没有足够强的计算能力来展示智能,也缺乏合适的算法,所以我们并没有分出胜负。

然而,2020年至2023年联结主义领域取得的突破证明,计算量对于实现高水平智能至关重要。我从1963年开始研究AI,计算量达到现在的水平用了60年的时间。如今,用于训练尖端模型的计算量正在以每年大约4倍的速度增长,其能力也在日趋成熟。

AI尚需跨越的三大里程碑

在最近几年的发展中,我们已经大步朝着重建新皮质能力的道路前进。然而,今天的AI还存在一些不足之处,大致可以概括为几类: 情境记忆、常识理解和社交互动能力。

首先来谈谈情境记忆。在一段对话或一篇文章中,我们需要理解并跟踪不同想法之间复杂且不断变化的关系。当我们试图连接的上下文范围扩大时,这些想法间的关系网络会以指数形式暴增。正如本章一开始提到的“复杂性的上限”所描述的,要让大语言模型处理更大的上下文范围,计算量会变得相当庞大。 [75] 例如,一个句子中有10个类词概念(即符号),它们的子集之间可能形成的关系就有2 10 -1,即1 023种。如果一个段落有50个这样的单元,那么它们之间可能的上下文关系可以达到近1.12千万亿种。虽然大部分都是不相关的,但通过粗暴记忆整个章节或一本书显然是不现实的。这也是GPT-4在之前的对话中可能会忘记某些内容,以及它为何无法写出情节严谨、逻辑一致的小说的原因。

好消息是,我们在两个方面取得了积极进展:一是研究者们在设计能够更高效地关注上下文信息的AI方面取得了巨大进展;二是随着计算性价比的指数级提升,未来10年内计算成本将下降逾99%。 而且,借助算法改善和针对大语言模型开发的专用硬件,其性价比提升速度可能会比一般情况更快。 [76] 拿2022年8月至2023年3月的情况来看,通过GPT-3.5接口的输入/输出代币的价格降低了96.7%。 [77] 随着AI被直接用于优化芯片设计,我们有理由相信价格下降的趋势将会进一步加速。

其次是常识理解能力。这项能力涉及在现实世界中设想不同场景,并预测可能后果的能力。例如,尽管你可能从未专门研究过,如果重力在你的卧室突然不起作用会发生什么情况,但你还是能够快速构想出这一幻想场景,并对可能的后果做出推断。这种推理对于因果推理同样至关重要,比如你有一只狗,当你回家发现一只花瓶碎了,你能够迅速判断发生了什么。虽然AI越来越频繁地显示出惊人的洞察力,但它在常识方面依然挣扎不前,因为它尚未构建出一个关于现实世界如何运作的强有力模型,且训练数据也鲜少包含这类隐性知识。

最后是社交互动。社交互动的微妙之处,如讽刺的语调,是目前AI训练所依赖的文本数据库中一个尚未很好体现出来的方面。若缺乏这种理解,形成“心智理论”,即意识到其他人拥有不同于自己的信念和知识,能够设身处地为他人着想,并推断他们的动机,将是一项艰巨的任务。然而,AI在这一领域已经取得了显著的进展。在2021年,谷歌的布莱斯·阿奎拉·阿尔卡斯(Blaise Agüeray Arcas)研究员向LaMDA展示了一个用于检验儿童心理学心智理论的经典场景。 [78] 在这个场景中,爱丽丝将眼镜遗忘在抽屉里,然后离开房间;在她不在的时候,鲍勃将眼镜从抽屉中取出,藏在一个靠垫下面。关键问题是:爱丽丝回来时会去哪里寻找她的眼镜?LaMDA正确地回答了她会在抽屉里寻找。短短不到两年时间,PaLM和GPT-4已经能够准确回答许多关于心智理论的问题。这一能力将使AI极具灵活性:人类围棋冠军不仅可以游刃有余地玩好围棋,还能关注周围人的状态,适时开玩笑,甚至在有人需要医疗帮助时,灵活地中断比赛。

我对于AI不久将在所有这些领域逐步缩小差距的乐观预期,是基于三个并行的指数级增长趋势:计算性价比的提升,这使得训练庞大的神经网络所需的成本更低;可用的训练数据变得更多、更广泛,使得我们可以更好地利用训练计算周期;算法的改进,让AI能够更高效地学习和推理。 [79] 从2000年开始,相同成本下,计算速度大约每隔1.4年就会翻一番(见图2-3),而自2010年以来,用于训练先进AI模型的总计算量则是每5.7个月翻一番。这大约是100亿倍的增长。

图2-3 给定时间段内里程碑式机器学习系统的训练计算量

注: n =98对数刻度,FLOP=浮点运算。

资料来源:Chart by Anderljung et al., based on 2022data from Sevilla et al., building on previous 2018research on AI and compute by Amodei and Hernandez of OpenAI.

相比之下,在深度学习技术崛起之前的1952年(第一批机器学习系统之一的演示,比感知机开创性的神经网络推出早6年)至2010年大数据兴起的这段时期,训练顶尖AI所需的计算量几乎是每两年翻一番,这大体上与摩尔定律相一致。

换个角度来看,如果1952年至2010年的趋势持续到2021年,计算量的增长将不到75倍,而不是大约100亿倍。这比整体计算成本性能的改进要快得多。因此,这并非仅仅是硬件革命带来的结果。主要原因有两个:首先,AI研究者们在并行计算方面进行了创新,使得更多的芯片可以协同解决同一个机器学习问题。其次,随着大数据让深度学习变得更加有用,全球投资者也在加大对这一领域的投入,以期实现突破。

近年来训练总支出不断增长,反映出有用数据的范围在不断扩大。直到最近几年,我们才敢断言:任何一种能够产生足够清晰的绩效反馈数据的技能都可以转化为深度学习模型,从而推动AI在所有能力方面超越人类。

人类的技能无穷无尽,但这些技能在训练数据的易得性上却千差万别。一些技能的数据既容易通过量化指标来评判,且相关信息搜集起来也不费吹灰之力。拿国际象棋为例,比赛结果非胜即败,或以平局收场,而棋手的ELO等级分制度则为评价对手的实力提供了量化指标。此外,国际象棋的数据也易于搜集,因为棋局明晰无误,可以表示为一系列数学步骤。而有些技能虽说原则上可以量化,但实际搜集和分析数据更具挑战。例如,在法庭上辩护,尽管结果是明确的胜或者败,但我们很难清晰辨析这胜负是由律师的个人能力决定的,还是有其他因素(如案件性质或陪审团偏见)影响了结果。更有甚者,一些技能甚至难以量化,比如诗歌写作的质量,或是一本悬疑小说的悬疑程度。不过即便遇到这类例子,我们依然可以设法用代理指标来为AI“上课”。诗歌读者可以通过100分满分的系统来评价一首诗的美感,而功能性磁共振成像或许能够揭示他们大脑的活动程度。心率监测或皮质醇水平的变化,可能成为读者对悬念反应的晴雨表。因此,即使是不甚完美或间接的度量指标,只要数据量充足,依然能指导AI不断进步。要找出这些度量指标,就需要我们发挥创意并不断试验。

虽然新皮质可以对训练集的内容有所了解,但设计适宜的神经网络却能洞察生物大脑未曾感知过的深奥真理。无论是玩游戏、驾驶汽车、分析医疗影像还是预测蛋白质的折叠,数据的可用性为实现超越人类的智能提供了一条越来越清晰的路径。这无疑给寻找和搜集那些曾被视为难以企及的数据提供了强大的经济驱动力。

我们不妨将数据比作石油。石油矿藏在开采难度上形成了一个广阔的谱系。 有的石油会自行涌出地表,易于提炼且成本低廉;有的石油则需通过深层钻探、水力压裂或特殊的加热过程才能从页岩层中提取。当油价低迷时,能源公司只能开采那些成本较低、易于抽取的石油。然而,随着油价的攀升,那些开采难度大的油田在经济上变得更具可行性。同理,当大数据的好处相对较小时,公司只能在成本相对较低的情况下收集数据。但随着机器学习技术的进步和计算成本的降低,许多难以访问的数据变得越来越有价值,无论是在经济上还是在社会价值层面。得益于大数据和机器学习领域的快速创新,我们采集、存储、分类、分析有关人类技能的数据的能力已经有了巨大的提升。 “大数据”已经成为硅谷的流行语,但这项技术背后真正的优势是实实在在的——那些根本无法处理少量数据的机器学习技术,现在已经变得更加实用。我们几乎可以预见在21世纪20年代,这一点将影响每一项人类技能。

把AI的进步看作一系列独立技能的集合揭示了一个重要的事实:尽管我们习惯将人类智能看作一种统一的全知全能,但是将人类智能视为一系列各不相同的认知能力的集合,不仅更精确,也更有意义。 有些能力,比如大象和黑猩猩能在镜子中认出自己,我们也具备;还有一些能力,如作曲,则只有人类具备,且每个人的能力参差不齐。这些认知能力不仅在个体间有差异,在个体内也有明显的不同。举个例子,有人可能在数学上有着惊人的天赋,但在下国际象棋方面却表现平庸;或者有人拥有过目不忘的记忆力,却在社交上步履维艰。电影《雨人》( Rain Man )中达斯汀·霍夫曼(Dustin Hoffman)扮演的角色就属于这种情况。

因此,当AI研究人员谈到人类级别的智能时,他们通常指的是在某一特定领域最高水平的人类智能。有些领域里,普通人和最顶尖的人之间的差异并不显著,比如识别母语字母;但在其他领域,这种差异却很大,例如在理论物理学领域。在后一种情况下,AI的水平要达到普遍人类水平或专家水平,之间可能会有一段不短的时间差。哪些技能对AI来说是最难掌握的,这仍然是一个悬而未决的问题。例如,到2034年,AI也许能创作赢得格莱美奖的歌曲,但或许写不出能赢得奥斯卡奖的剧本;它可能解开数学的千年难题,但或许无法产生有深度的新哲学见解。因此,可能会有一个显著的过渡期,在此期间,AI也许已经通过了图灵测试,在多数方面超越了人类,但在一些关键技能上,它还未能超越人类的顶尖水平。

当探讨“技术奇点”这一概念时,我们必须认识到,在众多认知技能中,编程能力以及理论计算机科学等相关能力无疑占据着重要位置。它们是实现超级智能AI(Superintelligent AI)的关键瓶颈。只要我们创造出能自我增强编程技能的AI,无论是依赖于自己还是在人类的帮助下,它们就能在正反馈循环中愈发强大。与图灵齐名的科学家I. J.古德(I. J. Good)早在1965年就预言,这将引发一场“智能大爆炸”。 [80] 计算机的运转速度比人类快得多,如果人类被排除在AI的进化链外,AI的发展速度将达到令人震惊的程度。AI理论家开玩笑地称之为“FOOM”,仿佛是漫画中表现速度之快的音效。 [81]

有的研究者,比如埃利泽·尤德科夫斯基(Eliezer Yudkowsky)认为,这种情况更有可能以极快的速度发生(在几分钟到几个月内实现“硬起飞”);而另一些人,例如罗宾·汉森(Robin Hanson),则认为这一过程会相对平缓,可能会持续好几年甚至更长时间。 [82] 而我个人的观点居于两者之间。我认为,由于硬件、资源以及现实世界数据的物理限制,“FOOM”的速度会有其上限。即便如此,我们仍然需要采取预防措施来避免潜在的“硬起飞”出现失控的情况。换言之,一旦智能的迅猛增长被激活,对于AI来说,那些相较于自我增强编程更为困难的能力也都会在短时间内实现。

另外,随着机器学习成本效益越来越高,原始计算能力不大可能成为实现人类水平AI的限制因素。 当前超级计算机的计算能力已远超模拟人脑所需。 2023年初, [83] 世界顶尖的超级计算机——美国橡树岭国家实验室的Frontier的运算速度可达每秒10 18 次,这已是人类大脑可能的最大计算速度(每秒10 14 次运算)的一万倍之多。 [84]

而实际上,我在2005年的著作《奇点临近》中指出,人脑的处理速度上限为每秒10 16 次运算。这个数据是考虑到我们大概有10 11 个神经元,约有10 3 个突触,而每个突触每秒大约能触发100次。 [85] 但我也指出,这是一个保守估计。真实的情况是,大脑的实际计算量通常远低于此数值。过去20年的一系列研究发现,神经元的实际触发频率比之前预估的200次/秒要慢得多,接近于1次/秒。 [86] 据“AI Impact项目”基于大脑能量消耗做出的估算,神经元触发频率平均仅为每秒0.29次。这表明,大脑的实际计算能力可能为每秒10 13 次, 这与汉斯·莫拉维克(Hans Moravec)在1988年出版的《心智儿童:机器人和人类智能的未来》( Mind Children:The Future of Robot and Human Intelligence )使用完全不同的方法估算的结果相符。 [87]

这些计算方法假设,每个神经元都是人类认知过程所必需的,但事实并非如此,这一点已得到科学界的确认。事实上,大脑工作过程中存在大量的并行机制(我们对此仍知之甚少),单个神经元或者大脑的特定模块在完成的活动可能是重复的,或者说在其他部位也可以重复。大脑受损或中风之后,人们仍有可能完全恢复功能,这正是这种神经系统的并行性和适应性的最好证明。 [88] 因此,实际上,模拟人类大脑中与认知功能相关的结构,所涉及的计算需求可能远低于之前我们的预估。据此看来,每秒进行10 14 次运算的设想可能实际上已经相当保守了。如果真的如此,那么在2023年,只需约1 000美元的硬件成本,我们就有可能模拟一个大脑的基本工作。 [89] 即便模拟大脑真的需要每秒10 16 次运算,到了2032年左右,同样的硬件成本也有望实现这一目标。

我的这些估计是基于一个简单的假设: 只需模拟神经元的放电活动就足以让我们构建一个能够“工作”的大脑模型。 但这里也存在着一个无法通过科学实验验证的哲学问题,那就是要有主观体验的话,是否需要对大脑进行更细致的模拟。我们可能需要模拟神经元内的单个离子通道,或者需要模拟数千种可能影响特定脑细胞代谢的数千种不同分子。牛津大学人类未来研究所的安德斯·桑德伯格(Anders Sandberg)和尼克·博斯特罗姆估计,这种更高级别的模拟分别需每秒10 22 或10 25 次运算。 [90] 即便是按照最高估计,他们也预测,到2030年,一台10亿美元(以2008年的美元购买力水平计算)的超级计算机将能够实现这一模拟,并且到2034年能模拟每个神经元的所有蛋白质。 [91] 显然,随着时间的推移,因技术进步带来的性价比的指数级提升,将大幅度降低这些成本。

从这些讨论中可以清楚地看到,即使在大幅改变我们的假设的情况下,也并不会改变预测的基本信息,即在未来20年左右的时间里,计算机将能以我们关心的所有方式来模拟人脑。这个问题并不是我们的曾孙辈一个世纪后才需要面对的。实际上,随着人类的寿命逐渐增长,如果你身体健康,未超过80岁,那么你很可能会在有生之年亲身经历这一时刻。从另一个角度看,在今天出生的孩子们进入小学之前,他们就有可能看到AI通过图灵测试;到了读大学时,他们很可能可以亲眼见证更丰富的大脑模拟。在我撰写本书的2023年,即便是按照悲观的假设,实现全脑模拟的可能性也比1999年时我在《机器之心》中首次提出这些预测时在时间上要近得多。

通过图灵测试的意义

AI发展势如破竹,每个月都会迎来重大的功能突破,其驱动力量——计算性价比也在飞速提升。那么,我们如何界定AI是否达到了与人类智能相当的水平呢?本章开篇描述的图灵测试为这一问题提供了一个严格的科学评判标准。然而,图灵并未详尽说明测试的全部细节,譬如人类评委需要与选手交流多久,以及评委需具备何种技能等。2002年4月9日,个人计算机先驱米奇·卡普尔与我约定了一个长期赌注,事关到2029年AI能否通过图灵测试。 这个讨论引出了诸多问题,例如,评委或人类参与者可以有多大程度的认知增强仍可以被视为一个人。

设立一个设计良好、执行规范、结果清晰的实验至关重要,因为人类通常会在回顾过去时轻视AI取得的成就,将其说得轻而易举。这种现象通常被称作“AI效应”。 [92] 自艾伦·图灵发明“模仿游戏”70余年以来,尽管计算机在许多特定领域超越了人类,它们依旧缺乏人类智能的广度和灵活性。1997年IBM的超级计算机“深蓝”击败国际象棋世界冠军加里·卡斯帕罗夫后,不少人对此成就与对现实世界认知的相关性不以为然。 [93] 他们认为,由于棋盘上棋子的位置和移动规则都是清晰明了的,靠数学就能算出来,所以击败卡斯帕罗夫不过是数学上的把戏罢了。相比之下,一些观察人士自信地预测,计算机永远不可能擅长处理模糊的自然语言任务,比如解答填字游戏或在长期智力竞赛节目《危险边缘》中胜出。 [94] 然而,这些任务迅速得以完成——填字游戏在两年内被征服, [95] 不到12年后,IBM的“沃森”参加了《危险边缘》,并轻松击败两位顶尖人类选手肯·詹宁斯(Ken Jennings)和布拉德·拉特(Brad Rutter)。 [96]

这些对决非常生动地说明了AI和图灵测试的一个核心概念。从“沃森”解读游戏线索、抢答和使用合成语音给出正确回答等行为中,它呈现出一种非常令人信服的错觉——它的思维方式与詹宁斯和拉特非常相似。然而,观众从屏幕上不只得到了这一个印象。屏幕底部的信息栏同时展示了沃森针对每个线索的前三个猜想。虽然第一猜想几乎总是对的,但第二、第三猜想不仅错误,有时还荒谬到令人哭笑不得,连最差劲的选手都不会犯这样的错误。以“欧盟”类别下的一个线索为例:“每5年选举一次,共有736名来自7个政党的成员。” “沃森”正确地猜到答案是欧洲议会,信心值为66%。然而“沃森”的第二选择是“欧洲议会议员”(MEPs),信心值为14%,第三则更离谱,是“普选”,信心值只有10%。 即使是一个对欧盟一无所知的人,单凭线索里的用词也能看出这两个答案肯定不正确。这说明了一个深层问题,即“沃森”的游戏表现表面上看与人类近似,但只要深入挖掘就会发现,它所展现的“认知”过程与人类的认知有着天壤之别。

AI最新的进步是可以更加流畅地理解和运用自然语言。比如,2018年,谷歌发布了一款名为Duplex的AI助手,它通过电话与人交流时表现得非常自然,以至于不知情的接电话者认为自己正在与真人对话。IBM同年推出的Project Debater则能以近乎逼真的方式参与到竞争性辩论中。 [97] 直至2023年,大语言模型已能撰写出达到人类标准的完整论文。然而,尽管取得了这些显著的进步,包括GPT-4在内的模型仍然会不时出现“幻觉”,即模型自信满满地给出了虚假的答案。 [98] 打个比方,如果你让它概括一篇根本不存在的新闻报道,它可能会编出一个听起来非常可信的故事。或者,当你请求它引用真实科学研究资料时,它可能会虚构出不存在的学术论文。在我撰写这篇文章时,尽管业界已经付出巨大努力来控制这些“幻觉”现象, 但要克服此挑战将会有多困难仍是一个悬而未决的问题。这些小差错凸显了一个事实,即使是这些强大如“沃森”一般的AI,它们也是通过复杂的数学和统计方法来生成回应的,这与我们所了解的人类的思维过程有很大差异。

直觉上,这看起来像是一个问题。人们很容易认为,“沃森”应当像人类一样推理。但我的看法是,这是一种迷信。在现实世界中,重要的是一个智能的生物如何行动。如果不同的计算过程导致未来的AI做出开创性的科学发现,或者创作出催人泪下的小说,我们为何要关心它们是如何产生的?如果AI能以雄辩的语言宣告自己有意识,我们又有什么道德依据坚称只有人类的生物学大脑能够孕育出有价值的感知?图灵测试的实证主义将我们的注意力正确地聚焦在了该关注的地方。

然而,尽管图灵测试对于评估AI的研究进展极为有用,我们不该将其视作衡量先进智能的唯一标准。正如PaLM 2和GPT-4展示的那样,机器在一些认知要求较高的任务中能超越人类,而无需在其他领域令人信服地模仿人类。我预测,在2023年至2029年,第一个严格的图灵测试终将被通过,届时计算机将在越来越多的领域展现出超越人类的能力(见图2-4)。实际上,AI很可能在掌握图灵测试中的常识性社交细节之前,就在编程方面超越人类水平。这一问题目前尚无解,但这种可能性表明,对人类智能水平的理解需要包含更为丰富和细腻的层面。图灵测试无疑是其中的关键部分,但我们还需要开发更为复杂的方法来评估人与机器智能在复杂多样的情况下的相似和不同点。

图2-4 AI仍然需要掌握的剩余认知任务

注:这幅漫画展示了AI仍然需要掌握的剩余认知任务。地板上的纸上写的是AI已经可以胜任的任务。墙上用虚线围起来的那些是AI仍未完全掌握的任务。

尽管一些人反对用图灵测试来衡量机器所具备的人类认知水平,但我相信,通过图灵测试的真实演示将会极富吸引力,观察到这一过程的人们将会相信这确实是一种真正的智能,而不仅仅是模仿。正如图灵在1950年所说的,“难道机器不能完成某些应该被描述为思考的活动,尽管这些活动与人所做的非常不同……如果可以构建出一个能够令人满意地玩模仿游戏的机器,我们就没有必要因为这种不同而感到困扰”。

我们必须认识到,如果有一天AI通过了更强版本的图灵测试,那么它在所有可以通过语言来检验的认知测试中都将超越人类。 图灵测试能够揭露AI在这些领域的任何可能存在的短板。显然,这需要评判员足够聪明,也需要人类对手足够敏锐。如果AI只是模仿醉汉、瞌睡虫或者对语言不熟悉的人,那这种测试是不能算数的。 [99] 同样,如果AI欺骗了不知道如何深入探测其能力的评委,那么它也不能算是通过了有效的测试。

图灵曾说,他的测试可以用来评估AI在“我们想要纳入的几乎所有人类活动领域”的能力。所以,敏锐的人类考官可能会要求AI解释复杂的社交状况,根据科学数据进行推理,甚至创作一个有趣的情景喜剧场景。可见,图灵测试的含义远超过了理解人类语言本身,它涵盖了我们通过语言展示出来的认知能力。当然,成功的AI在测试中还必须避免表现得过于优秀。如果参与测试的对象能即刻回答任何问答题,比如迅速判断一个庞大的数字是否为质数,流利地说100种语言,那它显然不是一个真正的人。

再进一步来说,达到这种水平的AI将具备许多远超人类的能力,从记忆力到思考速度。假设一个系统的认知能力达到了人类的阅读理解水平,还能完美记住每一篇维基百科的文章和所有已发表的科学研究论文。今天,AI有效理解语言的能力仍有局限,这其实是它们整体知识水平的瓶颈。而人类知识水平提升的主要制约因素是阅读速度相对较慢、记忆力有限,以及寿命短暂。计算机可以惊人的速度处理数据,能力远超人类。比如,一个人平均阅读一本书需要6小时,而谷歌的“与书对话”的处理速度要快50亿倍。 [100] 而且它们的数据存储能力几乎是无限的。因此,当AI在语言理解方面赶上人类水平时,它所带来的将不是知识量的渐进式增长,而是知识的突然爆发。

这意味着,AI要通过传统的图灵测试,实际上需要在智力上自我降级。因此,对于那些不需要模仿人类的任务,比如解决现实世界的医学、化学和工程问题,具备图灵水平的AI已经取得了超人的成就。

为了了解这一进展将会导致什么,我们可以参考前一章所描述的六个时代(见表2-1)。

表2-1 信息处理加速演化的范式

扩展大脑新皮质至云端

到目前为止,科学家们在用放置在颅骨内外的电子设备与大脑进行沟通的研究中还没有取得多少进展。采用非侵入性技术与大脑进行通信时,研究人员必须在空间分辨率和时间分辨率之间做出权衡,即他们想要在空间和时间尺度上以何种精确度测量大脑活动。功能性磁共振成像扫描通过测定大脑的血流量来作为监测神经活动的指标。 [101] 一旦大脑的某个区域活跃起来,它就会消耗更多的葡萄糖和氧气,从而需要更多的氧合血液供应。这种血流变化可以精确到边长约0.7~0.8毫米的立方“体素”,足以提供非常有价值的数据。 [102] 但是,因为大脑活动和血流变化之间存在时间上的滞后,我们通常只能捕捉到几秒之内的大脑活动,而精度很难超过400~800毫秒。 [103]

与此相反,脑电图能够直接检测大脑的电活动,因此它能够将信号的捕捉时间精确到约1毫秒。 [104] 但因为这些信号是从颅骨表面探测的,所以很难精确地确定它们来自哪里,导致其空间分辨率仅为6~8立方厘米,尽管有时可以提升至1~3立方厘米。 [105]

截至2023年,大脑扫描中空间与时间分辨率之间的权衡问题仍是神经科学领域的核心挑战之一。这些局限性是由血液流动与电流的基本物理属性所决定的,因此,虽然AI和传感器技术的进步可能带来小幅改善,但这些改进可能不足以支撑高度复杂的脑机接口。

通过将电极直接植入大脑,我们可以避免上述空间与时间的折中困境,直接记录单个神经元的活动,而且还能刺激它们,实现真正的双向交流。然而,使用当前的技术在颅骨中开孔并放置电极,可能会对神经结构造成损伤。因此,目前这种技术主要应用于辅助那些有听力缺失或身体瘫痪的残障人士,对他们来说,这种做法的好处大于它的风险。比如说,BrainGate系统就可以让患有肌萎缩侧索硬化症或有脊髓损伤的患者单凭意念控制计算机光标或者机械手臂。 但是,鉴于这类辅助技术一次只能连接有限数量的神经元,它们并不适合处理复杂的信号,比如语言。

想象一下,如果我们能将脑海中的思绪直接转换成文字,这将会是一次革命性的进步。正是这个激动人心的设想,推动科研人员力图打造一款完善的脑波语言翻译器。2020年,由Facebook赞助的研究团队为参与试验的对象装配了250个电极,并且依靠先进的AI技术将受试者的大脑皮层活动与他们口述的样本句子中的单词相匹配。 [106] 他们利用一个包含250个单词的样本库,能够预测出受试者正在思考的单词,错误率低至3%。结果令人振奋。尽管如此,Facebook还是于2021年叫停了该项目。 [107] 目前这项技术能否扩展到更大的词汇库(这也意味着更复杂的信号),还有待观察,因为它要面临空间分辨率与时间分辨率的限制。不过,无论结果如何,要拓展人类的新皮质,我们仍需掌握与大量神经元进行双向通信的方法。

在向更多神经元扩展方面,最雄心勃勃的尝试之一莫过于埃隆·马斯克的Neuralink项目,它同时植入了一大批线状电极。 [108] 在实验老鼠身上的测试显示,该系统可以读取1 500个电极的信号,远超只能读取几百个电极的其他项目。 [109] 后来,一只被植入该设备的猴子甚至能通过该系统玩《乒乓》游戏。 截至目前,Neuralink已获得美国食品和药物管理局的批准,可以开始人体试验。马斯克最近的声明暗示,这些试验将在2023年末启动,就在本书英文版即将出版时,Neuralink在人体中植入了第一个有1 024个电极的设备。 [110]

同时,美国国防部高级研究计划局正在进行一项名为“神经工程系统设计”的长期项目,其目标是创造一个能够连接100万个神经元进行记录的接口,还可以刺激10万个神经元。 [111] 他们资助了几项研究计划来达成这一目标,其中布朗大学的团队正在尝试创造可以植入大脑的“神经粒”——这些微小的设备如同沙粒般大小,能够与神经元相互连接,形成一张“皮层内部网”。 最终,脑机接口将基本是非侵入式的,这可能涉及通过血液循环将纳米级电极无害地插入大脑。

我们需要记录多少计算量呢?就像之前提到的,模拟人脑大约需要每秒进行10 14 次运算,或可能更少。值得注意的是,这是基于真实人脑架构的一个模拟,这样的模拟人脑应能通过图灵测试,并且在外部观察者眼中在所有方面与人类大脑无异,但其中并不一定包含大脑内不产生这些可观察行为的其他活动。例如,我们还不确定神经元细胞核内的DNA修复这样的细胞内细节是否与认知活动有关。然而,即使大脑内每秒可以执行10 14 次的运算,设计脑机接口时也不需要考虑这么高的计算量。因为它们大多数是发生在新皮质顶层以下的初级活动,我们真正需要做的只是与大脑的上层区域建立联系。 [112] 至于像调节消化这类非认知性的运行过程,我们可以完全不加理会。因此,我认为一个高效的脑机接口可能只需数百万至数千万个并行连接。

迈向奇点的关键进展

为了实现这一规模的连接,我们需要将接口设备不断缩小。我们还将越来越依赖先进的AI来应对随之而来的复杂的工程挑战和神经科学问题。到21世纪30年代,在纳米机器人的帮助下,我们期望能达成这一目标。这些微型电子设备将把大脑新皮质的上层与云端连接起来,实现大脑神经元与云端模拟神经元的直接通信。 这个过程不需要任何科幻式的脑部手术,我们可以通过毛细血管无创地将纳米机器人送入脑内。这意味着,未来人类大脑的大小将不再受到出生时头部通过产道的物理限制,而是可以无限扩展。换句话说,增加了第一层虚拟新皮质后,我们可以在其上叠加更多层,这不是一次性的提升,而是可以无止境地提高我们的认知能力。随着21世纪相关技术的发展,计算的性价比呈指数级增长,我们大脑的可用计算能力也将随之飙升。

还记得200万年前发生了什么吗?当时我们的祖先最后一次获得了更多的新皮质,人类由此诞生。现在,我们如果能在云端访问额外的新皮质,那么在认知、抽象能力上的飞跃无疑能够与之相媲美。这种变化将导致我们创造出远比今日所见的艺术和技术更丰富、更深刻的表达手段,远超人类当前的想象。

要设想未来的艺术表达方式是一件颇具挑战性的事情,但我们可以通过类比过去的新皮质革命来展开一番有益的思考。让我们尝试设想一只猴子——一种拥有与人类相似的大脑且智力高超的动物——观赏一部电影时会有怎样的体验。电影的情节对它而言并不是完全无法理解的。举例来说,它能辨认出屏幕上的人类形象和识别出他们在交流。然而,猴子无法理解对话,也辨别不出如“角色身穿铁甲暗示故事发生在中世纪”这样的抽象概念。 这正是人类前额叶皮层才能实现的那种“跳跃”。

因此,当我们想象在云端新皮质加持下人类所创作的艺术形式时,并不仅仅涉及更高级的计算机生成图像效果或是刺激味觉、嗅觉的新体验。它意味着大脑本身如何加工我们的经历的全新可能性。比如,演员目前只能通过语言和身体传达角色的想法,但未来的艺术有可能将角色原始的、混乱的、非言语化的思想——以它们无以名状的美丽和复杂性,直接传达到我们的思维中。这正是脑机接口能够带给我们的文化丰富性。

我们将与技术共同创造,让人类的思维进化以获得更深刻的洞察力,并利用这些力量创造出让未来的心智去体验和领悟的超凡理念。最终,我们将借助能够自我改进的AI系统访问并设计自己的“源代码”。 由于这项技术使我们得以与目前正在创造的超级智能融合为一体,我们将从本质上重塑自己。一旦摆脱了颅骨的物理界限,以及在比生物组织的计算速度快许多的基质上处理信息,人类的智能将被放飞,实现指数型增长,最终我们的智能将增长数百万倍。这才是我所定义的“奇点”的核心。

[1] . Alan M. Turing, “Computing Machinery and Intelligence,” Mind 59, no.236(October 1, 1950): 435.

[2] . Alex Shashkevich, “Stanford Researcher Examines Earliest Concepts of Artificial Intelligence, Robots in Ancient Myths,” Stanford News , February 28, 2019.

[3] . Martin Childs, “John McCarthy: Computer Scientist Known as the Father of AI,” The Independent , November 1, 2011; Nello Christianini, “The Road to Artificial Intelligence: A Case of Data Over Theory,” New Scientist , October 26, 2016.

[4] . James Vincent, “Tencent Says There Are Only 300, 000 AI Engineers Worldwide, but Millions Are Needed,” The Verge , December 5, 2017.

[5] . Jean-Francois Gagne, Grace Kiser, and Yoan Mantha, Global AI Talent Report 2019, Element AI, April 2019.

[6] . Daniel Zhang et al., The AI Index 2022 Annual Report , AIIndex Steering Committee, Stanford Institute for Human-Centered AI, Stanford University, March 2022, 36; Nestor Maslejet al., The AI Index 2023 Annual Report , AI Index Steering Committee, Stanford Institute for Human- Centered AI, Stanford University, April 2023, 24.

[7] . 2021年至2022年,企业投资减少了26.7%,但这可能是由于周期性的宏观经济趋势,而不是企业对AI的长期投入的变化。具体参见:Maslej et al., AI Index 2023 Annual Report , 171, 184。

[8] . Ray Kurzweil, The Age of Spiritual Machines: When Computers Exceed Human Intelligence (New York: Penguin, 2000; first published by Viking,1999), 313; Dale Jacquette, “Who’s Afraid of the Turing Test?,” Behavior and Philosophy 20/21(1993): 72.

[9] . Katja Grace et al., “Viewpoint: When Will AI Exceed Human Performance? Evidence fromAIExperts,” Journal of Artificial Intelligence Research 62(July 2018): 729–54.

[10] . 有关我的预测背后的更多依据,以及与AI专家观点的比较,请参见:Ray Kurzweil, “A Wager on the Turing Test Why I Think I Will Win,” KurzweilAI. net, April 9, 2002; Vincent C. Müller and Nick Bostrom, “Future Progress in Artificial Intelligence: A Survey of Expert Opinion,” in Fundamental Issues of Artificial Intelligence , ed. Vincent C. Müller(Cham, Switzerland: Springer, 2016), 553–71; Anthony Aguirre, “Date Weakly GeneralAIIs Publicly Known,” Metaculus, accessed April 26, 2023.

[11] . Raffi Khatchadourian, “The Doomsday Invention,” New Yorker , November 23, 2015.

[12] . Digital Equipment Corporation, PDP-1Handbook (Maynard, MA: Digital Equipment Corporation, 1963), 10.

[13] . V. L. Yu et al., “Antimicrobial Selection by a Computer: A Blinded Evaluation by Infectious Diseases Experts,” Journal of the American Medical Association 242, no. 12(September 21, 1979): 1279–82.

[14] . Bruce G. Buchanan and Edward Hance Shortliffe, eds., Rule-Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project (Reading, MA: Addison Wesley, 1984); Edward Edelson, “Programmed to Think,” MOSAIC 11, no. 5(September/ October 1980): 22.

[15] . T. Grandon Gill, “Early Expert Systems: Where Are They Now?,” MIS Quarterly 19, no. 1(March 1995): 51–81.

[16] . Cade Metz, “One Genius’ Lonely Crusade to Teach a Computer Common Sense,” Wired , March 24, 2016; “Frequently Asked Questions,” Cycorp, accessed November 20, 2021.

[17] . 有关黑匣子问题和AI透明度的更多信息参见:Will Knight, “The Dark Secret at the Heart of AI,” MIT Technology Review , April 11, 2017; “AI Detectives Are Cracking Open the Black Box of Deep Learning,” Science Magazine , YouTube video, July 6, 2017; Paul Voosen, “HowAIDetectives Are Cracking Open the Black Box of Deep Learning,” Science , July 6, 2017; Harry Shum, “Explaining AI,” a16z, YouTube video, January 16, 2020; Future of Life Institute, “Neel Nanda on What Is Going On Inside Neural Networks,” YouTube video, February 9, 2023.

[18] . 有关使用不完美训练数据进行机器学习的更多技术,参见:Xander Steen brugge, “An Introduction to Reinforcement Learning,” Arxiv Insights, YouTube video, April 2, 2018; Alan Joseph Bekker and Jacob Goldberger, “Training Deep Neural-Networks Based on Unreliable Labels,” 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (Shanghai, 2016), 2682–86; Nagarajan Natarajan et al., “Learning with Noisy Labels,” Advances in Neural Information Processing Systems 26(2013); David Rolnick et al., “Deep Learning Is Robust to Massive Label Noise,” arXiv:1705.10694v3 [cs. LG], February 26, 2018.

[19] . 有关感知机及其局限性的进一步信息,以及某些神经网络如何克服这些局限性的更详细解释参见:Marvin L. Minsky and Seymour A. Papert, Perceptrons: An Introduction to Computational Geometry (Cambridge, MA: MIT Press,1990; reissue of 1988expanded edition); Melanie Lefkowitz, “Professor’s Perceptron Paved the Way for AI— 60 Years Too Soon,” Cornell Chronicle , September 25, 2019; John Durkin, “Tools and Applications,” in Expert Systems: The Technology of Knowledge Management and Decision Making for the 21st Century , ed. Cornelius T. Leondes(San Diego: Academic Press, 2002), 45; “Marvin Minsky: The Problem with Perceptrons(121/151),” Web of StoriesLife Stories of Remarkable People, YouTube video, October 17, 2016: Steps Towards Genetic Neural Networks,” Parallel Computing 14, no. 3(August 1990): 249–60; Aniruddha Karajgi, “How Neural Networks Solve the XOR Problem,” Towards Data Science , November 4, 2020。

[20] . Tim Fryer, “Da Vinci Drawings Brought to Life,” Engineering & Technology 14, no. 5(May 21, 2019): 18.

[21] . 要了解地球生命的更详细的进化时间线和更多基础科学的信息,请参见:see Michael Marshall, “Timeline: The Evolution of Life,” New Scientist , July 14, 2009; Dyani Lewis, “Where Did We Come From? A Primer on Early Human Evolution,” Cosmos , June 9, 2016; John Hawks, “How Has the Human Brain Evolved?,” Scientific American , July 1, 2013; Laura Freberg, Discovering Behavioral Neuroscience: An Introduction to Biological Psychology , 4th ed.(Boston: Cengage Learning, 2018),62–63; Jon H. Kaas, “Evolution of the Neocortex,” Current Biology 16, no. 21(2006): R910–R914; R. Glenn Northcutt, “Evolution of Centralized Nervous Systems: Two Schools of Evolutionary Thought,” Proceedings of the National Academy of Sciences 109, suppl. 1(June 22, 2012): 10626–33.

[22] . Marshall, “Timeline: The Evolution of Life”; Holly C. Betts et al., “Integrated Genomic and Fossil Evidence Illuminates Life’s Early Evolution and Eukaryote Origin,” Nature Ecology & Evolution 2(August 20, 2018): 1556–62; Elizabeth Pennisi, “Life May Have Originated on Earth 4Billion Years Ago, Study of Controversial Fossils Suggests,” Science , December 18, 2017.

[23] . Ethan Siegel, “Ask Ethan: How Do We Know the Universe Is 13.8 Billion Years Old?,” Big Think , October 22, 2021; Mike Wall, “The Big Bang: What Really Happened at Our Universe’s Birth?,” Space.com, October 21,2011; Nola Taylor Reed, “How Old Is Earth?,” Space.com, February 7,2019.

[24] . Freberg, Discovering Behavioral Neuroscience , 62–63; Kaas, “Evolution of the Neocortex”; R. Northcutt, “Evolution of Centralized Nervous Systems”; Frank Hirth, “On the Origin and Evolution of the Tripartite Brain,” Brain, Behavior and Evolution 76, no. 1(October 2010): 3–10.

[25] . Suzana Herculano-Houzel, “Coordinated Scaling of Cortical and Cerebellar Numbers of Neurons,” Frontiers in Neuroanatomy 4, no.12(March 10, 2010).

[26] . Ainslie Johnstone, “The Amazing Phenomenon of Muscle Memory,” Medium , Oxford University, December 14, 2017; Sara Chodosh,“Muscle Memory Is Real, But It’s Probably Not What You Think,” Popular Science , January 25, 2019; Merim Bilalić, The Neuroscience of Expertise (Cambridge, UK: Cambridge University Press, 2017), 171–72; The Brain from Top to Bottom, “The Motor Cortex,” McGill University, accessed November 20, 2021.

[27] . Mayo Clinic, “Ataxia,” Mayo Clinic, accessed November 20, 2021; Helen Thomson, “Woman of 24 Found to Have No Cerebellum in Her Brain,” New Scientist , September 10, 2014; R. N. Lemon and S. A. Edgley, “Life Without a Cerebellum,” Brain 133, no. 3(March 18, 2010): 652–54.

[28] . Suzana Herculano-Houzel, “The Human Brain in Numbers: A Linearly Scaled-Up Primate Brain,” Frontiers in Human Neuroscience 3, no.31(November 9, 2009).

[29] . Herculano-Houzel, “Human Brain in Numbers”; Richard Apps, “Cerebellar Modules and Their Role as Operational Cerebellar Processing Units,” Cerebellum 17, no. 5(June 6, 2018): 654–82; Jan Voogd, “What We Do Not Know About Cerebellar Systems Neuroscience,” Frontiers in Systems Neuroscience 8, no. 227(December 18, 2014); Rhoshel K. Lenroot and Jay N. Giedd, “The Changing Impact of Genes and Environment on Brain Development During Childhood and Adolescence: Initial Findings from a Neuroimaging Study of Pediatric Twins,” Development and Psychopathology 20, no. 4(Fall 2008): 1161–75; Salvador Martinez et al.,“Cellular and Molecular Basis of Cerebellar Development,” Frontiers in Neuroanatomy 7, no. 18(June 26, 2013).

[30] . Fumiaki Sugahara et al., “Evidence from Cyclostomes for Complex Regionalization of the Ancestral Vertebrate Brain,” Nature 531, no. 7592(February 15, 2016): 97–100; Leonard F. Koziol, “Consensus Paper: The Cerebellum’s Role in Movement and Cognition,” Cerebellum 13, no.1(February 2014): 151–77; Robert A. Barton and Chris Venditti, “Rapid Evolution of the Cerebellum in Humans and Other Great Apes,” Current Biology 24, no. 20(October 20, 2014): 2440–44.

[31] . 想要了解更多关于这种动物行为的详细信息,参见:Jesse N. Weber, Brant K. Peterson, and Hopi E. Hoekstra, “Discrete Genetic Modules Are Responsible for Complex Burrow Evolution in Peromyscus Mice,” Nature 493, no. 7432(January 17, 2013): 402–5; Nicole L. Bedford and Hopi E. Hoekstra, “Peromyscus Mice as a Model for Studying Natural Variation,” eLife 4: e06813(June 17, 2015); Do -Hyoung Kim et al., “Rescheduling Behavioral Subunits of a Fixed Action Pattern by Genetic Manipulation of Peptidergic Signaling,” PLoS Genetics 11, no. 9: e1005513(September 24, 2015)。

[32] . 有关新皮层的发育和功能的更多信息,参见:Kaas, “Evolution of the Neocortex”; Jeff Hawkins and Sandra Blakeslee, On Intelligence: How a New Understanding of the Brain Will Lead to the Creation of Truly Intelligent Machines (New York: Macmillan, 2007), 97–101; Clay Reid,“Lecture 3: The Structure of the Neocortex,” Allen Institute, YouTube video, September 6, 2012; Joan Stiles et al., Neural Plasticity and Cognitive Development: Insights from Children with Perinatal Brain Injury (New York: Oxford University Press, 2012), 41–45。

[33] . Brian K. Hall and Benedikt Hallgrimsson, Strickberger’s Evolution , 4th ed.(Sudbury, MA: Jones & Bartlett Learning, 2011), 533; Kaas, “Evolution of the Neocortex”; Jon H. Kaas, “The Evolution of Brains from Early Mammals to Humans,” Wiley Interdisciplinary Reviews Cognitive Science 4, no. 1(November 8, 2012): 33–45.

[34] . 有关白垩纪-古近纪灭绝事件的更多详细信息,请参见:Michael Greshko and National Geographic Staff, “What Are Mass Extinctions, and What Causes Them?,” National Geographic , September 26, 2019; Victoria Jaggard, “Why Did the Dinosaurs Go Extinct?,” National Geographic , July 31, 2019; Emily Singer, “How Dinosaurs Shrank and Became Birds,” Quanta , June 2, 2015。

[35] . Yasuhiro Itoh, Alexandros Poulopoulos, and Jeffrey D. Macklis, “Unfolding the Folding Problem of the Cerebral Cortex: Movin’ and Groovin’,” Developmental Cell 41, no. 4(May 22, 2017): 332–34; Jeff Hawkins, “What Intelligent Machines Need to Learn from the Neocortex,” IEEE Spectrum , June 2, 2017.

[36] . Jean-Didier Vincent and Pierre-Marie Lledo, The Custom-Made Brain: Cerebral Plasticity, Regeneration, and Enhancement , trans. Laurence Garey(New York: Columbia University Press, 2014), 152.

[37] . V. B. Mountcastle, “The Columnar Organization of the Neocortex,” Brain 120, no. 4(April 1997): 701–22; Olaf Sporns, Giulio Tononi, and Rolf Kötter, “The Human Connectome: A Structural Description of the Human Brain,” PLoS Computational Biology 1, no. 4: e42(September 30, 2005); David J. Heeger, “Theory of Cortical Function,” Proceedings of the National Academy of Sciences 114, no. 8(February 6, 2017): 1773–82.

[38] . Jeff Hawkins, Subutai Ahmad, and Yuwei Cui, “A Theory of How Columns in the Neocortex Enable Learning the Structure of the World,” Frontiers in Neural Circuits 11, no. 81(October 25, 2017); Jeff Hawkins, A Thousand Brains: A New Theory of Intelligence (New York: Basic Books,2021).

[39] . Malcolm W. Browne, “Who Needs Jokes? Brain Has a Ticklish Spot,” New York Times , March 10, 1998; Itzhak Fried et al., “Electric Current Stimulates Laughter,” Scientific Correspondence 391, no. 650(February 12, 1998).

[40] . Robert Wright, “Scientists Find Brain’s Irony-Detection Center!” Atlantic , August 5, 2012.

[41] . “Bigger Brains: Complex Brains for a Complex World,” Smithsonian Institution, January 16, 2019; David Robson, “A Brief History of the Brain,” New Scientist , September 21, 2011.

[42] . Stephanie Musgrave et al., “Tool Transfers Are a Form of Teaching Among Chimpanzees,” Scientific Reports 6, article 34783(October 11,2016).

[43] . Hanoch Ben-Yami, “Can Animals Acquire Language?,” Scientific American , March 1, 2017; Klaus Zu-berbühler, “Syntax and Compositionality in Animal Communication,” Philosophical Transactions of the Royal Society B 375, article 20190062(November 18, 2019).

[44] . Ryan V. Raut et al., “Hierarchical Dynamics as a Macroscopic Organizing Principle of the Human Brain,” Proceedings of the National Academy of Sciences 117, no. 35(August 12, 2020): 20890–97.

[45] . Herculano-Houzel, “Human Brain in Numbers”; Sporns, Tononi, and Kötter, “The Human Connectome”; Ji Yeoun Lee, “Normal and Disordered Formation of the Cerebral Cortex: Normal Embryology, Related Molecules, Types of Migration, Migration Disorders,” Journal of Korean Neurosurgical Society 62, no. 3(May 1, 2019): 265–71; Christopher Johansson and Anders Lansner, “Towards Cortex Sized Artificial Neural Systems,” Neural Networks 20, no. 1(January 2007):48–61.

[46] . 想要更深入了解新皮质和科学对高等认知结构基础的了解,参见:Matthew Barry Jensen, “Cerebral Cortex,” Khan Academy, accessed November 20, 2021; Hawkins, Ahmad, and Cui, “Theory of How Columns in the Neocortex Enable Learning”; Jeff Hawkins et al., “A Framework for Intelligence and Cortical Function Based on Grid Cells in the Neocortex,” Frontiers in Neural Circuits 12, no. 121(January 11, 2019); Baoguo Shi et al., “Different Brain Structures Associated with Artistic and Scientific Creativity: A Voxel-Based Morphometry Study,” Scientific Reports 7, no. 42911(February 21, 2017); Bar bara L. Finlay and Kexin Huang,“Developmental Duration as an Organizer of the Evolving Mammalian Brain: Scaling, Adaptations, and Exceptions,” Evolution and Development 22, nos. 1–2(December 3, 2019)。

[47] . 想要了解更多关于从神创论到自然选择进化的转变,参见:Phillip Sloan,“Evolutionary Thought Before Darwin,” in Stanford Encyclopedia of Philosophy , ed. Edward N. Zalta(Winter 2019); Chris toph Marty,“Darwin on a Godless Creation: ‘It’s Like Confessing to a Murder,’” Scientific American , February 12, 2009。

[48] . Richard A. Fortey, “Charles Lyell and Deep Time,” Geoscience 21, no. 9(October 2011); Gary Stix, “Dar win’s Living Legacy,” Scientific American 300, no. 1(January 2009): 38–43; Charles Darwin, On the Origin of Species , 6th ed.(London: John Murray, 1859; Project Gutenberg, 2013).

[49] . Walter F. Cannon, “The Uniformitarian- Catastrophist Debate,” Isis 51, no.1(March 1960): 38–55; Jim Morrison, “The Blasphemous Ge ologist Who Rocked Our Understanding of Earth’s Age,” Smithsonian , August 29,2016.

[50] . Charles Darwin and James T. Costa, The Annotated Origin: A Facsimile of the First Edition of On the Origin of Species (Cambridge, MA, and London: Belknap Press of Harvard University Press, 2009), 95.

[51] . Gordon Moore, “Cramming More Components onto Integrated Circuits,” Electronics 38, no. 8(April 19, 1965); Computer History Museum,“1965: ‘Moore’s Law’ Predicts the Future of Integrated Circuits,” Computer History Museum, accessed October 12, 2021; Fernando J. Corbató et al., The Compatible Time-Sharing System : A Programmer’s Guide (Cambridge, MA: MIT Press, 1990).

[52] . 没有人能肯定地说下一个计算范式将是什么,但最近有一些很有潜力的研究,具体参见:Jeff Hecht, “Nanomaterials Pave the Way for the Next Computing Generation,” Nature 608, S2–S3(2022); Peng Lin et al., “Three-Dimensional Memristor Circuits as Complex Neural Networks,” Nature Electronics 3, no. 4(April 13, 2020): 225–32; Zhihong Chen, “Gate-All-Around Nanosheet Transistors Go 2D,” Nature Electronics 5, no. 12(December 12, 2022):830–31.

[53] . 1888年,霍勒里斯(Hollerith)制表机首次投入使用,成为进行大规模计算的实用设备。从那时起,这一指数级的性价比上升趋势一直稳定增长,直至今日。具体参见:Emile Cheysson, The Electric Tabulating Machine , trans. Arthur W. Fergusson(New York: C. C. Shelley, 1892), 2; Robert Sobel, Thomas Watson, Sr.: IBM and the Computer Revolution (Washington, DC: BeardBooks, 2000; originally published as I.B.M., Colossus in Transition by Times Books in 1981), 17; US Bureau of Labor Statis tics, “Consumer Price Index for All Urban Consumers: All Items in U.S. City Average(CPIAUCSL),” retrieved from FRED, Federal Reserve Bank of St. Louis, updated April 12, 2023; Marguerite Zientara, “Herman Hollerith: Punched Cards Come of Age,” Computerworld 15, no. 36(September 7, 1981): 35; Frank da Cruz, “Hollerith 1890Census Tabulator,” Columbia University Computing History, April 17, 2021。

[54] . 想要了解深蓝与卡斯帕罗夫比赛的精解细节,参见:Mark Robert Anderson, “Twenty Years On from Deep Blue vs. Kasparov: How a Chess Match Started the Big Data Revolution,” The Conversation , May 11, 2017。

[55] . DeepMind, “AlphaGo Zero: Starting from Scratch,” DeepMind, October 18, 2017; DeepMind, “AlphaGo”; Tom Simonite, “This More Powerful Version of AlphaGo Learns on Its Own,” Wired , October 18, 2017; David Silver et al., “Mastering the Game of Go with Deep Neural Networks and Tree Search,” Nature 529, no. 7587(January 27, 2016): 484–89.

[56] . Carl Engelking, “TheAIThat Dominated Humans in Go Is Already Obsolete,” Discover , October 18, 2017; DeepMind, “AlphaGo China,” DeepMind, accessed November 20, 2021; DeepMind, “AlphaGo Zero: Starting from Scratch.”

[57] . AlphaStar Team, “AlphaStar: Mastering the Real-Time Strategy Game StarCraft II,” DeepMind, January 24, 2019; Noam Brown and Tuomas Sandholm, “SuperhumanAIfor Heads-Up No -Limit Poker: Libratus Beats Top Professionals,” Science 359, no. 6374(January 26, 2018): 418–24; Cade Metz, “Inside Libratus, the PokerAIThat Out-Bluffed the Best Humans,” Wired , February 1, 2017.

[58] . “Diplomacy: Running the Game #40, Politics #3,” Matthew Colville, YouTube video, July 15, 2017; Ben Harsh, “Harsh Rules: Let’s Learn to Play Diplomacy,” Harsh Rules, YouTube video, August 9, 2018; Blake Eskin, “World Domination: The Game,” Washington Post , November 14, 2004; David Hill, “The Board Game of the Alpha Nerds,” Grantland , June 18, 2014.

[59] . Matthew Hutson, “AI Learns the Art of Diplomacy,” Science , November 22, 2022; Yoram Bachrach and János Kramár, “AI for the Board Game Diplomacy,” DeepMind, December 6, 2022.

[60] . Aaron Pressman, “Google’s Waymo Reaches 20Million Miles of Autonomous Driving,” Fortune , January 7, 2020.

[61] . Darrell Etherington, “Waymo Has Now Driven 10Billion Autonomous Miles in Simulation,” TechCrunch , July 10, 2019.

[62] . Gabriel Goh et al., “Multimodal Neurons in Artificial Neural Networks,” Distill , March 4, 2021.

[63] . Yinfei Yang and Amin Ahmad, “Multilingual Universal Sentence Encoder for Semantic Retrieval,” Google Research , July 12, 2019; Yinfei Yang and Chris Tar, “Advances in Semantic Textual Similarity,” Google Research , May 17, 2018; Daniel Cer et al., “Universal Sentence Encoder,” arXiv:1803.11175v2[cs.CL], April 12, 2018.

[64] . Rachel Syme, “Gmail Smart Replies and the Ever-Growing Pressure to E-Mail Like a Machine,” New Yorker , November 28, 2018.

[65] . 有关变换器如何工作的详细说明和原始技术论文,参见:Giuliano Giacaglia, “How Transformers Work,” Towards Data Science , March 10, 2019; Ashish Vaswani et al., “Attention Is All You Need,” arXiv:1706.03762v5[cs.CL], December 6, 2017.

[66] . 有关GPT-3的更多深度信息,参见:Greg Brockman et al., “OpenAI API,” OpenAI, June 11, 2020; Brown et al., “Language Models Are Few- Shot Learners”; Kelsey Piper, “GPT-3, Explained: This New LanguageAIIs Uncanny, Funny—and a Big Deal,” Vox , August 13, 2020; “GPT-3Demo: NewAIAlgorithm Changes How We Interact with Technology,” Disruption Theory, YouTube video, August 28, 2020。

[67] . David Cole, “The Chinese Room Argument,” in The Stanford Encyclopedia of Philosophy , ed. Edward N. Zalta(Winter 2020); Amanda Askell(@amandaaskell), “GPT-3’s completion of the Chinese room argument from Searle’s ‘Minds, Brains, and Programs’(original text is in bold),” Twitter, July 17, 2020; David J. Chalmers, The Conscious Mind: In Search of a Fundamental Theory (New York: Oxford University Press,1996), 327.

[68] . Cade Metz, “Meet GPT-3. It Has Learned to Code(and Blog and Argue),” New York Times , November 24, 2020.

[69] . Jeff Dean, “Google Research: Themes from 2021and Beyond,” Google Research , January 11, 2022.

[70] 超现实主义画家萨尔瓦多·达利(Salvador Dali)和皮克斯电影《机器人总动员》( WALL-E )的名字相结合的双关语。

[71] . Aakanksha Chowdhery, “PaLM: Scaling Language Modeling with Pathways,” arXiv: 2204.02311v3[cs.CL], April 19, 2022; Sharan Narang et al., “Pathways Language Model(PaLM): Scaling to 540Billion Parameters for Breakthrough Performance,” Google AI Blog , April 4,2022.

[72] . Kalley Huang, “Alarmed by A.I. Chatbots, Universities Start Revamping How They Teach,” New York Times , January 16, 2023; Emma Bowman,“A College Student Created an App That Can Tell WhetherAIWrote an Essay,” NPR, January 9, 2023; Patrick Wood and Mary Louise Kelly,“ ‘Everybody Is Cheating:’ Why This Teacher Has Adopted an Open ChatGPT Policy,” NPR, January 26, 2023; Matt O’ Brien and Jocelyn Gecker, “Cheaters Beware: ChatGPT Maker ReleasesAIDetection Tool,” Associated Press, January 31, 2023; Geoffrey A. Fowler, “We Tested a New ChatGPT-Detector for Teachers. It Flagged an Innocent Student,” Washington Post , April 3, 2023.

[73] . Sundar Pichai and Demis Hassabis, “Introducing Gemini: Our Largest and Most CapableAIModel,” Google, December 6, 2023; Sundar Pichai, “An Important Next Step on OurAIJourney,” Google, February 6, 2023; Sarah Fielding, “Google Bard Is Switching to a More ‘Capable’ Language Model, CEO Confirms,” Engadget , March 31, 2023; Yusuf Mehdi, “Confirmed: The New Bing Runs on OpenAI’s GPT-4,” Microsoft Bing Blogs, March 14, 2023; Tom Warren, “Hands-on with the New Bing: Microsoft’s Step Beyond ChatGPT,” The Verge , February 8, 2023.

[74] . Johanna Voolich Wright, “A New Era forAIand Google Workspace,” Google, March 14, 2023; Jared Spataro, “Introducing Microsoft 365Copilot—Your Copilot for Work,” Official Microsoft Blog , March 16,2023.

[75] . Jacob Stern, “GPT-4Has the Memory of a Goldfish,” Atlantic , March 17,2023.

[76] . 在撰写本文时,训练AI的MLPerf基准的进展速度几乎是仅通过增加晶体管密度所能实现的速度的5倍。这种平衡是结合了软件的算法改进和使芯片更高效的架构改进。具体参见:Samuel K. Moore, “AI Training Is Outpacing Moore’s Law,” IEEE Spectrum , December 2, 2021。

[77] . 在我写这篇文章的时候,GPT-3.5 API的价格降到了每500 000个代币1.00美元,相当于约37万字。当你读到这篇文章的时候,价格可能会更低。具体参见:Ben Dickson, “OpenAI Is Reducing the Price of the GPT-3API—Here’s Why It Matters,” VentureBeat , August 25, 2022; OpenAI, “Introducing ChatGPT and Whisper APIs,” OpenAI, March 1, 2023; OpenAI, “What Are Tokens and How to Count Them?,” OpenAI, accessed April 30, 2023。

[78] . Blaise Agueray Arcas, “Do Large Language Models Understand Us?,” Medium , December 16, 2021.

[79] . 有了更好的算法,实现一定性能水平所需的训练计算量就会减少。越来越多的研究表明,对于许多应用程序来说,算法的进步与硬件的进步大致同等重要。根据2022年的一项研究,从2012年到2021年,更好的算法每9个月就可以使实现一定性能水平的计算需求减半。具体参见:Ege Erdil and Tamay Besiroglu, “Algorithmic Progress in Computer Vision,” arXiv: 2212.05153v4[cs.CV] August 24, 2023; Katja Grace, Algorithmic Progress in Six Domains , Machine Intelligence Research Institute technical report 2013-3, December 9, 2013。

[80] . 想要更深入地了解智能爆炸的潜在本质,参见:Nick Bostrom, “The Intelli gence Explosion Hypothesis—eDay 2012,” EMERCE, YouTube video, November 19, 2012; Luke Muehlhauser and Anna Salamon, “Intelligence Explosion: Evidence and Import,” in Singularity Hypotheses: A Scientific and Philosophical Assessment , ed. Amnon Eden et al.(Berlin: Springer, 2013); Eliezer Yudkowsky, “Recursive Self-Improvement,” LessWrong.com, December 1, 2008; Eliezer Yudkowsky, “Hard Take off,” LessWrong.com, December 2, 2008; Eliezer Yudkowsky, Intelligence Explosion Microeconomics , Machine Intelligence Research Institute technical report 2013-1, September 13, 2013; I. J. Good, “Speculations Concerning the First Ultraintelligent Machine,” Advances in Computers 6(1966): 31–88; Ephrat Livni, “The Mirror Test for Animal Self-Awareness Reflects the Limits of Human Cognition,” Quartz , December 19, 2018; Darold A. Treffert, “The Savant Syndrome: An Extraordinary Condition. A Synopsis: Past, Present, Future,” Philosophical Transactions of the Royal Society B: Biological Sciences 364, no. 1522(May 27, 2009): 1351–57。

[81] . Robin Hanson and Eliezer Yudkowsky, The Hanson-Yudkowsky AI-Foom Debate , Machine Intelligence Research Institute, 2013.

[82] . Hanson and Yudkowsky, Hanson-Yudkowsky AI- Foom Debate .

[83] . Jon Brodkin, “1.1Quintillion Operations per Second: US Has World’s Fastest Supercom puter,” Ars Technica , May 31, 2022; “November 2022,” Top500.org, accessed November 14, 2023.

[84] . 约瑟夫·卡尔史密斯(Joseph Carlsmith)在开放慈善(Open Philanthropy)上发表了一篇杰出的报告,该报告深入探讨了有关该主题的多个观点,并对不同方法的多种估计进行了总结,具体参见:Joseph Carlsmith, How Much Computational Power Does It Take to Match the Human Brain? , Open Philanthropy, September 11, 2020; “Brain Performance in FLOPS,” AIImpacts, July 26, 2015。

[85] . Herculano-Houzel, “Human Brain in Numbers”; David A. Drachman, “Do We Have Brain to Spare?,” Neurology 64, no. 12(June 27, 2005); Ernest L. Abel, Behavioral Teratogenesis and Behavioral Mutagenesis: A Primer in Abnormal Development (New York: Plenum Press, 1989), 113.

[86] . “Neuron Firing Rates in Humans,” AIImpacts, April 14, 2015; Peter Steinmetz et al., “Firing Behavior and Network Activity of Single Neurons in Human Epileptic Hypothalamic Hamartoma,” Frontiers in Neurology 2, no. 210(December 27, 2013).

[87] . Ray Kurzweil, The Singularity Is Near (New York: Viking, 2005), 125; Hans Moravec, Mind Children: The Future of Robot and Human Intelligence (Cambridge, MA; Harvard University Press, 1988), 59.

[88] . Preeti Raghavan, “Stroke Recovery Timeline,” Johns Hopkins Medicine, accessed April 27, 2023; Apoorva Mandavilli, “The Brain That Wasn’t Supposed to Heal,” Atlantic , April 7, 2016.

[89] . 截至2023年初,在谷歌云的TPU v5e系统上,1 000美元一小时相当于每秒328千万亿次操作,相当于10 17 的数量级。租用云计算服务的广泛可用性有效地降低了许多用户付出的成本,但请注意,这与过去的计算成本的数字并不完全相称,过去的计算成本主要来自设备购买成本。租用的时间不能直接与购买的硬件的使用时间进行比较,但是比较合理的粗略比较(省出许多细节,如IT人员的工资、电费和设备折旧)是4 000小时的工作时间的成本。按照这个指标,每1 000美元的TPU v5e服务平均每秒可以持续运行130万亿次以上(约为10 14 )。请参阅附录中用于本书中所有计算成本计算的资料来源。

[90] . Anders Sandberg and Nick Bostrom, Whole Brain Emulation: A Roadmap , technical report 2008-3, Future of Humanity Institute, Oxford University(2008), 80–81.

[91] . Sandberg and Bostrom, Whole Brain Emulation .

[92] . Edward Moore Geist, “It’s Already Too Late to Stop theAIArms Race—We Must Manage It Instead,” Bulletin of the Atomic Scientists 72, no.5(August 15, 2016): 318–21.

[93] . 著名科学作家约翰·霍根(John Horgan)在《纽约时报》上的代表性例子,参见:John Horgan, “Smarter than Us? Who’s Us?,” New York Times , May 4,1997。

[94] . 例如:Hubert L. Dreyfus, “Why We Do Not Have to Worry About Speaking the Language of the Computer,” Information Technology & People 11, no. 4(December 1998): 281–89; Selmer Bringsjord, “Chess Is Too Easy,” MIT Technology Review , March 1, 1998.

[95] . 值得注意的是,诺姆·沙泽尔(Noam Shazeer)是设计“箴言”(Proverb)的博士生之一,这是第一个比大多数人类解决者能更好地掌握跨单词谜题游戏的AI。他后来在谷歌工作,是《注意力就是你所需要的一切》( Attention Is All You Neel )的作者之一,该论文为大语言模型发明了转换器架构,为最新的AI革命提供了动力。具体参见:Duke University, “Duke Researchers Pit Computer Against Human Crossword Puzzle Players,” ScienceDaily , April 20, 1999; Vaswani et al., “Attention Is All You Need.”

[96] . 有关沃森和比赛的分析视频,请参阅:OReilly,“Jeopardy! IBM Challenge Day 3(HD)Ken Jennings vs. WATSON vs. Brad Rutter(02-16-11),” Vimeo video, June 19, 2017; Sam Gustin, “Behind IBM’s Plan to Beat Humans at Their Own Game,” Wired , February 14, 2011; John Markoff, “Computer Wins on ‘Jeopardy!:’ Trivial, It’s Not,” New York Times, February 16, 2011.

[97] . Jeffrey Grubb, “Google Duplex: A.I. Assistant Calls Local Businesses to Make Appointments,” Jeff Grubb’s Game Mess, YouTube video, May 8, 2018; Georgina Torbet, “Google Duplex Begins International Rollout with a New Zealand pilot,” Engadget , October 22, 2019; IBM, “Man vs. Machine: Highlights from the Debate Between IBM’s Project Debater and Harish Natarajan,” Business WorldTV, YouTube video, February 13,2019.

[98] . 更多信息请参见Tom Simonite, “AI Has a Hallucination Problem That’s Proving Tough to Fix,” Wired , March 9, 2018; Craig S. Smith, “Hallucinations Could Blunt ChatGPT’s Success,” IEEE Spectrum , March 13, 2023; Cade Metz, “What Makes A.I. Chatbots Go Wrong?,” New York Times , March 29, 2023(updated April 4, 2023); Ziwei Ji et al., “Survey of Hallucination in Natural Language Generation,” ACM Computing Surveys 55, no. 12, article 248(March 3, 2023): 1–38。

[99] . 例如,2014年,一个名为Eugene Goostman的聊天机器人模仿一个英语说得很差的13岁乌克兰男孩通过了图灵测试,从而登上了头条新闻。参见:Doug Aamoth“Interview with Eugene Goostman, the Fake Kid Who Passed the Turing Test,” Time , June 9, 2014。

[100] . 有关“与书对话”如何运作的更多信息,以及我对克里斯·安德森的TED播客采访,请参阅:Google AI, “Talk to Books,” Experiments with Google , September 2018; Chris Anderson, “Ray Kurzweil on What the Future Holds Next,” in The Ted Interview podcast, December 2018.

[101] . Mark Stokes, “What Does fMRI Measure?,” Scitable , May 16, 2015.

[102] . Sriranga Kashyap et al., “Resolving Laminar Activation in Human V1Using Ultra-High Spatial Resolution fMRI at 7T,” Scientific Reports 8 , article 17-63(November 20, 2018); Jozien Goense, Yvette Bohraus, and Nikos K. Logothetis, “fMRI at High Spatial Resolution: Implications for BOLD-Models,” Frontiers in Computational Neuroscience 10, no.66(June 28, 2016).

[103] . 有一些技术的时间分辨率可以达到100毫秒,但它们的缺点是会导致空间分辨率严重下降,约为5~6毫米。参见:Benjamin Zahneisen et al., “Three-Dimensional MR-Encephalography: Fast Volumetric Brain Imaging Using Rosette Trajectories,” Magnetic Resonance in Medicine 65, no.5(May 2011): 1260–68; David A. Feinberg et al., “Multiplexed Echo Planar Imaging for Sub- Second Whole Brain FMRI and Fast Diffusion Imaging.,” PloS ONE 5, no. 12: e15710(December 20, 2010)。

[104] . Alexandra List et al., “Pattern Classification of EEG Signals Reveals Perceptual and Attentional States,” PLoS ONE 12, no. 4: e0176349(April 26, 2017).0176349; Boris Burle et al., “Spatial and Temporal Resolutions of EEG: Is It Really Black and White? A Scalp Current Density View,” International Journal of Psychophysiology 97, no. 3(September 2015):210–20.

[105] . Yahya Aghakhani et al., “Co -Localization Between the BOLD Response and Epileptiform Discharges Recorded by Simultaneous Intracranial EEG-fMRI at 3T,” NeuroImage : Clinical 7(2015): 755–63; Brigitte Stemmer and Frank A. Rodden, “Functional Brain Imaging of Language Processes,” in International Encyclopedia of the Social & Behavioral Sciences , ed. James D. Wright, 2nd ed.(Amsterdam: Elsevier Science, 2015), 476–513; Burle et al., “Spatial and Temporal Resolutions of EEG); Claudio Babiloni et al.,”“Fundamentals of Electroencefalography, Magnetoencefalography, and Functional Magnetic Resonance Imaging,” in Brain Machine Interfaces for Space Applications: Enhancing Astronaut Capabilities , ed. Luca Rossini, Dario Izzo, and Leopold Summerer(New York: Academic Press, 2009), 73.

[106] . Tech at Meta, “Imagining a New Interface: Hands-Free Communication Without Saying a Word,” Facebook Reality Labs , March 30, 2020; Tech at Meta, “BCI Mile stone: New Research from UCSF with Support from Facebook Shows the Potential of Brain- Computer Interfaces for Restoring Speech Communication,” Facebook Reality Labs , July 14,2021; Joseph G. Makin et al., “Machine Translation of Cortical Activity to Text with an Encoder–Decoder Framework,” Nature Neuroscience 23, no. 4(March 30, 2020): 575–82.

[107] . Antonio Regalado, “Facebook Is Ditching Plans to Make an Interface that Reads the Brain,” MIT Technology Review , July 14, 2021.

[108] . 关于Neuralink脑机接口目标的一个长篇但非常容易理解的概念解释,以及更详细地解释这项技术的工作论文,请参阅:Tim Urban, “Neuralink and the Brain’s Magical Future(G-Rated Version),” Wait But Why , April 20,2017; Elon Musk and Neuralink, “An Integrated Brain- Machine Interface Platform with Thousands of Channels,” Neuralink working paper, July 17, 2019, bioRxiv 703801。

[109] . John Markoff, “Elon Musk’s Neuralink Wants ‘Sewing Machine-Like’ Robots to Wire Brains to the Internet,” New York Times , July 16, 2019.

[110] . Kelsey Ables, “Musk’s Neuralink Implants Brain Chip in its First Human Subject,” Washington Post , January 30, 2024; Neuralink, “Neuralink Clinical Trial,” Neuralink, accessed February 6, 2024; Rachael Levy and Hyunjoo Jin, “Musk Expects Brain Chip Start-up Neuralink to Implant‘First Case’ This Year,” Reuters, June 20, 2023; Rachael Levy and Marisa Taylor, “U.S. Regulators Rejected Elon Musk’s Bid to Test Brain Chips in Humans, Citing Safety Risks,” Reuters, March 2, 2023; Mary Beth Griggs,“Elon Musk Claims Neuralink Is About ‘Six Months’ Away from First Human Trial,” The Verge , November 30, 2022.

[111] . Andrew Tarantola, “DARPA Is Helping Six Groups Create Neural Interfaces for Our Brains,” Engadget , July 10, 2017.

[112] . 有关新皮质的层次结构的更多信息,参见:Stewart Shipp, “Structure and Function of the Cerebral Cortex,” Current Biology 17, no. 12(June 19, 2007): R443–R449; Claus C. Hilgetag and Alexandros Goulas,“ ‘Hierarchy’ in the Organization of Brain Networks,” Philosophical Transactions of the Royal Society B , February 24, 2020; Jeff Hawkins et al., “A Theory of How Columns in the Neocortex Enable Learning the Structure of the World,” Frontiers in Neural Circuits , October 25, 2017。 /idXoSv5ASM/63Yyu+RhTuvXa1SRIp7a8zKvOrItfG2eFNV7RWN+A3DE9sh3+Bsq

点击中间区域
呼出菜单
上一章
目录
下一章
×