第二章
关于脑的隐喻

为什么我们需要给脑一个新隐喻？甚至我们为什么会需要隐喻呢？像化学这样的学科领域似乎不需要指导性的隐喻。酸碱概念可不是隐喻：它是溶液的物理属性，是可以用pH精确测量的。所谓的“酸”和“碱”只是便于记忆的术语罢了。为什么整个生物学领域，尤其是神经科学，似乎需要隐喻，而且往往是技术性的隐喻呢？这是件好事吗？

简短的回答是，在自然科学领域，理论家使用的模型就是非常精确的隐喻。以物理学的基础理论为例，其本质上就是在我们脑中构建的一个玩具宇宙，并用数学来表达。但是这个我们想象出来的玩具在所有可观察的方面都和世界表现得一模一样，而且它能很好地预测现实世界的事件。没有人看见过电子的自旋。然而，把电子当作一个想象中的玩具——一个能旋转的条形小磁铁 ——便让我们构建出了一个模型，它能够成功地预测出电子可被我们测量的一切特性，比如它与其他粒子的相互作用。科学理论与它所描述的世界并不完全相同。如果完全一样，它也就没有用了。它的任务是揭示作用机制及其起源。

科学中的隐喻仅是一个模糊的理论，或一个理论的起点。它越深刻就越有用。隐喻的目标应该要具有很多的层次，这些层次要能够被明确地描述出来，并且可以与所研究的系统进行详细的比较。隐喻越深刻，就越接近于理论。其目标要能够体现出系统的关键方面。

隐喻在自然科学中不常被注意到，是因为占主导地位的隐喻都已经足够精确到可以用数学术语来表述的程度了。但是隐喻——尤其是技术性隐喻——在科学史上一直是很关键的，而且随着我们对脑的了解越来越多，它们的重要性还将继续存在。

始于17世纪的科学思想启蒙运动，在很大程度上依赖于那个时代的创新技术。新工艺和新工业为科学家提供了工具。更好的光学技术使好奇心强的人能够看到非常遥远的地方和非常小的东西。新的液压系统可以创造真空，而后者具有许多有趣的特性。但是，早期工业革命的工程学也给了我们带来了隐喻。最重要的是，它给了我们技术这个概念。

技术这个词的英文“technology”虽然借自古希腊语，但它的现代含义是在17世纪才开始使用的。将世界的运作与技术联系起来，意味着宇宙也可能是一个机械，就像一个壮丽而复杂的机械时钟，它或许便是上帝创造的。机械论和形而上学不同，它可以通过实验来研究，因为它是按照固定的、可观测的规则运作的。我们所要做的就是先想象一个可能的机制，然后寻找它的证据。从那时到现在，还原论科学在很大程度上是以此为前提建立的。 ^[1]

在生物学中，技术隐喻无处不在。时钟是其中最流行的一种。人体中没有任何计时系统，但诸如睡眠、觉醒或月经周期等都与机械钟、沙漏或水钟有着类似的运作方式。我们也没有任何已知的生物钟能够持之以恒地计算出统一的时间间隔。取而代之的则是一些相关的化学过程，它们在特定的化学和热学条件下存在一定的振荡或衰减周期。其间隔不一定是均匀的：生物钟的“嘀”状态和“嗒”状态不一定得像机械钟那样保持相同的长度。但这个隐喻仍然非常有用。在一定程度上来说，这个隐喻的效用来自它与生物学不同系统的广泛相关性。例如，随着我们年龄的增长，我们的脱氧核糖核酸（DNA）会被覆上一层小分子化学物质的镀层，这个过程被称为甲基化（methylation）。这些名为甲基基团的化学物质会沿着DNA双螺旋的轨道结合到DNA分子上。这个过程是以一个可预测的速度发生的：我们最近发现甲基化的程度与年龄密切相关，因此它也被称为表观遗传学时钟（epigenetic clock）。同样，DNA甲基化从任何方面来看都不像一个机械钟，但引用这个隐喻能让我们更好地理解宏大的生物学系统。 ^[2]

技术隐喻在神经生物学中一直特别重要。与其他自然科学一样，在神经科学领域中发挥最重要作用的隐喻，正是那最早期、最基本的技术隐喻，个中缘由也与其他学科一样。

笛卡儿（René Descartes）是第一个明确地在自然现象和他那个时代的高科技工程学之间建立类比联系的人。在17世纪中期，他提出了生命系统就是机械自动装置的观点。笛卡儿认为，每个生物体都按照一套固定的规则运行。这一见解开启了全新的理论方法，尤其是那些不考虑神性或天体力量作用的理论。如果动物是一个独立运行的复杂机械，那么神的重要性就不那么突出了。

众所周知的是，笛卡儿并不能完全摒弃生物学中的神性力量。他认为，人类的神秘心智和物质躯体是两种完全不同的事物。这种观点至今仍以他的名字命名，即笛卡儿身心二元论。笛卡儿可以容忍机械性的兔子和狗，但他认为人类和他们看似特殊的自主意识，仍然需要超自然因素的参与。无论好坏，笛卡儿的身心二元论及其潜在意义直到今天仍一直影响着脑科学。有些人认为，我们今天所说的“认知”与二元论的神秘心智概念庶几无差。 ^[3] 但至少在二元论的“身体”部分（包括脑），笛卡儿的基本隐喻在今天仍然是成立的。

在把动物比作机械自动装置的广义隐喻中，笛卡儿为脑如何运作设想了一个更具体的隐喻。它的核心就是管道系统。管道系统如今已是如此的普遍，以至于人们对它都视而不见了。它似乎自古以来就存在着。 ^[4] 但其实即便到了1940年，几乎一半的美国家庭都还没有完整的室内管道系统。在笛卡儿的时代，像凡尔赛宫里的那些宏伟喷泉还是一项重大的工程学进展，只有最富贵的阶层才能享受得到（图2.1）。凡尔赛宫那数平方千米的水景花园主要是在17世纪下半叶为法王路易十四（LouisⅩⅣ）建造的。连续不断的水流通过35千米长的管道被输送分配，并以高达数米的优美弧线喷出。所有的水都要被输送到与塞纳河垂直距离超过500米的高处。有250台水泵在塞纳河水流的驱动下从河里抽水，这些泵的供水量超过了当时整个巴黎的供水量。建造凡尔赛喷泉的部分原因似乎是要用法国的工程实力来吓阻敌对国家。

图2.1 法国凡尔赛宫的水景花园。笛卡儿是最早将当代高科技与脑功能机制建立类比联系者之一。他认为，脑可能采用了像凡尔赛宫中的喷泉那样的水利机制。图片来源：“Fountain in the Parc de Versailles”by Edwin.11（CC-BY 2.0）

在《论人》（ Treatise of Man ）一书中，笛卡儿写道，我们的自主意识的作用“就像你在我们国王（路易十四）的石室和喷泉中看到的那样，水流在它离开喷泉时被赋予的简单力量足以让不同的机器动起来，甚至能让它们演奏乐器，或是根据导水管道的不同配置而说出词句”。 ^[5] 笛卡儿强调了脑中的某一部分，也就是我们现在所称的松果体，是这个管道系统的总阀门。松果体不是成对的，也就是说它是一个单一的、位于中心的块状结构，而不是位于脑两侧的一对镜像结构。松果体位于脑的一个充满液体的脑室附近。现在我们知道，脑室的功能是用脑脊液滋养和保护脑组织。通过笛卡儿对脑解剖学所掌握的知识，我们很容易看出他是如何将松果体和其邻近脑室的管道联系起来的。但松果体与脑的管道相近只是一个巧合，脑室并不控制思维或行为。

笛卡儿的模型是不正确的，但管道隐喻的元素被保留了下来，并在现代神经科学的基础上被重新使用。因研究反射反应而获得1932年诺贝尔生理学或医学奖的谢灵顿（Charles Sherrington）将神经元描述为“类阀门” ^[6] 的结构。神经元确实能调节液体中分子的流动，包括神经递质分子和离子。现代神经科学的另一位创始人卡哈尔（Santiago Ramón y Cajal）在同样的背景下援引了阀门的概念。 ^[7] 在神经元放电的古典模型及当代模型中，神经元电兴奋的最终结果就是一“蓬” ^[8] 神经递质被喷射到突触间隙中，与凡尔赛喷泉的表现并无太大不同。现代神经科学也认识到离子通道的作用，不夸张地说，它像是一个阀门，只不过其气动力学的对象是带电离子和其他分子。离子通道能够调节分子进出细胞的流量，这一流量往往限定于特定类型的分子。

之前说过，隐喻可以让我们看到一个系统背后的“花招儿”或功能。脑可有不少花招儿。部分归功于笛卡儿，我们知道了这些花招儿之一跟管道有关（尽管笛卡儿对管道系统的具体功能理解有误）。

脑的另一个功能是计算。我认为，互联网式通信也是它的功能之一。当然还有很多其他功能。这些功能中的每一个都或多或少地与其对应的工程学类比对象有着相似性。每当我们想象出一个与这些工程系统有关的恰当隐喻时，我们就可以学到很多东西，并通过一个全新的理论透镜进行观察。管道系统与脑之间存在无数不同之处，但管道系统的主要机制确实就是脑传递信息的机制之一。管道系统并不能解释一切。这就是为什么我们还需要其他的隐喻。

对于技术隐喻来说，关联实体之间有着更多对应关系是有帮助的。笛卡儿使用的另一个技术隐喻是将人眼比作成像暗房，这是一种在笛卡儿时代前几十年就开始在欧洲流行的光学设备。成像暗房其实就是一个黑暗的房间，这个房间的一面墙上有一个小孔，它可以在对面的墙壁上形成周围世界的图像。一个暗房实际上就是一个针孔相机，这听上去似乎也没什么高科技，但关键是它的小洞里有一块镜片：它使我们能够向黑暗的房间投射进更多的光，从而得到一个漂亮而明亮的图像，同时保持光束聚焦。在笛卡儿的时代，用于透镜的玻璃已经变得更加纯净，透镜的曲率也更加精确。这使得图像是锐利的、明亮的，具备了被用作高度精确手工图像基础的潜力。 ^[9] 艺术家和建筑师——也就是他们那个时代的科技达人——都是它的狂热用户。这个房间甚至可以移动。我们今天所说的相机，不过就是一个小型化的成像暗房，外加一个快门和胶片。

今天，成像暗房与眼睛的对应关系是显而易见的。我们都知道，我们之所以看见东西是因为光进入了我们的眼睛。但这一点并不是一直以来都被理解的。自古以来，西方大部分地区的大多数人都相信外射理论，即眼睛发射出的粒子束击中了物体，所以我们才探测到它们。 ^[10] 这种观点在笛卡儿的时代还在流行。摆脱这种错误的信念需要一个技术隐喻。事实上，外射理论并不是基于对任何机械系统的参考，而是基于现象学——我们看东西的那种感觉。我们的天真印象是，我们的眼睛（和其他人的眼睛）有一种光芒四射的穿透力，这种观念便产生了几千年来关于视觉的默认假设。

相机隐喻告诉我们，看是关于接收而不是发射光芒。但除了与眼睛本身更好的对应之外，相机隐喻还让我们能够从相机的相关参数方面来思考眼睛，例如焦距、光圈和镜头曲率等。

通过对比笛卡儿与同时代基于类似经验知识进行工作的思想家们，我们就可以看到隐喻的力量。不妨将笛卡儿对脑功能的描述与霍布斯（Thomas Hobbes）的描述进行比较：

所有被称为感觉之品质皆蕴藏于引起它们之物体中，然而物质之运动方式多有不同，故其触动我们器官之方式亦多不同。碰触我们身躯者并非他物，而是各异之运动（盖运动仅成就运动而除外无他）。然而施加于我们而生幻觉，一如觉醒之于梦境。譬如触压、揉搓或击打施加于眼，而后令我们生出光亮之幻觉，又如触压施加于耳而生喧哗之幻觉。我们躯体之所见所闻亦复如是，皆是通过强大却未可观察之运动而生出效果。 ^[11]

霍布斯和笛卡儿都正确地拒绝了外射理论和类似的古典观点。但今天读这两位思想家关于脑的看法，显然笛卡儿的描述更有影响力，因为他采用了一个具体的技术隐喻，而霍布斯只是谈到了物质之间的碰撞。

霍布斯向我们表明，一个基本正确但没有启发性的理论并不那么有用。但理论——尤其是神经生物学中的理论——有时候也会太囿于文字。具体来说，就是我们可能倾向于那些建立在已知生物学特性基础上的脑理论，但它们也相对缺乏想象力。时间回溯200年，想想达尔文（Charles Darwin）。按照科学作家奎曼（David Quammen）的说法，达尔文在进化论方面的巨大突破是，他采用了一个树状隐喻来组织其在“小猎犬号” 南美洲之行所采集到的庞杂的观察成果。这个隐喻汇集在达尔文那幅著名的笔记草图上，后来达尔文称其为“生命之树”，那上面有一个耐人寻味的短语——“我认为”（I think，图2.2）。 ^[12]

图2.2 达尔文的生命之树草图。树状隐喻帮助达尔文将其对遗传和变异的观察整理成一个条理清晰的框架。图片来源：达尔文笔记本B第36页［Transmutationof species（1837—1838）］.‘commenced ... July 1837’；from Darwin Online，https://commons.wikimedia.org/w/index.php?curid=36638808

然而，达尔文在脑如何工作的概念中却不那么富有想象力，部分原因是他缺乏一个好的隐喻。达尔文认为，思想是由脑分泌的，就像消化系统分泌化学物质那样。他在其独具特色的抒情散文中写道：“思想分泌源自脑，重力产生于物质，前者何谈更高级？” ^[13] 鉴于分泌理论在达尔文时代的生物学中有着根本性的地位，这并不算是个不合理的假设。凭什么思维和意志不会以同样的方式运作呢？自然界的物种内部和物种之间显然有很多反复应用的高效机制策略。尽管在达尔文时代，神经递质的释放还不为人所知，但其也可被理解为一种分泌。达尔文的进化论塑造了今天的整个生物学领域，但他对脑的概念（也许他本来也没打算认真对待）在很大程度上已被世人遗忘了。

分泌理论是生物学理论中更偏文字表述形式的一个例子：在一个系统中观察到的行为被挪用去解释另一个系统。相比之下，隐喻可以打开构想系统机制的新模式，进而超越那些已经被理解的模式。技术是脑隐喻的一个特别好的目标。一定程度上，这是因为技术是累积性的，意味着创新是建立在自身基础之上的，就像在生物进化一样。更重要的是，脑和技术一样，是有用途的——或许是有许多用途的。隐喻不仅为我们提供了一个机制，而且还提供了一个目标。

我们可以通过德国哲学家莱布尼兹（Gottfried Leibniz）来追溯脑技术隐喻的演变。莱布尼兹出生于1646年，也就是笛卡儿去世的前4年。笛卡儿时代的水利工程在莱布尼茨的时代已经有了长足的改进。水不仅可以驱动喷泉，还可以驱动复杂的制造业，例如织造工厂。莱布尼茨拒绝了笛卡儿世界观中残留的形而上学部分。心灵并不是如笛卡儿认为的那样处于一个神秘位面，而是脑运作的结果。莱布尼茨想知道这些操作是否能够用机械学来理解，于是他提出了一个磨坊隐喻。磨坊隐喻认为，脑是一组复杂而协调的机械，它们彼此相邻。但磨坊隐喻还提出了一个更微妙的观点。它认为，脑就像磨坊一样，不同的处理过程可能在不同层面上进行，所以微观层面的表现不一定能让我们认识到宏观层面的情况。当代脑科学家巴塞特（Danielle Bassett）和加扎尼加（Michael Gazzaniga）对这一想法进行了如下描述： ^[14]

意识或其他在人脑中的涌现，可以被视为两个广泛层面（心智脑和物理脑）相互作用的特征。为了将这种二分法形象化，请想象你和莱布尼茨一起穿过一个磨坊。假设你可以把磨坊的尺寸放大，使其所有部件都被放大到让你们在其间穿行。你目光所及尽是相互推动的机械部件，在这个层面上，你几乎看不到任何关于磨坊整体功能的痕迹。

换句话说，一旦技术达到一定的复杂程度，其功能就变成了我们将许多更小功能组合在一起的方式。莱布尼茨的磨坊隐喻抓住了这个概念。多重机制嵌套这一概念是20世纪复杂性研究的前奏。在拥有许多组件的复杂系统中，研究人员经常发现“量变引发质变”的规律：当一个系统要素众多时，新的行为就会涌现，这些行为即使在完全了解每个元素如何工作的情况下也是无法预测的。 ^[15]

在20世纪，脑的磨坊隐喻演变成了计算机隐喻，这在一定程度上是借用了莱布尼茨的另一项创新。莱布尼茨因与牛顿（Isaac Newton）共同发明了微积分而闻名。但莱布尼茨还建造了他那个时代最先进的机械计算机（图2.3）。把脑看成是一台计算机，就是把这些想法结合起来：利用脑的复杂磨坊机构来执行系统性的计算。

计算机隐喻缓缓地渗透进了神经科学领域。正如我们后面将会看到的，它在20世纪40年代随着晶体管的兴起而登上舞台。但从那时起直到今天，它一直是本领域隐喻的独苗。将计算机隐喻阐述透彻是非常有价值的。这正是哲学家丘奇兰德（Patricia Churchland）和神经科学家谢诺夫斯基（Terry Sejnowski）于1992年在他们具有里程碑意义的《计算的脑》（ The Computational Brain ）一书中所做的。他们写道：“神经系统本身及其诸多组成部分很可能就是自然进化出的计算机。……它们体现了世界上的特征和关系，并使动物能够去适应它们的环境。” ^[16]

图2.3 莱布尼茨在1700年前后研制的计算设备——阶梯式计算仪——的复制品（来自慕尼黑德意志博物馆）。这台机器是当时最复杂的计算机。莱布尼茨被称为控制论的“守护神”，是当代计算神经科学的先驱。图片来源：“Rechenmas‐chine_von_Leibniz_（Nachbau）”By Eremeev（CC-BY-SA 4.0）

毫无疑问，计算机隐喻对脑的工作原理提供了重要的洞察力。我们将批判地探讨几个计算机隐喻思维的例子，但我们没有必要对该隐喻的效用产生怀疑。我们应当认可它的重要性和创造它的思想家。这一点非常重要，毕竟计算机隐喻是建立在不完整的基础数据之上，而且在一定程度上也是建立在关于神经生物学的不正确的假设上。

在莱布尼茨和脑的计算机隐喻之间，是可以追溯到直接联系的。这一联系最早是由控制论的奠基人之一、数学家维纳（Norbert Wiener）注意到的，他将莱布尼茨称为该运动的“守护神”。 ^[17] 控制论最初旨在理解网络控制和通信，特别是与脑有关的网络控制和通信。但这些想法在实际执行中则大多围绕着计算而展开。今天，有许多人将控制论与计算神经科学画上等号。从最开始，这个领域的一个关键理念就是参照计算电路来研究神经系统的复杂互动。我们将会看到，控制论的衍生理论聚焦的是执行并行计算和序贯并行计算——例如人工神经网络（artificial neural network）——的机器。但值得记住的是，最初的控制论方法的重点在于网络通信和控制。

神经心理学家麦卡洛克（Warren McCulloch）和计算机科学家皮茨（Walter Pitts）在1943年发表了一篇开创性的论文，与维纳一起创立了控制论。 ^[18] 麦卡洛克和皮茨当时致力于模拟单个神经元如何工作。他们特别想抓住两个特点：（1）神经元似乎会将某一时刻各个树突接收到的兴奋信号加总在一起，（2）神经元只有在细胞的内部环境达到某一特定兴奋水平时才会产生放电（动作电位）。

为了建立一个模型，麦卡洛克和皮茨把目光投向了那个时代最高级的技术：机电开关及它的表亲——几年后才被实际应用的晶体管。机电开关使计算机成为可能，因为它们可以被串联起来执行逻辑运算（譬如：如果这个开关打开，就把下一个开关关掉）。换句话说，开关能执行计算。麦卡洛克和皮茨将神经元树突上的输入视为类似开关的元素：它可以是正值或负值，对应于兴奋（增加神经元放电的可能性）和抑制（降低神经元放电的可能性）。在他们的模型中，每个输入值都要乘相应的权重，即开关中的一种数字偏置。将所得数值相加，如果总和大于某个小的正值，神经元就会“放电”或产生一个“1”作为输出。反之，它就保持在“0”的状态，不发生放电。

麦卡洛克和皮茨的神经元是第一个神经元数学模型，它激发了无数的研究和创新，特别是人工神经网络的发明。但是今天，这个模型主要是作为一个例子，说明只使用类似神经元的元素在计算上可以做到些什么。它不是一个关于神经元如何实际放电的有效模型，尽管它启发了后来那些成功的神经元模型，它们确实能相当好地预测放电。

麦卡洛克和皮茨的成果告诉我们，设想单个神经元和开关阵列在信号处理方面存在一种对应关系，可以为我们开启许多考虑整个脑的新方法。他们并没有做其模型与真实神经元的比较实验。而且在他们那个时代，人们都清楚地知道放电现象比他们的模型产生的0或1的二进制信号要复杂得多。此外，该模型所依赖的许多假设现在也被认为是错误的。1943年那篇开创性论文的第一句话是这样介绍他们的模型的：“神经系统是一个由神经元组成的网络，每个神经元都有一个细胞体和一根轴突。它们的连接（即突触）总是在一个神经元的轴突和另一个神经元的躯干之间。” 今天，我们知道有好几种神经元是没有轴突的，而且突触可以是轴突连树突、轴突连轴突，或是树突连树突。有些神经元还拥有名为缝隙连接（gap junction，也叫间隙连接）的直接的、非突触的连接，以便交换化学物质。我指出这些缺陷并不是为了抨击麦卡洛克和皮茨的工作，而是为了彰显这个虽不完美却很好用的隐喻的力量，特别是它作为一个具体的技术隐喻，在体现自然机制方面所发挥的力量。麦卡洛克-皮茨模型强调了一个事实，即神经元将一组输入转化为一组输出的方式是值得研究的。而要让这个系统更容易被我们所认识，就需要以一个人类已经设计并熟悉的系统为参照。譬如像计算机这样的东西。

麦卡洛克和皮茨不需要进行神经生物学实验，因为他们所追求的本就更像是个隐喻，或者说原型理论。麦卡洛克后来写下了对计算机隐喻最清晰也是最早的表述之一，即在1949年发表的《脑像一台计算机器》（The Brain as a Computing Machine）一文。 ^[19] 有了这个想法，将神经元比作计算机的概念就被扩展应用到了需要调用众多神经元的脑过程，例如认知功能。麦卡洛克-皮茨模型发展成为我们现在所说的人工神经网络，或称神经网。它被用来模拟各种类型的脑功能，成了大多数人工智能的基础。

人工神经网络的基本设计源自罗森布拉特（Frank Rosenblatt）在20世纪50年代末对麦卡洛克-皮茨模型的改进。罗森布拉特（图2.4）在康奈尔大学工作时，对类似脑的设备如何存储信息及如何在不同感官数据块之间建立有意义的联系非常感兴趣。他制造了一台被他称为感知器（perceptron）的设备。 ^[20] 它由一个（模拟信号）电子照相机组和一组测量特定方位光强度的检测器（也就是我们今天所说的像素）组成。像素之间以并联方式接向一个求和检测器，后者负责将若干像素的输入强度相加。像素强度的权重值由像素和特定检测器之间连接导线的电阻来控制。权重值最初是随机的。但在每幅图像被提交给感知器后，系统会根据一个固定的规则来对权重集合进行调节。人们设定的规则——例如，当图像中出现字母 E 时调低所有权重，但当出现 X 时则不调低——决定了系统学习的内容。

图2.4 罗森布拉特（1928—1971），早期人工神经网络架构——感知器——的发明者。图片来源：By Anonymous http://www.peoples.ru/science/psihology/frank_rosenblatt/,CC BY-SA 4.0，https://com‐mons. wikimedia. org/w/index.php?curid=64998425

感知器和麦卡洛克-皮茨神经元的主要区别在于权重的更新。通过这一改进，机器可以学会仅根据像素值来识别简单的图片。在一些最早期的测试中，罗森布拉特的机器可以分辨出在不同方向旋转的字母 E 和 X 的黑白图示，并且成功率接近100%。

罗森布拉特制造的设备使用电动马达来调节电位器（改变电阻），并以这种方式来编码权重值的变化。输入和输出之间的数百个连接都需要独立连线：在这台机器的照片中，那种如鼠窝般杂乱的线缆令人印象深刻（图2.5）。尽管是一台基于模拟信号的机器，但感知器的功能与今天最复杂的人工智能软件基本相同。麦卡洛克、皮茨和罗森布拉特理当成为如今广受尊敬的人物，他们的工作除了开启了机器学习之外，还帮助创立了神经科学领域中的几个学科，包括认知科学和心理语言学。

图2.5 罗森布拉特及其同事于20世纪50年代末在康奈尔航空实验室建造的感知器I型。图片来源：（WP:NFCC#4），https://en.wikipedia.org/w/index.php?curid=47541432

然而，神经网络这个典型案例说明了计算机隐喻确实为我们带来了帮助，但也限制了我们对脑功能的理解。今天，计算机隐喻的主导地位几乎延伸到了脑科学的所有角落，从精神病学到社会心理学。毫无疑问，这是一个有用的想法，但它并不能涵盖脑的所有功能。

建立神经网络的目的是呈现事物。它们的任务是存储和重新创建信息。其目标是以某种方式去表征所传入的数据，以便于做出一个良好的决定或判断。例如，一个神经网络可以将一组汽车或飞机的图像按类别分开。该网络实现这一目标的方式是通过学习汽车和飞机图片中常见的碎片化视觉范式，如车轮或机翼的特征性弧线。在这个过程中，它对输入的图像进行了表征，即它已经提取了它所采集到的大量像素数据的基本概要。神经网络并不关心数据到底意味着什么，它们只是在寻找输入数据的数字范式。人工神经网络的目的是达到一个能够反映某种规律的最终状态，无论你把什么样的数字流作为训练数据输入给它。

以感知器为发端，一个不断扩大和增强人工神经网络的运动便开始了。在克服了20世纪60年代那段怀疑和重新评估的时期后，神经网络的规模和复杂性不断提升，并随着硬件速度的提高而增长。最终，它们又催生出了今天的深度学习运动。深度网络是人工神经网络的一种形式，它于20世纪90年代和21世纪初在机器学习和计算机视觉领域崭露头角。 ^[21] 它们与感知器的区别主要在于其庞大的规模，尤其是那些用于表征输入数据权重的数量。

只有单层神经元的系统，例如最初的感知器，可以对输入数据进行基本的区分并取得一定的成功。但如果我们增加更多的层，它们的效果会更好。具体来说，我们将输出层的每个单元都与附加层的每个单元连接起来。这样我们就在层与层之间建立了全对全的连接：附加层中的每个神经元有一个与前一层中每个神经元相关的权重值。原输出层现在则被称为隐藏层。

但区分汽车和飞机是一项比人们想象中更困难的任务。其主要挑战来自图像中的照明和几何学上的多变性。如第一章所述，要执行类似识别的任务，视觉系统必须要能实现无关刺激的不变性。例如，图像中是否有红色不能是判断该图像是一辆汽车还是一架飞机的决定因素。神经网络也面临着同样的挑战。要完成这一任务，深度学习系统需要对一些可能在其他背景下有相关性的变量类型做出不变性处理。

我们将图像逐个像素地送入检测器组（图2.6）。在一个深度网中，每个输入节点（通常被称为“神经元”）都会接收到某张特定图像中的某个特定像素邻域（neighborhood of pixel）的像素值。检测器视野中的每个像素都会乘一个存储在输入节点中的权重值，再输出到这一层中的每个节点。这些输出又被用作神经网络中位置“更深”的下一层的输入。

图2.6 人工神经网络的设计示意图。这个示例网络的目标是产生一个数值来表示输入系统的图像是汽车还是飞机。从历史上看，当图像来自“无约束自然场景”（from the wild）并可能缺失某些部分时，或是从非常规视角进行拍摄时，这对物体识别系统来说会是一项具有挑战性的任务。人工神经网络可以在训练后以极高的精确度来解决这类问题。它们通过寻找区分两类图像的统计学规律性来做到这一点。训练图像被逐个像素地送进输入层。输入层中的每个节点或“神经元”都有一个权重值，它与特定训练图像——如一辆汽车——的输入像素值相乘。各个神经元的这个乘积经过加总之后与一个阈值（在本例中为0.5）相比较。如果总和高于这个值，就意味着系统正确地判断出了该图像是一辆汽车，我们就进入下一张图像。如果下一张图像也是汽车，但结果总和却小于0.5，则根据这一误差的大小对权重值进行调整。对于飞机图像则采取相反的方法。在经过几十万张图像的训练（即“学习”）后，权重被固定下来，这个系统就可以用于分辨新的汽车和飞机图像了。在现实中，通常需要的层数在一个以上，每个层都与连续的输入和输出层之间存在权重。这种多层的系统所执行的就是所谓的“深度学习”。图片由格雷厄姆提供。

在这第二层中，节点的视野被扩大，每个输入数据再次与输入节点和输出节点之间相对应的权重值相乘。我们将这个过程重复几次。在后续的（更深的）层中，每个节点的视野包含了前一层的整节点集。这些就被称为“全连接”层，因为每个输入节点都与前序的每个输出节点相连。在整个网络中，每个连接都有一个相对应的权重。

在输入图像中的所有像素后，我们将最后一层的输出相加，从而得出神经网络对该图像是汽车还是飞机的猜测。我们通常还会给神经网络定义一个数字，来表示实际存在的是汽车还是飞机，比如“0”表示汽车，“1”表示飞机。然后我们将猜测结果与我们想要的输出——即每张图像的正确数字——进行比较。如果相加输出和正确结果之间的差异很大，这意味着我们需要对权重进行调整，因为神经网络没有很好地学会如何做出判断。我们通过增加或减少一个小数值来对整个权重集进行调整，这个小数值应与上一次决策的误差程度成正比。如果相加输出和正确结果之间的差异很小，那么神经网络就做出了一个很好的猜测，所以权重就不会有很大的变化。由此可见，每个权重值都是由整个图像集的像素值以及其他节点应答情况所造就的。通过这种方式，我们就可以把一组汽车或飞机的图像中的典型特性用权重的方式表现出来。深度网络通常会用一半的图像进行训练——每张图像都被人类评估者打上了汽车或飞机的标签——并在另一半没有标签的图像上进行测试。虽然权重的集合对人眼来说是无法理解的，但它体现了（至少在神经网络训练集中的）汽车和飞机之间的视觉区隔。

大量权重对于网络来说的好处是，我们可以非常详细地掌握数据的形态。 ^[22] 今天，使用最佳架构对现实世界图像——例如手写数字——进行分类时，其准确率能够接近100%。 ^[23] 将更多的层连在一起是深度学习的基础，因此系统中的权重数量也在不断加速增长。一般来说，更多的隐藏层意味着更深入、更细微的数据轮廓描摹。拥有了更多层——也就是更多权重——的深度网络，不仅可以区分手写的数字，还可以分辨图像的情感内涵。 ^[24] 深度网络如今在脑视觉系统的机制建模方面特别流行，我们将重点讨论这个问题。当然许多其他的脑系统也在用深度网络进行研究。在视觉方面，这种方法引用了马尔理论的元素，即视觉是一种在脑硬件上运行的软件。一类被称为卷积神经网络（convolutional neural network,简称CNN）的深度网模型在与人类视觉相关领域被研究得越来越多。我们将在下一章中探讨卷积神经网络是如何工作的，但现在重要的是，深度卷积神经网络已经好到可以预测真实视觉神经元的行为方式了。卷积神经网络模型在视觉以外的许多领域也提供了成功的预测。我们总是期待着科学理论能对事物进行预测，因此深度学习模型在这方面似乎很有前途。如果我们能够可靠地预测活体动物中的真实神经元如何对图片做出反应，那么我们的模型的工作机制或许也和脑的机制差不多了。

如今的深度网络已经好到可以完全根据猴所见的图片或听到的声音来预测猴视觉相关脑区的神经群的反应。经过训练后，它们就能独立基于图像和声音来做这件事。也就是说，清醒动物神经元集群的电活动变化，是能够利用深度学习机制，通过像素值或声音频率来进行预测的。但在我们仓促地将深度学习用作神经科学的指导理论之前，我们需要问一下这些预测到底有多好。

对那些神经科学领域之外的人来说，这种在猴身上进行的实验可能看起来非常复杂，以至于接近传说中的火箭科学的复杂性——它涉及脑外科和人工智能。但其实它的基本逻辑并不复杂。我们想猜测一群对图像不同区域敏感的神经元是如何针对特定图像做出反应的，而我们的线索只有图像。研究是这么做的：科学家收集了几千张自然界的数码照片（也许是从谷歌搜图的结果里找来的）。猴看着这些图像在眼前几秒钟一张地闪过，它们的头被固定在一个金属框架内，而计算机则记录下数量不等的一组神经元的放电模式。有些研究中的神经元数量屈指可数，但在最雄心勃勃的研究中，可能会高达几百个甚至数千个之多。这类研究大多需要通过手术来安装电极端口，将它们永久性地固定在头部。这样一来，一只猴就可以被多次测试了。

我们此时所谈及的这些神经元，就位于我们耳后部位的脑外层上，我们通常称这个外层为皮层。具体来说，它们所在的这一脑区是负责分析落在我们视网膜上的光影模式的。这些神经元对光刺激在位置和大小上的一些变化是具有不变性的，倒是有许多神经元似乎更喜欢某些物体，例如人脸。科学家们建立了一个深度网络，大致上接近视觉系统的顺序架构，由各个网络单元来代表视网膜和丘脑神经元，以及它们的连接。随着进一步的深入，各单元慢慢学习到了低层局部单元集群是如何做出反应的。这里就是“魔法”产生的地方，在网络深处，也就是被大家认为主要涉及高层次视觉的那部分皮层的建模。

该网络的训练数据是向猴展示的图像集的其中一半，这样网络最终的输出——对于放电数量的预测——就会与动物看到图像时的放电数量一致。此时，该网络就可以被认为是充分训练过的了。然后，它被用于对另一半图像的预测，以观察这个网络对其未接触过的图像的放电预测与实际放电情况的匹配程度。

这里有一个坏消息。即使是这些深度网络系统中的佼佼者，也只能预测实际神经元活动随时间变化中的一半。 ^[25] 不仅如此，由于该系统预测的是平均放电率，而不是更少见的高活动度爆发，它或许错过了最重要的信号。尤其是这种爆发式神经行为是一种在脑中几乎无处不见的神经活动形式，它并没有被深度网络很好地预测出来。 ^[26]

必须先声明的是，预测清醒猴的这一部分皮层的神经元反应是出了名的困难，所以在这方面的任何改进都应该受到欢迎和赞扬。同样，我们也不清楚一个神经元反应的变异性在多大程度上是可以被预测的，毕竟一个人脑中的特定神经元与另一个人脑中对应的神经元的反应方式也不会完全一模一样（如果“对应的神经元”这个概念确实有任何意义的话）。

预测一般会产生四种可能的结果：命中、失误、假阳性或正确拒绝。相比之下，典型的深度网络方法所测量的是可解释方差（variance accounted for），也就是数据变异性与预测结果变异性的匹配程度。 ^[27] 猴看到的图像也不是对它们很有意义：它们显示的是计算机生成的物体，例如一副无贴图的人体模特样面孔、一块冲浪板，或是一头面朝随机方向的牛漂浮在一片随机而无关的自然背景前（图2.7）。

虽然许多人将深度学习视作将彻底改变神经科学的工具，但有些人对其持怀疑态度也有一定的理由。神经科学可能对用深度学习解决脑问题寄予了过多的信任。 ^[28] 深度学习的局限性很重要，因为它们会影响我们对神经科学下一步发展方向的理解，特别是如何去研究脑的网络化结构。深度学习完全以计算机隐喻为前提。从一定程度上来说，深度学习的局限性也就是计算机隐喻的局限性。正如我们将会看到的，与人工神经网络和深度学习系统相比，互联网隐喻对脑的网络结构做出了非常不同但也更合理的假设。

图2.7 某个训练深度学习系统去预测猴观察自然图像时的神经活动的研究中的刺激实例。深度学习模型的目的是学习一个特定的神经元如何对诸如此类图像做出反应。图片来源：Daniel L. K. Yamins et al.,“Performance‐Optimized Hierarchical Models Predict Neural Responses in Higher Visual Cortex,” Proceedings of the National Academy of Sciences 111, no. 23（2014）:8619 —8624。图片下载自https://github.com/dicarlolab/nrb

首先，深度学习模型并不一定比视皮层相同部位的神经放电的其他非深度模型更好。其他模型更有原则性，因为它们针对进入系统的特定信息种类提出了相关的组织规则。例如，它们可以为检测脸部外观和结构的变化设定规则。 ^[29] 与之相对，深度学习则是一幅统计图景。构建一个深度学习模型就像为一件石雕做个黏土模型：我们可能会创造出一个相当吻合雕塑形式的副本，但我们对原作是如何制作的还知之甚少。尽管大多数脑的研究者否认深度网络是机械模型，但这一研究路线将不可避免地得出这样的结论，即脑确实使用了类似深度网络的机制，因为这类研究中并没有关于其他机制的假设。

深度网络在其名称中用到了网络这一概念。但深度网络中的网络概念与网络科学家的网络概念是不一样的。事实上，网络科学家根本就不认为人工神经网络算是网络。 ^[30] 相反，深度网络之所以强大，是源于其在严格排序的“网络”中连接许多并行计算从而实现适应性计算的那种蛮力。与社交网络或脑网络不同，深度网络的网络连接是相当无趣的。请比较一下图2.8中的脑网络结构（左）和互联网（中间）以及深度网络（右）的网络结构。更关键的一点是，深层网络的网络结构对于执行类脑功能来说是有问题的。

图2.8 脑［猕猴皮层的一部分（CoCoMac数据集）］、互联网（CAIDA-Skitter数据集的一部分）和一个小型六层深度学习系统的网络结构比较。脑是高度互联的，有许多局部连接，但也有大量通往网络中更远位置的捷径。任何一个节点与其他节点几乎都只有一两次跳转的距离。互联网也有类似的模式，尽管与脑相比，节点之间互连密度较低。另外，深层网络的顺序是僵化的，需要在许多层之间进行全连接。一个给定的节点很可能要跨越数次跳转才能到达另一个节点。图片由格雷厄姆提供

深层网络几乎总是需要相邻层之间形成全对全连接。每当我们增加一个全连接层时就会出现这样的连接范式。在猴视觉系统的模型中，全连接层代表了脑颞叶中的高级处理机制，在那里可以计算出物体的类别。问题是，人脑中不可能存在这种形式的全互连性。据估计，如果我们要求所有的神经元都完全互连，那么我们就需要一颗直径为20千米的脑袋才能容纳所有的线路。 ^[31] 即使仅在相邻区域之间实现全连接，尽管已不那么异想天开，但也是不可行的。一个皮层区域和另一个皮层区域之间的连接通常是成区块的或成簇的，而非均匀地分布在邻近脑区的所有可能的输入上。 ^[32] 发育中的脑虽然比成年脑有更密集的相互联系，但远没有达到全连接的程度。

深度网络在网络结构上的另一个问题是，在处理过程的起止点，即从输入层到输出层，中间有许多次跳转。由于神经网络中的单元被认为是神经元，所以跳转所对应的就是突触，或神经元之间的间隙，也就是神经递质需要跨越空间。但脑是不可能等待信号跨越几十个突触才执行基本生理功能的。例如，识别一个物体可能最多需要150毫秒， ^[33] 这个时间只够让一个信号跨越大约5个突触。 ^[34] 假设经过了几十层或几十次操作去完成这一项任务，这样的深度网络模型是不可信的。遗憾的是，尽管越来越多的机器学习研究者承认目前深度学习系统存在性能的局限性，但他们的解决方案往往是增加更多的层。

人工神经网络不是一个可信的交流模型，因为它不是为通信而设计的，它是为表征而设计的。从一定程度上来说，症结在于我们是在用计算而非通信的方式思考问题。

实际上，深度网络只是把简单计算进行多次重复：它是为反复组合数字矩阵而起的华丽的名字。究其本质而言，神经网络的数学机制是矩阵乘法。它只是意味着将一个数组中的元素与另一个数组中的相应元素相乘。除此之外，神经网络就只是对矩阵中被乘的数字进行更新而已。

只要数字足够多，我们就可以很好地描述一个输入空间，我们就可以对图像、语音、金融市场变化及许多其他现象进行分类。国际象棋可以被认为是一个具有64个维度的输入空间，棋盘上的每个方块都是一个维度。每个方块上都可能占着32个棋子中的一个。每个方格的状态随时间的变化遵循固定的规则。任何一次对局都可以被认为是这个空间的一个范式。有了足够的算力来估计棋局的走向，深度网络可以学会碾压任何人类对手。当规则固定而维度又较少时，深度网络在这类型应用中无疑是有用的。但在描述拥有数十亿相互连接的神经元的生物脑如何灵活运作时，它们就不那么有用了。神经网络是一种原型计算机。正由于它们在计算方面如此出众，我们不能指望它们帮助我们理解真正的脑是如何实现灵活通信的。

与脑相比，人工神经网络的学习方式也非常不同。深度学习对训练集的特异性是出了名的敏感。 ^[35] 脑则完全不是这样的。所有可比较的脑之所以如此相似，其中主要的原因之一是它们的学习方式都具有高度灵活性。我们的脑不需要一个特定的训练集。例如，我们每个人都从变化极大的训练集中学习语言：从一开始，我们听到的词句以及听到它们的顺序就绝不相同，而且在语言表达方面也存在着地域差异。然而，所有讲同一种语言的人从相遇的那一刻起就可以互相交流。

这种类型的语言训练大多数时候也是无标签的。我们学习大多数单词的方式不是指着一个苹果说“苹果”，然后等着我们说出“苹果”。相反，我们是通过自发模仿和反复关联来学习的。其他物种的学习方式也大致如此。譬如鸟类，就是通过无监督的观察来学习鸣叫的（当然还要与特定鸣叫元素的遗传倾向相结合）。另外，人工神经网络最开始是随机的，通常需要以有标签训练的形式进行监督学习（例如，这是一辆汽车，这是一架飞机）。 ^[36] 当学习完训练集之后，深度网络的泛化能力也很有限。例如，深度学习要解决不变性问题的可能性——即在目标特性发生变化的情况下仍能正确识别的能力——到目前为止依然是空中楼阁。

脑的主流隐喻是一个强大的思考和语言系统，它让我们能够以一种前后一致的方式分析我们的测量结果，即使我们要处理的是高度格式化的实验流程和精细化的数据。但这也是有代价的。它为我们对脑的理解加上了一个认知桎梏，从科学性上是如此，而我稍后将会说明，从社会性上也是如此。我们可以像许多神经科学家那样，一次又一次地否定计算机隐喻。但除非我们用其他东西来增强它，否则我们终将绕回到它的逻辑中，甚至我们还对此毫无知觉。深度网络运动很成功，却也象征着我们对计算机隐喻有着难以言说的依赖。

尽管一个新的隐喻很重要，但我们仍要谨慎对待它的应用方式。由于我们的认知偏见，用当代高科技进行类比有其特殊的风险。人类对互联网、人工智能和自动驾驶汽车等高科技事物感到异常兴奋，似乎未来是无极限的、超级高效的、必然发生的。高科技隐喻同样可能倾向于做出过度美好的预测。我们需要警惕虚假的或不切实际的希望。我们需要利用任何隐喻的可用部分并抛弃无用的部分。

此外，并非所有的技术进步都能贡献有用的隐喻。在工业革命的鼎盛时期，通灵学家迈尔斯（Frederic Myers）写道，脑是“一个巨大工厂，成千上万个结构复杂、模式各异的织布机在其中习惯性地工作着”。 ^[37] 这个建立在莱布尼茨磨坊基础上的比喻被谢灵顿采纳，并继而将脑写成一个“魔法织布机，数以百万计的闪烁梭子编织着不断消散的图案”。 ^[38] 编织思想的魔法织布机这一形象经久不衰。但即使在谢灵顿的时代，这个比喻也是模糊的，并主要用于诗歌当中（谢灵顿还提出了其他更好的隐喻，例如阀门和电信交换机，我们将在本章后面讨论）。在某种意义上，脑中有许多同时运作的部件在织造一幅美丽的图案，而织布机呼应了脑发育过程中轴突和树突的生长模式。但脑并不是主要为了制造大量相同的东西而设计的。织布机隐喻，无论在诗歌中多么令人回味，都没有像计算机隐喻那样最终能很好地为脑功能理论带来提示。

此时此刻，你可能会说，我们不需要再来一个糟糕的类比，我们只需要看一下生物学。离子通道不仅是一个阀门，它也是一个动态的生化系统，其热力学和遗传学基础可以被研究。毫无疑问，基础生物学过程可以而且也应该在没有隐喻指引的情况下进行研究。然而，对脑这个宏大系统的复杂性和互联性的理解，却能从类比思维中得益。正如笛卡儿、莱布尼兹以及麦卡洛克和皮茨的事迹所表明的那样，与只基于特定现象集合进行假设的方法相比，一个有缺陷的类比——即使是基于不正确的假设——也可以激发出新的问题并最终导致更深入的科学理解。

在脑隐喻的历史中，除了计算机之外，还有一个平行但不那么突出的类比思维流派。它正是基于脑作为一个网络化通信系统这一概念之上。一些人将这一想法追溯到19世纪下半叶的多面手思想家斯宾塞（Herbert Spencer），他曾写道：“许多交汇和分流的地方；而每个地方都［能够］将扰乱它们的波以更大的数量传递下去。” ⁴⁸ 斯宾塞被一些人嘲笑为“书读得不多话说得不少的维多利亚时代杰出人物”， ^[39] 他关于神经网络通信的著作也确实语焉不详。但斯宾塞对神经连接网络的描述还附上了他绘制的神经连接示意图。这些图像证实了斯宾塞在将神经系统设想为一个复杂网络方面的创新性（图2.9）。

斯宾塞强烈影响了谢灵顿以及另一位神经心理学领域的伟大创新者——巴甫洛夫（Ivan Pavlov）。20世纪初，两人都因由斯宾塞所启发的神经系统研究而获得诺贝尔奖。有趣的是，巴甫洛夫和谢灵顿也把神经系统比作是电信接线总机（telecommunications switchboard），而后者正是在那一时期逐渐变得家喻户晓的。

图2.9 斯宾塞的假设性脑网络结构图，绘制于1896年。图片来源：https://babel.hathitrust.org/cgi/pt?id=mdp.39Qi5Q58687925&view=iup&seq=553&size=i75

巴甫洛夫只简短地写下了关于脑是一个接线总机的说法， ^[40] 而谢灵顿的名字如今则与中枢神经系统就像一个电话系统这一概念密切联系在一起（尽管还有织布机隐喻）。他将脑描述为：

一个巨大的网络，其传导线路遵循一定的范式，但在这一范式内，每个通用路径入口处的连接细节都是可变的。灰质［即神经元细胞体］可类比为电话交换机。在不同的时刻，虽然系统的终端是固定不变的，但起点和终点之间的连接是可以配合传输要求而发生改变的，就像一个庞大铁路枢纽处的轨道切换一样。为了实现工作中的切换，我们必须在其纯粹的空间布局中加入时间基准，即线路连接在一定限度内会随着时间而来回切换。 ^[41]

他想表达的意思是，脑必须以某种方式允许信息的灵活交换，它可以是通过类似于电话或铁路枢纽的方式做到这一点。总机隐喻曾经流行过，并一度被大众媒体所接纳（图2.10），但很快就被计算机隐喻的光芒所掩盖了。

谢灵顿的构想中似乎是存在着机械的开关，它们能随着时间不同而改变网络的连接或拓扑结构。为了将接线总机上的一条进线与另一条连接起来，二者必须首先与其他线路断开。一旦双方连接起来，其他线路都不能进入这两方的连接线路。也就是说，网络的物理布局或拓扑结构发生了改变。在铁路交界处，只要轨道被切换并一直保持在那种状态，铁路网络的拓扑结构也就发生了改变。

谢灵顿参考这类高科技系统来解决灵活路由问题是可以理解的。除了电源之外，电话和铁路系统的关键技术就是系统化的路由（路径规划）方案。其全部的目的，就是要让每个节点——无论电话或车站——都能从网络上的任何其他节点到达，并可以规划和处理网络上的流量。但是，当网络拓扑结构发生变化时，节点之间的可用路径也就会改变。短路径可能不再那么短，而有些路径甚至根本就不通了。

图2.10 脑是一个接线总机。图片来源：卡恩（Fritz Kahn）1926年出版的科普作品。https://www.nlm.nih.gov/exhibition/drea‐manatomy/da_g_IV-A0i.html

我们知道，谢灵顿提出的机制是不正确的：脑网络的拓扑结构在短时间内（如权衡证据和做出决定所需的时间尺度）的变化是可以忽略不计的。相反，我们已经发现有许多潜在的机制能够允许在不改变网络拓扑结构的情况下快速和灵活地路由信号。但接线总机隐喻确实让这个问题变得明显了，并提示了解决这个问题的窍门所在。

这些想法是20世纪40年代和50年代早期控制论的组成部分。但在实践中，控制论研究者和后来的研究者几乎总是在关注网络中节点的计算。他们重视的是网络的输出结果，而不是由谢灵顿、巴甫洛夫，甚至斯宾塞所设想的那种全网络灵活通信的实现方式。但由于他们缺乏一个用于灵活全局通信的复杂系统的案例——20世纪40年代，电话网络路由协议与一个世纪前的电报网络基本相同——早期的控制论者选择计算作为他们的隐喻也是情有可原的。

从历史上看，研究通信的科学家们也大多将通信视为一种计算，而不是一种在复杂网络中灵活地交换信息的方式。数学家香农（Claude Shannon）是信息论的创立者，他在贝尔电话实验室工作时，通信当然是他所关心的问题。作为帮助定义早期人工智能范畴的先驱研究小组的一员，香农对脑和认知也有着浓厚的兴趣。1956年，香农和他的同事们设想了一个计算机能够理解语言、学习抽象概念，甚至能够进行创作的世界。但是，他和几乎所有后来者的关注点，都是类似人工神经网络的计算，而不是灵活的全网通信。

香农的信息论在神经科学中经常被引用，但对理解脑网络的作用有限。事实上，香农本人对于将他的信息论应用到电子信号领域之外也是持怀疑态度的。 ^[42] 信息论框架中对通信的测量几乎只涉及单一链路，例如发送方和接收方之间的缆线。单就这方面而言，它是一个很好的理论。譬如，它可以告诉我们，我们需要多粗的缆线才能在电话交谈中达到一个像样的音频质量。

信息论在特定缆线通信的高效化方面也很有用。假设我们有一条信息想通过这条线路发送给我们的朋友。再假设我们的朋友正在等待我们的信息，期望我们告诉他那天晚上什么时候见面去听音乐会。我们真正想做的，就是减少朋友对何时见面的不确定性。我们也许可以简单地说“7点”（7），因为大多数音乐会都在晚上举行。但为了确定性，我们可以改写为“晚7点”（7p.）。如果这就是我们想要传达的信息，那么就没有理由加入任何额外的字符，如“晚上”（p.m.）。添加“上”（m.）将是多余的，通过缆线发送这个字符也是浪费的。理想的情况是，所有在缆线上传输的通信，应该只包含那些让接收者能知道我们想说什么的必要内容。从某种意义上说，我们希望我们的信息尽可能地接近胡言乱语，同时仍然能够传递所有预期的信息。在数学上，所谓胡言乱语，也就意味着我们希望在传递许多信息的过程中对字母表中所有字符的使用频次相同。当一些符号，如字母，比其他符号使用得更多，或者只在某些其他字母相邻处出现，如英文缩写“p.m.”，这就出现了冗余。冗余对通信来说是一种浪费，因为它包含了可以被接收者推断出来的信息。如果我们去除这些种类的冗余，我们就可以建立出质量相同但更加经济的链接。

信息论的数学机制能够非常精确地告诉我们，我们的代码——无论是字母表、字典、一组电子信号，还是任何其他代码系统——与一个理想系统相比效率如何。互联网的基础设施每天在节点与节点之间传递信息时，都会用到香农的信息论。但是，香农的理论并没有提及如何在网络中进行跨越一次跳转以上的信息传递、如何控制信号的实时流动、如何纠正错误，以及如何实现全局灵活性等问题。

这也是因为它的设计初衷在很大程度上是一种计算理论，并如此这般地在之后被应用于脑。将香农定律应用于复杂网络通信上，目前已经取得了一定的进展。 ^[43] 但与已在神经编码研究领域被广泛应用的香农理论不同的是，新的复杂网络信息论框架尚不完整，也未被广泛地应用于脑。有了隐喻转变之后，我们或许会有动力去更多地思考这个问题。

将香农的信息论应用于脑的一个关键问题在于，该理论只涉及符号使用的概率，而不是符号的含义。这又是该理论在脑中效用有限的另一个原因，即使我们只考虑单个神经元的信号。正如我们将在下一章中看到的，我们不知道构成脑内部编码簿中的“符号”是什么。但利用信息论中的一些原理，我们仍然可以窥见脑是如何管理信息的，特别是脑作为一个整体是如何在其天然环境中运作的。现在我们所欠缺的，一定程度上是可以用来讨论大量神经组件之间高效而可靠通信的一个框架和一种语言。

从某些角度来说，人们花了这么长时间才意识到互联网和脑所做的正是灵活、高效、可靠的通信，这真的有点奇怪。关键性的创新——例如将信息切分成大小固定的数据块的系统——已经有半个多世纪的历史了。我们不应该期望脑的工作方式与互联网一模一样。但是，互联网所使用的类似机制，在脑中也是必要的。

归根结底，我们仍然需要给脑以隐喻，因为我们距离真正了解脑还很遥远。我们仍然需要隐喻，还因为脑有着许多不同的事情要做。即使我们想要摒弃隐喻，我们也做不到，因为脑就是我们每个人。我们非常强烈地将它与我们等同起来，我们需要一种理解它的方式。在目前的日常生活中，科学家和非科学家一样，都把自己的脑想象成类似计算机的实体。我们能够从这个基本隐喻出发，较容易地对我们的个人特征和经验进行推断和解释。但我们真的是“生而具备”母性或数学的能力吗？我们真的是在“自动驾驶”，或者说真的有在一天漫长的工作后进行“碎片整理”吗？做出这些类比感觉很自然，因为我们都被桎梏在计算机隐喻之中。脑科学也同样受到桎梏。但是要想从中脱身，我们首先需要大概地了解关于脑我们知道些什么、不知道些什么，以及它是如何处理信息的。

[1] Charles Lowney,“Rethinking the Machine Metaphor Since Descartes: On the Irreducibility of Bodies, Minds, and Meanings,” Bulletin of Science, Technology & Society 31,no. 3（2011）:179–192.

[2] Steve Horvath and Kenneth Raj,“DNA Methylation-Based Biomarkers and the Epigenetic Clock Theory of Ageing,” Nature Reviews Genetics 19, no. 6（2018）:371.

[3] Paul Cisek,“Beyond the Computer Metaphor: Behaviour as Interaction,” Journal of Consciousness Studies 6, nos. 11–12（1999）:125–142.

[4] 复杂的水管工程——包括用于为抽水马桶供水的陶土管——在3500年前的克里特岛米诺斯宫殿中就已经有了。Margalit Fox, Riddle of the Labyrinth （New York:HarperCollins, 2013）,32.

[5] René Descartes, Treatise of Man , trans. P. R. Sloan, in The History and Philosophy of Science , ed. Daniel McKaughan and Holly VandeWall（London: Bloomsbury Academic, 2018）,706.

[6] Motoy Kuno, The Synapse （New York: Oxford University Press, 1995）,3.

[7] Elliott S. Valenstein, The War of the Soups and the Sparks （New York: Columbia University Press, 2007）,3.

[8] Peter Sterling and Simon Laughlin, Principles of Neural Design （Cambridge, MA:MIT Press, 2015）,106.

[9] David Hockney, Secret Knowledge: Rediscovering the Lost Techniques of the Old Masters （New York: Viking, 2001）.

[10] 这一信念可以追溯到柏拉图和其他古典时代的思想家，海什木首次对它进行了驳斥。但外射理论或许反映了更深层次的关于意识和知识的民间心理。我们知道我们与这个世界是分开的，但我们依然可以发现其中事物的丰富信息——那是什么东西以及它能做什么。我们关于这些知识的意识似乎是瞬间产生的。既然我们看不到人脑的内部运作机制，那么很自然的假设就是我们的眼去“问”了世界那是什么，而世上一切的灵给我们做出了答复。这是一种自然推理，在儿童中尤其多见。在一个调研样本中，大约有一半的美国大学生认同外射理论，这或许可见一斑。Gerald A. Winer et al.,“Fundamentally Misunderstanding Visual Perception: Adults á Belief in Visual Emissions,” American Psychologist 57, nos. 6–7（2002）:417.外射理论的实际认可率可能很低，但看起来有可能外射理论是人类对于视觉机制的默认假设。

[11] Thomas Hobbes, Leviathan （London: Andrew Crooke, 1651）,2.

[12] David Quammen, The Tangled Tree （New York: Simon and Schuster, 2018）,33.

[13] Quoted in Howard E. Gruber and Paul H. Barrett, Darwin on Man: A Psychological Study of Scientific Creativity （London: Wildwood House, 1974）,451.

[14] Danielle S. Bassett and Michael S. Gazzaniga,“Understanding complexity in the human brain,” Trends in Cognitive Sciences 15, no. 5（2011）:204.

[15] Philip W. Anderson,“More Is Different,” Scienc e 177, no. 4047（1972）:393–396.

[16] Patricia S. Churchland and Terrence J. Sejnowski, The Computational Brain （Cambridge, Ma: MIT press, 1992）,7.

[17] Flo Conway and Jim Siegelman, Dark Hero of the Information Age: In Search of Norbert Wiener, the Father of Cybernetics （New York: Basic Books, 2006）.

[18] Warren S. McCulloch and Walter Pitts,“A Logical Calculus of the Ideas Immanent in Nervous Activity,” Bulletin of Mathematical Biophysics 5, no. 4（1943）:115–133.这篇论文的标题让人回想起莱布尼茨，是他创造了“逻辑运算”这个词。

[19] Warren S. McCulloch,“The Brain as a Computing Machine,” Electrical Engineering 68（1949）:492–497.

[20] Frank Rosenblatt,“The Perceptron: a Probabilistic Model for Information Storage and Organization in the Brain.” Psychological Review 65, no. 6（1958）:386.

[21] 尽管早期深度学习研究者采用了哺乳动物视觉系统模型中对于视觉处理的一些关键理念，比如福岛邦彦的新认知机（Neocognitron）的人工神经网络，但开始广泛使用深度学习来研究视觉脑还是从21世纪才开始的。Kunihiko Fukushima,“Neocognitron: A Hierarchical Neural Network Capable of Visual Pattern Recognition,” Neural Networks 1, no. 2（January 1988）:119–130.

[22] 代表着一个庞大训练集的权重数值是深度网络中的主要存储的值，而不是计算机代码中的任何特定指令。然而，权重数值可以被用来反向工程构建出训练数据。对于汽车和飞机来说，这样是无害的。但对于面孔和其他具有识别性的敏感信息来说，这就是一个巨大的漏洞。这就是为什么深度学习AI研究者们开始越来越多地开始保守程序的秘密：从互联网上搜来的那些诸如我们的日常习惯或照片的敏感数据，是可以基于我们数据训练的深度网络权重值被重构的。Madhumita Murgia,“Why Some AI Research May Be Too Dangerous to Share,” Financial Times , June 19,2019,https://www.ft.com/content/131f0430-9159-11e9-b7ea-60e35ef678d2.

[23] 可参见E. Kussul et al.,“Rosenblatt Perceptrons for Hand written Digit Recognition,”in IJCNNá01, International Joint Conference on Neural Networks Proceedings （New York: Institute of Electrical and Electronics Engineers, 2001）,2:1516–1520。

[24] Xinge Zhu et al.,“Dependency Exploitation: A Unified CNN-RNN Approach for Visual Emotion Recognition,”in Proceedings of the TwentySixth International Joint Conference on Artificial Intelligence （International Joint Conferences on Artificial Intelligence,2017）,3595–3601.

[25] Daniel L. K. Yamins et al.,“Performance-Optimized Hierarchical Models Predict Neural Responses in Higher Visual Cortex,” Proceedings of the National Academy of Sciences 111, no. 23（2014）:8619–8624.

[26] 尝试使用基于自然影像训练的深度学习模型来预测视觉系统中血流相关指标（例如那些属于放电活动的遥远回响的功能性磁共振成像信号）的各种方法，在可解释方差方面的表现基本上都差不多。Radoslaw Martin Cichy et al.,“Comparison ofDeep Neural Networks to Spatio-Temporal Cortical Dynamics of Human Visual Object Recognition Reveals Hierarchical Correspondence,” Scientific Reports 6（2016）:27755.

[27] Yamins et al. “Performance-Optimized Hierarchical Models Predict Neural Responses,” Proceedings of the National Academy of Sciences 111, no. 23（2014）:8619–8624.

[28] 也有其他人提出过依赖深度学习AI的风险，可参见Brenden M. Lake et al.,“Building Machines That Learn and Think like People,” Behavioral and Brain Sciences 40（2017）;以及Gary Marcus,“Deep Learning: A Critical Appraisal,” arXiv: 1801 00631 （2018）。

[29] Le Chang and Doris Y. Tsao,“The Code for Facial Identity in the Primate Brain,” Cell 169, no. 6（2017）:1013–1028.

[30] 例如，在网络科学（一个由物理学家、数学家、社会科学家和许多其他人构成的研究领域）中，标准教科书《网络概论》（ Networks: An Introduction ）里压根就没提到人工智能网络。M. E. J. Newman, Networks: An Introduction （Oxford: Oxford University Press, 2010）.

[31] Mark E. Nelson and James M. Bower,“Brain Maps and Parallel Computers,” Trends in Neurosciences 13, no. 10（1990）:403–408.

[32] Jonathan B. Levitt and Jennifer S. Lund,“Intrinsic Connections in Mammalian Cerebral Cortex,”in Cortical Areas: Unity and Diversity , ed. A. Schüz and R. Miller（Boca Raton, FL: CRC Press, 2002）,145–166.

[33] Michèle Fabre-Thorpe et al.,“A Limit to the Speed of Processing in Ultra-Rapid Visual Categorization of Novel Natural Scenes,” Journal of Cognitive Neuroscience 13, no.2（2001）:171–180.

[34] Martin J. Tovée,“Neuronal Processing: How Fast Is the Speed of Thought?” Current Biology 4, no. 12（1994）:1125–1127.

[35] 可参见Cathy OáNeill, Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy （New York: Broadway Books, 2017）。

[36] Seyed-Mahdi Khaligh-Razavi and Nikolaus Kriegeskorte,“Deep Supervised, but Not Unsupervised, Models May Explain IT Cortical Representation,” PLoS Computational Biology 10, no. 11（2014）.

[37] Frederic W. H. Myers,“Multiplex personality,” Proceedings of the Society for Psychical Research , 4（1886–1887）,503.

[38] Charles S. Sherrington, Man on His Nature .（New York: Macmillan, 1941）,225.

48. Herbert Spencer, Principles of Psychology （New York: D. Appleton, 1896）,529.

[39] Stephen Jay Gould, The Structure of Evolutionary Theory （Cambridge, MA: Harvard University Press, 2002）,197.

[40] Ivan P . Pavlov, Conditioned Reflexes: An Investigation of the Physiological Activity of the Cerebral Cortex , trans. G. V. Anrep（Oxford: Oxford University Press, 1927）,25–26;219.

[41] Charles Sherrington, Integrative Action of the Nervous System （Cambridge: Cambridge University Press, 1947）,234.

[42] Claude E. Shannon,“The Bandwagon,” IRE Transactions on Information Theory 2, no. 1（1956）:3.

[43] Andrea Goldsmith et al.,“Beyond Shannon: The Quest for Fundamental Performance Limits of Wireless ad Hoc Networks,” IEEE Communications Magazine 49, no. 5（2011）:195–205.也可参见Abbas El Gamal and Young-Han Kim, Network Information Theory（Cambridge: Cambridge University Press, 2011）。另一种很有前景的一般性策略被概括性地称为图形熵（graph-based entropy），尽管这种方法现在还不能算是复杂网络上的通信动力学。Matthias Dehmer and Abbe Mowshowitz,“A History of Graph Entropy Measures,” Information Sciences 181, no. 1（2011）:57–78.

第二章 关于脑的隐喻

第二章
关于脑的隐喻