给科学家的科学思维（全10册）最新章节_王大顺著

10　科学合作背后的复杂网络

纵观整个历史，仅有8位数学家的论文发表量超过500篇。卢西恩·戈多（Lucien Godeaux）是其中之一 ^[159] 。他是一位多产的比利时数学家，在历史上发表论文最多的数学家中排第五位。占据这个名单榜首的，是我们在第1章讲过的匈牙利数学家保罗·厄尔多斯。

但是，戈多和厄尔多斯之间存在一个根本的差别。戈多发表的644篇论文中，有643篇是他独自撰写的。也就是说，在整个职业生涯中，他仅有一次冒险停止了对数学的独自追求，而选择与其他人合作。反观厄尔多斯，他不仅以无可匹敌的产出量闻名于世，也以在整个职业生涯中与超过500名合作者共同研究而享有盛誉。厄尔多斯的大多数论文都是合作的成果，因此还衍生出一种所谓的“厄尔多斯数”，一种在数学家之间广为流传的消遣方式，用于计算自己与这位数学巨人的距离。

按照定义，厄尔多斯的厄尔多斯数是0。那些与厄尔多斯至少合作撰写了一篇论文的人，厄尔多斯数为1。与这些作者而不是厄尔多斯本人合作撰写论文的那些人，厄尔多斯数为2，依此类推。如果厄尔多斯数是1，也就是被列入他那众多、同时又相对稀缺的合作者名单中，对任何人来说都是至高无上的荣誉。如无缘这种殊荣，那么离他只有两个联系环节的人也会被认为不同凡响。事实上，拥有一个相对较小的厄尔多斯数已经成了人们炫耀的资本，而且这种情况不仅出现在数学界，很多其他学科也是这样。不同专业的科研人员会将那宝贵的数字，半开玩笑地列在他们的简历和网页上，这种情况并不少见。

厄尔多斯数的真实存在表明，科研团体是如何形成了一个高度互联的网络。通过合作撰写的论文，科研人员被相互连接在一起。这个网络往往被称作合作作者网络。但我们的合作方式有没有某种模式？什么样的科研人员最愿意，或最不愿意与其他人合作？本章的重点就是认识合作作者网络，了解它所揭示的关于科学结构和发展的深刻见解。

合作者网络的两大特征

当大规模的数字化出版记录在2000年前后可供使用时，研究人员立即着手构建大规模的合作者网络，描述数学 ^[161]-[164] 、生物学 ^[164] 、物理学 ^[160] ^， ^[164] 、计算机科学 ^[165] 和神经科学 ^[163] 的合作模式。为了建立合作者网络，我们遍历每篇论文，在同时出现在同一篇论文中的每两位科研人员之间建立连边。图10-1解释了这样一个网络的局域结构，该网络围绕一名随机选择的作者，即位于中心的特别标注的节点 ^[160] 。快速浏览这个网络，我们可以抓住合作研究的几个重要特征。第一，网络是由少数高度连接的节点，即枢纽节点维系的，他们是像厄尔多斯这样具有高度合作性的个体。第二，网络是由紧密联结的团结构 ⁽²²⁾ 或作者群体构成的。为了突出这些群体，我们可以在这个网络中使用专为团结构而设计的搜寻算法 ^[160] ，并根据它们是否属于可清楚确认的团对节点着色。那些不属于任何可识别的团的节点用黑色表示。绝大多数节点都有颜色，表明大多数科研人员归属于至少一个可识别的团体（见图10-1）。

图10-1　合作者网络
图10-1显示了由一位随机选择的物理学家（用红框标示）及其周围的物理学家构成的合作者网络的局部结构。该网络是根据康奈尔大学档案服务器（con-mat）中的论文构建的。con-mat是广泛使用的arXiv的前身，当时包含30 000多名作者。每一个节点代表一位科学家，其中的这些连线记录了以合作作者身份发表论文而产生的合作关系。彩色部分表示网络中局部密集互联的合作群体。黑色节点／边线表示不属于任何团体的科学家 ^[160] 。

合作者的数量

厄尔多斯在数学界有500名合作者，很显然这是一个离群值。但对一位数学家而言，这一数值有多么不同凡响呢？为了找到答案，我们接下来要比较生物学、物理学和数学领域的合作网络 ^[164] 。网络中节点的关键属性是它的度，代表它所拥有的与其他节点连接的连边数量 ^[67] ^， ^[68] 。在合作者网络背景下，节点 i 的度 k _i 代表科学家 i 所拥有的合作者数量。图10-2展现了科学家在这3个学科中分别拥有的合作者数量的分布 P ( k )。这3个分布全都呈肥尾特征，表明无论所属的学科是什么，几乎所有科研人员仅与少数合作作者共同研究，而极少数科学家则累积了大量的合作者。虽然图10-2中显示的3个分布都是肥尾分布，但每条曲线又呈现出明显不同的特征。生物学的分布（蓝色）有更长的尾部，表明生物学家更有较高可能性拥有更大数量的合作者，而数学的分布（绿色）在3种分布中衰减得最快。由此可知，具有高度合作性的研究人员在数学领域则特别稀少，而像厄尔多斯那样的超级合作者，则在任何学科中都极为罕见。

图10-2　合作网络是无标度的
图10-2显示了物理学、生物学和数学学科的研究人员合作者数量分布，表明内在分布呈肥尾特征 ^[164] 。

重要的是，一名研究人员已有的合作者数量，能够预测他将来建立新的合作关系的概率。这就是优先连接，即我们更有可能与具有高度合作性的个人进行合作，这一概念我们在第三部分将再次讨论。某位作者第一次发表论文时，他最有可能与他的导师，或者某位已经拥有大量合作者的研究人员这样的资深人士合作撰写，而不是与他的研究生同学合作，因为后者缺乏合作连接 ^[163] 。已经在网络中的科研人员寻找新的合作者也是如此：他们更有可能与高度连接的作者，而不是与没有什么连边的作者建立新的连接。由于优先连接，拥有更多合作者的作者会迅速扩大他们的合作者圈子，渐渐成为科研合作网络的中心。

小世界与大世界

随着厄尔多斯数这一概念的传播，世界各地的数学家开始计算自己离数学界神秘的中心有多远的距离。他们的努力被杰瑞·格罗斯曼（Jerry Grossman）记录了下来。格罗斯曼是位于密歇根州罗切斯特的奥克兰大学的一位数学教授，他维护着厄尔多斯数这一项目 ^[166] 。如果你访问该项目的网页，你很快就会意识到厄尔多斯数已经完全扩展到数学界以外。列在厄尔多斯旁边的是声称与他有关联的经济学家、物理学家、生物学家和计算机科学家。例如，比尔·盖茨也在此列，多亏了他1979年与克里斯托斯·H.帕帕迪米特里乌（Christos H. Papadimitriou）合作发表的论文，而比尔·盖茨的这位合作作者又与邓晓铁（Xiao Tie Deng）合作发表了论文，邓晓铁又与厄尔多斯的合作作者帕沃尔·赫尔合作发表了论文。这样算下来，比尔·盖茨的厄尔多斯数是4。听起来好像不用几步便可将一位匈牙利数学家，与几乎从未发表过任何科学论文的人联系起来。但是，就如我们将看到的那样，科学家之间的路径往往比我们想象的更短。

这种看似遥不可及然而却近在咫尺的现象，与小世界有关 ^[167] ，该现象也被称作“六度分离”。用网络科学术语来表述，这一流行的概念反映网络中大多数成对的节点之间都有一条最短路径。如果我们测量合作者网络中任意两位科学家之间的最小连边数，通常他们之间的距离大约是6个连边。这个规律对生物学家、物理学家、计算机科学家 ^[165] 、数学家和神经科学家 ^[163] 也都成立。这意味着，如果某位科学家随机挑选另外一位科学家，即使前者从来没有听说过后者，也很有可能能够通过5～6位合作者与后者关联起来。而且，一位普通的科学家与合作网络中高度数的枢纽节点之间的距离更小。例如，从厄尔多斯到其他数学家的平均距离约为4.7 ^[166] ，明显低于整个网络的平均距离。

科学的真相
The Science of Science
六度分离

小世界现象也以六度分离为人们所知，六度分离这一术语出自约翰·瓜尔（John Guare）1990年的百老汇戏剧。剧中的一个人物说：“这个星球上的每一个人仅仅被6个其他人所分离。六度分离，在我们和这个星球上所有其他人之间，美国的总统、威尼斯的船夫……不是大人物，而是任何芸芸众生，雨林中的一个原住民、一个火地岛民、一个爱斯基摩人。我与这个星球上的每一个人都可以通过6个人绑在一起。这是一个很深奥的想法。”

因为研究团队嵌入在合作者网络中，网络的规模和形态可能影响团队的运作。在一个庞大的、范围较广的网络中，许多团队之间的距离会在6步以外，它们的成员因此相互远离，不能够方便地交流新的想法。此外，如果合作的世界太小，它又会形成一个大家随声附和的小空间，难以了解外面的不同思想。这意味着在两者之间存在一个“甜蜜点”，可以为富有创造力的合作者提供最有利的环境，孕育出富有创造力的构想。

为了理解“小世界”怎样影响团队的创造性，我们可以探索参与百老汇音乐剧创作的艺术家之间的合作模式 ^[168] 。在百老汇网络中，如果两位艺术家共同参与过以前的音乐剧，他们便被认为有关联，无论是作为出品人、导演、设计师还是演员。图10-3显示了具有不同小世界特点的3个团队网络。我们用 W 来表示每一网络的“小世界”程度。图10-3中的左图显示了一个低 W 值的“大世界”，这是因为不同团队之间的连接松散，艺术家们相互之间没有联系，而右边的网络连接得更紧密（高 W ）。

图10-3　小世界和团队表现
百老汇艺术家网络示意图解释了小世界对团队表现的影响。参数 W 量化了网络的“小世界”程度。当 W 较低时，团队（团结构）之间只有少数连接，导致网络的连接度和紧密度较低。随着 W 的增加，有了更多的团队之间的连接，带来网络拓扑结构的高连接度和紧密度。在 W 为中等水平的情况下，小世界网络产生最佳的连接度和紧密度 ^[168] 。

利用票房收入（财富上的成功）以及音乐剧的评分均值（艺术上的成功）来衡量团队的表现，研究人员发现 W 与团队表现相关。当一个团队身处低 W 网络，有创造力的艺术家不大可能创作出成功的剧目。由于团队与团队之间的连接不够紧密，一个创作团队不可能与网络上的许多其他团队进行创新性构思的交流。随着 W 的增加，艺术家的网络连接得更加紧密，促进了各个团队之间创作素材的流动。这种不断增加的信息流动，更有可能使新技巧与老传统相互融合，同时提供反馈意见，使得艺术家们敢于做出更大的冒险，最终提升网络中每个团队的表现。

但这也只能达到一定程度。同样的研究还表明，连接度和紧密性太高（高 W 网络）也会成为创造性的负担。联系紧密的团队，往往会忽略与他们的共识相悖的有价值的信息。总而言之，数据表明，在百老汇，当团队所处的网络既不太大也不太小时，团队的表现才最为理想。

连通分量：80%的科学家都在同一个网络中

比尔·盖茨有一个较小的厄尔多斯数（为4），这一现象引发了一个更宽泛的问题：为什么盖茨居然会有一个厄尔多斯数？毕竟，如果盖茨有一个厄尔多斯数，他和厄尔多斯之间必然在合作网络上存在一条路径。如果没有这样的路径，盖茨将有一个无穷大的厄尔多斯数。盖茨竟然拥有厄尔多斯数这一事实表明，他和厄尔多斯是在合作网络的同一个“连通分量”上。一般而言，连通分量是指可以通过中间节点路径全都相互连接的一组节点。合作者网络的一个关键属性就是它的连通性：网络中几乎所有的人，沿着经过中间合作作者的某条路径，与几乎其他所有人都能连接在一起。比如，如果计算图10-2所对应的3个网络系统的连通分量，我们会发现最大的连通分量包含了全部作者中的80%～90%。一个大的连通分量支持了“看不见的大学”这一理念，通过社交与职业接触，世界各地所有大学的科学家都被连接在了一起，形成了一个具有共同价值观和知识基础的智慧群体。

如此之多的科学家处在同一个连通分量上，我们从中可以得出几个结论。首先，也是最显而易见的，科学家在合作。但如果科学家总是与同样一群作者合作，合作网络就会被分割成相互孤立的小集团，形成孤立的学派，就像我们在图10-3中所看到的低 W 网络。幸好，我们的看不见的大学是一个广阔的大学。但是，是什么把80%的科学家都维系在同一个合作者网络中的呢？理解这个过程的根源，将帮助我们大致了解团队是如何组建的。为了揭示这些规律，我们先去探访一下鸡舍。