给科学家的科学思维（全10册）最新章节_王大顺著

02 h 指数，综合考虑产出和影响力的指标

苏联物理学巨人列夫·朗道（Lev Landau）的笔记本里保存着一张手写名单，上面用对数坐标对物理学家取得的成就进行排名，并将他们分为不同的“等级” ^[24] 。按照朗道的分级，牛顿和爱因斯坦属于最高等级，比其他任何人都高：他给了牛顿0级，爱因斯坦0.5级的打分，接下来的1级，包含了量子力学的创始人，如尼尔斯·玻尔、沃纳·海森堡、保罗·狄拉克和埃尔温·薛定谔（Erwin Schrödinger）这样的大科学家。朗道最初谦虚地把自己定为2.5级，但在他发现超流态并以此获得诺贝尔奖之后，最终将自己提高到2级。朗道的分级体系并不局限于著名科学家，还包括普通物理学家，他们被划为5级。曾经合作撰写著名教材《固体物理学》（ Solid State Physics ）的戴维·默明（David Mermin），在他1988年题为《与朗道在一起的日子：4.5级向2级表达的敬意》（ My Life with Landau: Homage of a 4½ to a 2 ）的访谈中，他将自己“勉勉强强地列为4.5级” ^[25] 。

当科学家将5级抛在身后，开始向朗道这样的学科奠基人靠近时，显而易见，他们的研究已经具有了影响力和重要性。但是，对于余下的人，情况则是不明朗的。我们如何量化个人科研产出逐渐累积起来的影响力？在回答这一问题时，我们面对的挑战根植于这样一个事实：要想衡量某位科学家的研究水平，不能只看他发表了多少篇论文，而应综合考量他的产出量和影响力。我们需要对这两个方面审慎地加以平衡。

在评价和比较科学家的众多指标中，有一种指标因为使用频率高而显得尤为突出，这就是乔治·E.赫希（Jorge E. Hirsch）于2005年提出的 h 指数 ^[26] 。什么是 h 指数？怎样计算它？为何它在评测科学家的职业发展方面会如此有效？它能够预示一位科学家未来的产出量和影响力吗？它的局限是什么？如何克服这些局限？接下来，我们将回答这些问题。

什么是 h 指数

一位科学家的指数是 h ，代表他的 h 篇论文每篇至少有 h 次引用，而余下的论文每篇不足 h 次引用 ^[26] 。比如，如果某位科学家的 h 指数是20，这意味着他有20篇引用量不低于20的论文，而他的其他论文的引用量不足20次。要测量 h ，我们要将一位科学家的论文按引用量由高到低排序。我们可以将每篇论文的引用量绘制成一幅图，最终得到一条单调递减的曲线。图2-1使用了爱因斯坦和彼得·希格斯的职业生涯作为研究案例，演示了怎样计算他们的 h 指数。

图2-1　爱因斯坦（a）和彼得·希格斯（b）的 h 指数
为计算 h 指数，我们按论文引用量递减的顺序，做出论文数量与引用量的关系曲线。曲线与45度直线的相交点对应 h 值。曲线下的面积代表总引用量 ^[26] 。根据微软学术图谱（Microsoft Academic Graph），爱因斯坦的 h 指数为67，希格斯的为8。爱因斯坦被引用最多的3篇论文是：① Can Quantum Mechanical Description of Physical Reality Be Considered Complete, Physical Review , 1935；② Investigations on the Theory of Brownian Movement, Annalen der Physik , 1905；③ On the Electrody-namics of Moving Bodies, Annalen der Physik , 1905。希格斯的3篇是：① Broken Symmetries and the Masses of Gauge Bosons, Physical Review Letters , 1964；② Broken Symmetries, Massless Particles and Gauge Fields, Physics Letters , 1964；③ Spontaneous Symmetry Breakdown Without Massless Bosons, Physical Review , 1966。

h 指数为8，是大还是小？一位科学家 h 指数的期望值是多少？要回答这些问题，我们来看一看赫希提出的一个简单而独特的模型 ^[26] 。假定某位研究人员每年发表 n 篇论文，同时我们假定一篇论文的引用量随时间呈线性增加，每篇论文每年新增的引用量为 c 。这个简单的模型预示这位科学家的 h 指数与时间变化的关系为：

因此，如果我们定义：

我们可以将公式2-1改写为：

这表明科学家的 h 指数随时间大体上呈线性增长。显然，科学家并不是每年都发表相同数量的论文（参见第1章），一篇论文的引用量也遵循不同的时间演化轨迹（我们将在第19章详细讨论）。然而，尽管模型略显简单，但总体而言，公式2-3预测的线性关系还是能很好地描述科学家的长期职业发展状况 ^[26] 。

这一线性关系具有两个重要意义。

·　如果某位科学家的 h 指数随时间大致呈线性增长，那么它的增长速度是衡量这位科学家知名度的一个重要指标。换言之，个体之间的差别可以由斜率 m 表示。正如公式2-3所示， m 是 n 和 c 的函数。因此，如果一位科学家具有较高的产出率（较大的 n 值），或者他的论文的引用量更多（较高的 c 值），那么他就会有一个较高的 m 值。 m 值越高，该科学家的知名度就越高。

·　基于 m 的一般取值，公式2-3所体现的线性关系能为一般的职业生涯发展提供指导。比如，赫希在2005年建议，在重要的研究型大学工作的物理学家， h ≈12可能会是取得终身教职（即晋升为副教授）的典型值，而某位教师的 h ≈18，则可以考虑让他申请教授职位。成为美国物理学会会士通常需要 h ≈15～20，而成为美国国家科学院的院士则要求 h ≈45，或者更高。

一经问世， h 指数便催生出大量指标，并极大地普及了这样一种观点，即可以采用客观指标来量化科学质量、科学影响或科学声望这些原本模糊不清的概念 ^[27] 。根据谷歌学术（Google Scholar）统计，到2019年年初，赫希发表于2005年的论文已经被引用8 000多次，足以证明其影响力。这甚至导致了一些不太道德的科研行为变化：科学家通过引用自己的论文，让自己处于某一等级边缘的 h 指数得以升级 ^[28]-[30] 。由于 h 指数使用的普遍性，我们不得不问： h 指数能够预测个人未来的影响力吗？

科学的真相
The Science of Science
爱丁顿数

与科学家的 h 指数相似的是自行车运动中的爱丁顿数，它以亚瑟·爱丁顿（Arthur Eddington）爵士的名字命名。爱丁顿爵士是英国的一位天文学家、物理学家和数学家，因在相对论方面的研究而为人们所熟知。作为一名自行车运动爱好者，爱丁顿设计了一种量化自行车手长距离骑行成绩的方法。爱丁顿数 E 是你生活中骑行超过 E 英里 ⁽¹²⁾ 的天数。因此，爱丁顿数为70代表车手有70次单日骑行超过70英里。

要取得高的爱丁顿数非常困难，比如从70升到75，需要新增的长距离骑行要大于5次。这是因为任何短于75英里的骑行将不再计算在内。那些希望增加自己的爱丁顿数的骑行者不得不提前计划。骑行15次，每次15英里，取得 E =15并不难。但要将 E =15提高到 E =16，骑行者不得不一切从头再来，因为 E 为16时，只有16英里或更长距离的骑行才有效。亚瑟·爱丁顿在他于1944年去世前曾达到 E =87。他非常清楚，如果要取得很高的 E 数，他必须尽早积累长距离骑行的次数。

h 指数，预测个人影响力的最佳指标

要理解 h 指数的价值，我们先回顾一下一些通常被用来评价科学家学术能力的“旧”指标，同时也总结一下它们的优点和局限 ^[26] 。

·　论文发表总数（ N ）

优点：能够衡量个人的产出量。

缺点：忽略了论文的影响力。

·　总引用量（ C ）

优点：能够衡量科学家的总体影响力。

缺点：它可能受到少数影响力极高的论文的影响，而这些论文可能并不代表个人的整体成就，尤其是某些论文是由多位作者共同撰写的。它还可能过多依赖于具有高被引的综述论文，而不是原创性的研究论文。

·　每篇论文的引用量（ C / N ）

优点：能比较不同年龄层次的科学家。

缺点：高被引论文可能影响取值的准确性。

·　引用量超过 C 的“有重大意义的论文”的数量

优点：排除了前3种方法的缺点，能衡量广泛的、持续的影响力。

缺点：“重大意义”的界定将引出一个任意参数，可能对某些科学家有利，而对其他科学家不利。

·　前 q 篇最高被引论文分别获得的引用量（例如 q =5）

优点：克服了前面提到的许多缺点。

缺点：不能提供一个单独的数字来表示特定的职业发展，使科学家的相互比较显得困难。此外，对 q 的选择也具有任意性，可能有利于一些科学家，而不利于另外一些人。

h 指数的主要优点是规避了所有上述计量指标的缺点。但它在衡量个人工作的影响力方面真的更有效吗？当涉及计量指标的预测能力时，通常有两个紧密相关的问题。

第一个问题：给定一个计量指标在某一特定时间 t ₁ 的取值，它在预测自身或另外一个计量指标在未来时间 t ₂ 的取值时，准确度如何？

这个问题在需要做出聘用决策时显得尤为有趣。比如，某个学院聘用员工的参考标准，是申请者在20年后成为国家科学院院士的可能性，那么，我们就需要基于20年后的预期累积成果对申请者进行排序。赫希抽样选取了部分凝聚态物理学家，查看了他们职业生涯前12年和随后12年的论文发表情况 ^[31] 。具体而言，他基于前12年的记录计算了4种指标，包括 h 指数［图2-2（a）］、整体引用量［图2-2（b）］、论文发表总数［图2-2（c）］和每篇论文的平均引用量［图2-2（d）］。然后他提出了一个问题：如果我们需要挑选在24年内引用量最多的申请者，那么这4个指标中的哪一个能给出最佳的预测呢？通过关联未来时间 t ₂ 时的总引用量与4种指标在 t ₁ 时的数值，计算它们之间的相关系数，赫希发现 h 指数与 t ₁ 时的引用量这两个指标的预测效果最好（见图2-2）。

图2-2　量化 h 指数的预测力
散点图对样本中的每个个体在 t ₂ =24年之后的总引用量 c 与 t ₁ =12年的不同指标的值进行了比较。赫希假定 c 可能随着时间呈平方增长，因此在计算总引用量时用了它的平方根。通过计算相关系数，他发现， h 指数（a）和时间 t ₁ 时的引用量（b）是时间 t ₂ 时的未来累计引用量的最佳预测指标。论文数量的相关性量表现稍差（c），每篇论文的平均引用量表现更差（d） ^[31] 。

虽然图2-2表明， h 指数能预测累积影响力，但在很多情况下，未来的科研产出才是最重要的。比如，如果我们要决定谁能获得一笔科研经费，申请人早期的论文在以后数年增加的引用量基本上不起作用。我们所关心的是，潜在的经费获得者现在还未撰写的论文及其影响力。这一事实就引出了第二个问题。

第二个问题：不同的衡量指标在预测未来科研产出方面的效果如何？

要回答第二个问题，我们则需要使用 t ₁ 时刻的指标，来预测个体在以后的一段时间里取得的科研成就，从而需要忽略在他 t ₁ 前所发表论文的所有引用量。赫希重复使用了这4个衡量指标，以完成相似的预测任务，但这一次是分别使用每种衡量指标来预测下一个12年个体所发表论文的总引用量。这自然是一项更加困难的任务，但对于分配研究经费来说，这很重要。赫希发现，只预测在未来时间范围内个体取得的成就时， h 指数仍然是最好的指标 ^[31] 。

这些发现表明，两个 h 指数相似的人，即使在论文的数量或引用的数量上存在很大的不同，他们的总体科研成就也是差不多的。反过来说，两个有着相同科研年限的人可能拥有相似的论文发表量或引用量，但他们的 h 指数则可能差别很大。在这种情况下， h 指数高的科学家通常会被认为具有更高的学术造诣。总之，这些结果强调了 h 指数的主要优势：在评价科学家方面，它可以对个体的总体科研成果给出一个简单但相对准确的评估。但同时，我们也必须问一问： h 指数的局限是什么？

科学的真相
The Science of Science
h 指数的诞生

自从 h 指数这一概念出现，它就成了科学家科研生涯中不可或缺的一部分。它的特殊影响促使我们向赫希发出询问，他是怎样想到这一量化方法的。对此，他友好地回复道：

“我是在2003年年中时开始思考它的，在随后的几周，我计算了我认识的每个人的 h 指数，发现结果与我的预期基本吻合。然后，我把它分享给了学院的同事，好几位都觉得这很有趣。”

“2005年6月中旬，我写了一篇简短的初稿，发给这里的4位同事。一位同事浏览了一下，觉得不错，并且提了一些建议。另一位赞同其中的某些部分，对另一些内容不置可否，另外两位则没有回复。因此，我还不确定我该怎么做。”

“到2005年7月中旬，我突然收到德国斯图加特的曼纽尔·卡多纳（Manuel Cardona）发来的一封邮件，说他从弗吉尼亚理工大学的迪克·扎伦（Dick Zallen）那里听说了 h 指数一事，而扎伦又是从加州大学圣迭戈分校我的一个同事那里听说了此事（扎伦没有说对方的名字，但我能猜出是谁）。到那时，我才决定对论文进行整理修改，把它提交到arXiv，那是2005年8月3日，实际上在那时我仍然没有把握该对它做些什么。很快，我就收到许多积极的反馈，当然也有一些负面的。于是，我在8月15日就向《美国国家科学院院刊》（ Proceedings of the National Academy of Sciences ）投稿了。”

没有人的职业生涯应该用单一数字衡量

宾夕法尼亚州伊斯顿学院山的主街，是拉斐特学院（Lafayette College）的所在地。该街道是以詹姆斯·麦基恩·卡特尔（James McKeen Cattell）的名字命名的。卡特尔是美国的一位心理学家，他在将心理学建设成一门严肃科学的过程做出了重要贡献。他对心理学的倡导也令《纽约时报》在为他所发的讣告中，称其为“美国科学的泰斗”。

虽然许多人想到要开发新的测量工具来系统性地评价科研同行，但卡特尔是第一位将科学家分级这一主张普及开的人。他在1910年出版的《美国科学家传记》（ American Men of Science: A Biographical Directory ） ^[32] 中写道：“毫无疑问，科学界人士现在就应该运用科学方法来明确什么事情可以推动或阻碍科学发展了。”因此，当前推崇使用越发复杂的指标来衡量影响力的做法绝不是一种现代现象。在学科开始形成时，科学家就已经在评估他们的同行了。卡特尔的专著已问世一个世纪，而对于运用可靠的工具集来评价科学家的需求和基本原理还没有发生任何变化 ^[33] 。

由于 h 指数已经成为量化科研成就经常使用的计量指标，我们必须考虑到它的局限性。比如，较高的 h 指数在一定程度上标志着一个人的高成就，但反过来却不一定成立 ^[31] ：对于 h 指数相对较低的科学家，几篇影响深远的论文也能让他们获得卓越的影响力，就像彼得·希格斯的例子所反映出的那样［见图2-1（b）］。相反，一位 h 指数较高的科学家可能被过度推崇，因为他的 h 指数基本上都是通过与许多共同作者一起发表论文而获得的。此外，即使在特定的分支学科内，引用的分布也存在相当大的差异：在大规模合作研究为常态的分支学科（如高能实验物理）中， h 值普遍较大。这表明我们应该考虑怎样将 h 值标准化 ⁽¹³⁾ ，从而更有效地比较和评价不同的科学家。

下面，我们将讨论一些经常提到的 h 指数的局限以及能够（至少在一定程度上）带来改进的一些 h 指数的变体。

· 高被引论文。 h 指数的主要优势在于它的值不会因为某次意外成功而飙升。但这也意味着它忽略了研究人员最有影响力的成果。确实，一旦论文的引用量超过 h ，它的相对重要性在 h 指数上就体现不出来了。这就产生了一个问题：离群值论文不仅在很大程度上决定了个人发展，而且也是决定科学自身发展的重要因素。人们提出了许多改进方法以纠正这一缺陷 ^[34]-[39] ，包括 g 指数（同时获得 g ² 或更多引用量的最大论文数量 g ） ^[40] ^， ^[41] ，还有 o 指数（某位科学家最高被引论文 c ^* 及其 h 指数的几何均值： ^[42] ）。其他纠正偏差的措施还有 a 指数 ^[36] ^， ^[38] 、 h (2)指数 ^[39] 、 h _g 指数 ^[34] 、 q ² 指数 ^[37] 等 ^[35] 。

· 跨专业差别。分子生物学家的论文通常会比物理学家的论文获得更多的引用，而物理学家的论文引用量通常又比数学家的高。因此，生物学家的 h 指数经常会比物理学家更高，而物理学家的 h 指数又会高于数学家。要跨越不同研究领域来比较科学家，我们就必须考虑引用的学科特性 ^[43] 。这一点能通过 h _g 指数得到解决，该指数使用同一年、同一专业所发表的论文平均数，重新调整每篇论文的排名 ^[43] 。还有 h _s 指数， h _s 指数使用同一专业领域内论文作者的 h 平均值，将 h 指数标准化 ^[44] 。

· 时间依存性。正如我们在本章“ h 指数的预测力”中讨论的那样， h 指数具有时间相关性。当比较处于职业生涯不同阶段的科学家时，我们可以使用公式2-2的商值 m ^[26] 或同时期的 h 指数 ^[45] 。

· 合作效应。也许 h 指数的最大缺点，就是它不能对具有不同合作类型的论文作者做出区分 ^[46]-[48] 。想想看，两位具有相似 h 指数的科学家，第一位通常是论文的思想引导者，多数情况下与年轻的研究人员合作撰写论文；而第二位则是年轻的科学家，多数情况下与德高望重的科学家合作发表论文。或者再考虑另一种情况。一位作者总是独立发表论文，而另一位通常是同一大群合作者共同发表论文。用 h 指数来衡量的话，所有这些科学家都是无法区分的。人们为考虑合作因素也做过一些尝试，包括在多位作者署名的论文中以分数形式分配各自的功劳 ^[48]-[50] ，或通过诸如区分第一作者和最后一位作者，计算每一位共同作者在论文撰写过程中所起的作用 ^[51]-[54] 。赫希本人也多次承认，这是个问题 ^[46] ^， ^[47] ，进而提出了 h _α 指数 ^[47] 来量化个人在合作研究成果中的科研领导作用。在所有对科学家 h 指数有所贡献的论文中，只有他作为最资深作者（在所有共同作者中 h 指数最高）的论文才计入 h _α 指数。这意味着，一个高的 h 指数连同一个高的 h _α / h 比率才是衡量科研领导力的真正指标 ^[47] 。

除了 h 指数的这些变体，还有其他一些对科学家个人总体科研成就进行量化的指标，包括谷歌学术专用的 i 10指数 ^[55] ，用来计算每篇至少有10条引用的论文数量；还有SARA计算法 ^[56] ，它使用一种扩散算法来模拟科学信誉度在引文网络上的传播，从而量化个人知名度。尽管有许多计量指标试图克服 h 指数的缺点，但迄今为止还没有出现比 h 指数更可取的其他选择，这也强化了 h 指数作为一种普遍使用的科学成就衡量指标的地位。

随着更深入地研究 h 指数以及由此所激发的大量研究工作，我们很容易忘记这么一个观念，也许这才是最重要的，即不能够单靠个数字来衡量科学家的职业生涯。任何计量指标，无论能多么出色地取得预期目标，都是有局限的。将它用来评价一个人的产出率、研究质量，或者科研影响之前，我们要对此有充分的认识。更重要的是，科研生涯并不只包含科学发现和引用。更确切地说，科学家的职业生涯还包含更广范围的活动，比如课堂教学、指导科研、组织学术会议、论文审稿以及到编委会任职等。当我们接触到更多衡量科学家知名度的指标时，关键是要记住这些指标可能帮助我们了解科研产出的某些方面，但都不能单独反映科学家为科学界及社会所做出的多种贡献 ^[57] ^， ^[58] 。正如爱因斯坦所告诫的那样：“许多能数清楚的东西并不重要，许多数不清楚的东西却极有价值。”

因此，我们必须牢记在心， h 指数只是一个用于量化知名度和成就的标志。但问题是，在科学界，地位具有实实在在的重要性，它会影响人们对某位科学家科研工作质量和重要性的认知。这也是我们在下一章关注的问题：地位是否重要？什么时候重要？有多重要？