到目前为止,在所讨论的有关年龄和成就的研究中,有一点是相同的:它们关注的都是著名科学家,那些被我们称赞为天才的人。这些研究得出的结论,与我们这些凡夫俗子有关联吗?
对卓越科学家的这种长期关注合乎方法论:这一领域大多数现存的知识都是通过手工做成统计表格,草草地记下重要研究产生的日期,估算科学家完成这些研究时的年龄,有时还要在图书馆浩瀚的文献中找出证据。同时,著名科学家的信息也更容易获得,因为这些内容都在传记和颂词中有所记载。
即便是今天,虽然计算机极大地降低了数据收集和整理的工作量,但考虑到第1章(“解决‘谁是谁’的问题”部分)所讨论的论文署名歧义带来的挑战,研究个人职业生涯仍然是一项艰难的任务。然而,多亏了数据挖掘和机器学习方面的进步,通过使用科研选题、作者所在机构以及引用模式等多方面信息,人名消歧的准确性在过去10年得到了极大提高。因此,研究者就可以获取到更多、更全面的关于科学家个人职业生涯的历史信息,这里指的不仅是天才科学家,也包括在这一领域辛勤耕耘的普通科研人员。这些技术进步也为相关研究提供了新的契机。我们将在本章看到,数据并不只是检验和证实了现有的理论和框架,它实际上彻底颠覆了我们对于个人职业发展的思考方式。
图5-1(a)显示了1982年诺贝尔物理学奖获得者肯尼思·G.威尔逊(Kenneth G. Wilson)的科研生涯。我们将他第一次发表论文视为他学术研究的起点,他每发表一篇新论文,我们就在他职业生涯相应的时间点(学术年龄)上添加一枚大头针。大头针的高度表示论文的影响力,近似等于论文发表后10年所获得的总引用量。
图5-1 肯尼思·G. 威尔逊的论文发表史
(a)水平轴显示威尔逊第一篇论文发表后的年份,每一条垂直线代表一篇发表的论文。每条线的高度代表
c
10
,即论文发表10年后获得的总引用量。威尔逊引用量最高的论文发表于1974年,也就是他第一篇论文发表后的第9年,是他48篇论文中的第17篇,因此
t
*
=9,
N
*
=17,
N
=48。
(b)威尔逊被打乱的职业生涯,我们保留大头针的位置,但将每篇论文的影响力用另外一篇的影响力替换,从而打乱威尔逊职业生涯中最重要成果产生的时间顺序
[116]
。
通过这种“放图钉”的表现方式,我们能够呈现出每一位科学家的职业生涯。对不同学科的成千上万名科学家重复这一步骤,我们就能够回答一个简单却难以回答的问题:尽管关于天才科学家有大量的文献研究,但普通科学家在什么时候能发表他们最重要的研究成果?
有人通过分析众多物理学家的职业生涯史得到这个问题的答案。研究者检索了曾在《物理学评论》( Physical Review )上发表过论文的236 884名物理学家的出版记录,并按照“论文发表记录至少横跨20年”这一条件从中筛选出了2 856人 [116] 。我们能够从数据中定位每位科学家最优秀的成果,即他已发表的论文中引用量最高的论文。为了查清科学家在什么时候发表了自己最有影响力的论文,我们采用 t * 值描述科学家发表最优秀的论文时的学术年龄。 t * 会标注亚历山大·弗莱明关于“产黄青霉菌”(Penicillium Chrysogenum)的论文,或者玛丽·居里的关于放射性的论文,但它也可以标注隔壁办公室同事的论文,这些论文的引用量或许要可怜得多,却是论文作者最好的一篇。
图5-2为 P ( t * )的函数曲线图,即某位科学家最有影响力的论文发表于自己第一篇论文 t * 年后的概率。 P ( t * )在0~20年达到较高值表明,大多数物理学科研人员是在职业生涯的早期或中期发表他们最有影响力的论文,在这一时期之后, P ( t * )便有明显的回落。这证明,一旦科学家过了职业生涯中期,就不太可能再有突破性的研究成果。
图5-2 随机影响规则
科学家职业生涯中最高影响力论文发表时间
t
*
的分布(实线)以及对职业生涯随机化后的分布(虚线)。两条曲线差别并不明显,表明科学家发表的论文中,影响力是随机分布的
[116]
。
但是,进一步仔细分析可以发现,解释这个曲线并不像最初预想的那么简单。为了理解这一点,先来思考一个问题:如果最高影响力论文的产出时间完全是随机的,那么这张图会呈现什么样的结果呢?
试想一下,职业生涯中的创造性纯粹是随机的。要理解这样的随机生涯看起来像什么,我们随机挑选两枚大头针,然后互换,重复这个动作数千次。这样,我们就得到每位研究人员职业生涯被打乱的另一个版本[见图5-1(b)]。被打乱的职业生涯和他真实的职业生涯差别在哪里?个人的论文产出并没有改变,这些论文总体的影响力也没有变化,因为我们没有改变大头针的长短,也没有改变论文的发表时间。唯一改变的是这些论文发表的顺序。将你所有的论文想象成发给你的一叠扑克牌,你最有影响力的论文是方块A,然后我们洗牌,将包括A在内的扑克牌的顺序打乱。现在,你的方块A可能出现在这叠扑克牌的任何位置——上面、中间或是下面。
下一步,我们在打乱的职业生涯中测量 P ( t * ),然后将打乱顺序后得到的 P ( t * )与真实的职业生涯在一张图中绘制出来。令人意想不到的是,图5-2的两条曲线几乎相互重合。也就是说,在被随机打乱的职业生涯中,最重要的研究成果的发表时间与原始数据没有太大差别。这意味着什么呢?
图5-2中两种分布曲线相同,这表明 P ( t * )的变化可以完全由职业生涯中产出率的改变来解释。确实,那条随机曲线描述了某位研究人员职业生涯中产出率的变化。它表明在这个样本中的研究人员,产出率会在职业生涯的第15个年头迎来一个高峰,然后在第20年之后快速回落。这意味着,年轻科学家在事业的早期有一些重大的突破,并不是因为年轻和创造力紧密相连,而只是因为他们正处于最多产的时期。换句话说,如果产出率能够调节,那么最有影响力的论文将在职业生涯中的任何时刻出现。我们将这种现象称作“随机影响规则” [116] 。
我们还是继续使用扑克牌的比喻。想象一下,你一次从一叠牌中抽出一张,但频率不同。刚开始工作时,你感到兴奋,扑克牌抽了一张又一张,一刻不停,踌躇满志地要找到那张A。过了这段时期之后,节奏逐渐变慢,你伸手拿牌的节奏也慢了下来。如果扑克牌是事先完全洗好的,而且在前20年抽到的牌远多于在此之后抽到的牌,那么什么时候最有可能抽到A呢?当然是前20年。也就是说,职业生涯的前20年并不比后20年更具创造力。在职业生涯早期抽中了A,仅仅是因为你付出了更多努力。
要更直接地测试随机影响规则,我们可以看一看在一叠扑克牌中,A会出现在哪里。为此,让我们来计算一下最高影响力论文 N * 在发表的一系列论文 N 中的位置。然后计算 P ( N * / N ),即在该序列中某一位置发表引用量最高的论文的概率, N * / N 取值越小表示所处阶段越早, N * / N≈ 1则表示处于后期。如果随机影响规则是有效的,那么 P ( N * / N )应该服从均匀分布,即无论 N * / N 的取值如何变化,最优秀论文出现的概率是相同的。用专业术语来说,这意味着累积分布 P > ( N * / N ) (16) 必须呈现线性下降,服从( N * / N ) -1 。数据完全符合随机影响规则的预测[见图5-3(a)]。
图5-3 创造性领域的随机影响规则
累积分布 P > ( N * / N ),其中 N * / N 表示职业生涯中影响力最大的论文的顺序 N * ,数值范围为1/ N ~1。 N * / N 的累积分布是一条斜率为-1的直线,表明在某人的作品序列中, N * 出现在所有位置的概率相同。该图显示了20 040名科学家[见图5-3(a)]、3 480名艺术家[见图5-3(b)]以及6 233名电影导演[见图5-3(c)]的 P > ( N * / N ) [112] 。对每一位从事创造性工作的个人,我们取他的3件最有影响力的作品(论文、艺术品或电影),分别根据引用量、拍卖价格和在互联网电影数据库(IMDb)中的评分等级进行衡量,然后度量它们在其职业生涯中的相对位置。这些图证实,在这3种职业生涯中,3件最有影响力的作品,每一件的完成时间在所有作品序列中都是随机分布的 [117] 。
但为什么探讨只停留在最有影响力的论文上?影响力位列第二的论文是什么情况呢?位列第三的呢?你可能猜到了,没错,相同的规律再次出现了[见图5-3(a)]。累积分布曲线明显是一条直线。也就是说,你职业生涯中的重大突破随时都会降临,而且这一规律并不局限于最优秀的成果,其他重要程度不等的成果也同样是随机分布的 [117] 。这一随机影响规则不仅可以用来解释科学家的职业生涯,同样也适用于各种创造性领域从业者的职业生涯,比如艺术家和电影导演(见图5-3) [117] 。
随机影响规则这种概念在文献中多有记载,最早可以追溯至20世纪70年代西蒙顿(Simonton)所做的研究,他提出过一种叫作“成功的恒定概率”的模型 [2] , [118]-[121] 。长期以来,研究人员怀疑,同样的规则也适合于艺术界,比如文学和音乐创作 [118] ,直到40多年之后,用于验证这一想法的数据集才被收集起来。
第4章的结论表明,诺贝尔奖的获奖成就往往产生于获奖者职业生涯的早期。然而本章的内容则表明,普通科学家的职业生涯是受随机影响规则支配的。那么,随机影响规则也适用于诺贝尔奖得主的职业生涯吗 [122] ?为此,在获诺贝尔奖之前发表的论文中,我们测量了获奖论文和引用量最高的论文在论文序列中的位置(51.74%的引用量最高的论文同时也是获奖论文),发现这两者往往都位于论文序列的早期[图5-4(a)]。这表明与普通科学家相比,诺贝尔奖得主往往更早就发表了他们最重要的论文。
但是,我们还必须面对一个选择效应——由于诺贝尔奖从未追授给去世的人,因此那些较早产出突破性研究成果的科学家更有可能获奖。为了验证这一猜想,我们拿掉有可能受到这种选择偏差影响的诺贝尔奖论文,衡量余下3篇最有影响力的论文的产出时间,发现它们全都随机分布于诺贝尔奖得主的整个职业生涯中[见图5-4(b)]。这表明,除了获奖论文以外,诺贝尔奖获得者在其职业生涯中的其他所有重要论文也都遵循随机影响规则。这一选择偏差表明,存在“遗失的获奖者”:某些科学家发现了足以获得诺奖的重要研究成果,但是由于这些成果在其职业生涯中出现得较晚,从而未能获得诺贝尔奖委员会的认可。
图5-4 诺贝尔奖得主的职业生涯模式
(a)在授予诺贝尔奖之前,所有论文序列中获奖论文和引用量最高的论文相关位置的累积分布(
N
i
/
N
)。虚线表示随机影响规则的预测。
(b)为了消除获奖论文发表时间上潜在的选择偏差,我们去掉了获奖论文,计算获奖之前所有发表的论文中,其余三篇引用量最高的论文所在的位置,发现这些论文仍然遵循随机影响规则
[122]
。
随机影响规则改变了人们对职业生涯何时出现重大发现这一问题的看法。的确,数十年的研究证实,重大发现通常发生在科学家职业生涯的早期。这也导致了一种根植于大众文化的神秘观点,即创造性属于年轻人。随机影响规则将年龄和创造力分离开来。它告诉我们,在职业生涯中产生的所有成果中,某项成果成为重大突破的概率完全是随机的。准确地说,我们所做的每一个项目成为个人最优秀成果的概率是一样的。不具有随机性的是产出率:年轻的研究人员总是热切地不断尝试,论文一篇篇地发表。如果影响力在个人从事的所有项目中随机存在,那么从统计学上讲,具有影响力的成果总会在职业生涯早期的某个时候产生,因为那时的产出率更高。
随机影响规则为我们认识产出率的作用提供了一个新视角:它告诉我们,要想获得期待已久的科研突破,反复尝试是极其重要的。确实,对于那些持之以恒的人来说,重大科研突破并不是那么难以实现的。约翰·芬恩就是一个很好的例子。在他被耶鲁大学强制退休,正式的学术生涯就要结束时,他发现了一个新的电喷雾离子源。他没有放弃,离开耶鲁后,在弗吉尼亚联邦大学得到一个新的教授职位,继续他的研究,最终发现了电喷雾离子化技术。正是这一发现使他在15年之后获得了诺贝尔奖(见图5-5)。总之,他的例子以及随机影响规则都表明,那些在职业生涯后期产出率没有下降的科学家,他们的影响力可能也不会衰减。
图5-5 2002年诺贝尔化学奖获得者约翰·芬恩的学术生涯
虽然随机影响规则加深了我们对科学家职业生涯规律的认识,但它也提出了一个新的问题:如果重大成果产生的时间是随机的,那有没有什么因素不是随机的呢?
“年轻等同于创造性”这一信条并不限于科学界,它在企业界同样根深蒂固。事实上,硅谷科技博客奖的获奖者平均年龄为31岁,荣登《公司》( Inc. )和《企业家》( Entrepreneur )杂志“顶尖企业家”榜单的人,平均年龄为29岁。红杉资本是一家著名的风险资金管理公司,他们支持的创业者平均年龄为33岁,经纬创投的受资助者平均年龄为36岁。在硅谷,难道年轻是成功的代名词吗?
通过整合报税表、美国人口普查信息以及其他联邦数据,研究人员编制了一份包含270万名公司创始人的名册 [123] 。分析显示,与大众的认知不同,最优秀的企业家往往是中年人。在发展迅速的高新企业中,企业家在创建公司时的平均年龄为45岁。另外,50岁获得巨大成功的可能性是30岁同行的2倍。
这些结果表明,创业绩效随着年龄而激增。如果从两位企业家中选择,在除了年龄其他信息一无所知的情况下,与主流的观点相反,你通常最好把宝押在年长一点的人身上(见图5-6)。
成功的科学家与其同事的区别究竟是什么?产出量、影响力和运气的紧密联系,使得我们难以探究他们取得成功的真正原因。如果职业生涯中的重大突破是随机发生的,那么机遇、天赋或者勤奋与成功又有什么关系呢?我们能够完全将科学家的天赋和能力与他的运气分开吗?要想弄清楚这些问题,先来试想一下:如果仅凭运气,爱因斯坦做出那些杰出成就的可能性有多大呢?
如果有无限多的时间,一只在打字机上随机敲打的黑猩猩将肯定会打出一篇莎士比亚戏剧。那么,世界上有足够多的科学家,我们难道不应该期待,仅靠运气,注定就会出现像爱因斯坦那样有影响力的人吗?
要想回答这个问题,可以借助我们在第5章讨论的随机影响规则,建立一个科学家职业生涯的“零模型”(null model)。我们暂时假设,对科学家来说,发表一篇论文就相当于抽一张彩票。换句话说,假定天赋不起作用,那么完全由运气决定的职业生涯会是什么情况?
如果在随机的职业生涯中,每一篇论文的影响力完全由运气决定,那么这意味着,我们只是从某一个特定的影响力分布中随机挑选一个数字,将它赋予科学家发表的论文。利用这一方法,我们生成一组纯粹由运气决定的人造职业生涯。为方便起见,我们将这一方法称作随机模型或 R 模型。
这些随机的职业生涯与真实的生涯在某些方面相似。比如,前者在职业生涯的影响力方面会表现出个体差异,一些科学家在选择随机数时,运气总是会比其他人好一点。而且每个人的职业生涯也将会遵循随机影响规则:由于每一篇论文的影响力是随机选择的,影响力最大的成果在每位科学家发表的论文序列中将是随机的。但这些人为虚拟出来的随机科学家与真正的科学家有什么区别吗?
如果每篇论文的影响力是从相同的影响力分布中随机抽到的,那么一位更高产的科学家将会抽到更多的彩票,因而将更有可能撞上高影响力论文。也就是说,
R
模型预测,更高产的科学家更有可能产出突破性成果。要检验这种效应,先来衡量一下某位科学家引用量最多的论文的影响力<
>,会受产出量
N
怎样的影响。结果确实证明,发表的论文越多,引用量最多的论文的影响力越大。但也不是足够大:测量结果表明,在真实的职业生涯当中,随着
N
的增长,影响力最大的论文,其引用量的增速比
R
模型预测的增速更快(见图6-1)。换句话说,如果影响力像彩票那样随机分配,那么当科学家多产时,他们最成功的论文比实际观测到的影响力要低。这说明我们的随机模型还缺少点什么。这也不难想象:科学家天生就各有不同,或者在天赋上,或者在能力上,或者在与产出高影响力论文相关的其他特点上。这表明高产的科学家并不只是在产出方面突出,他们还拥有一些低产出科学家所没有的东西。下面我们将对
R
模型进行调整,使它能反映这样的事实:并不是所有的科学家都是一模一样的。
图6-1 科学生涯不是随机的
散点图表示在科学家职业生涯中,最高影响力论文的引用
与发表论文的数量
N
之间的关系。每一个灰色点代表一位科学家。黑色小圆点是散点值的对数组合。青色曲线表示
R
模型的预测,它显示了与数据的系统性偏移。红色曲线代表
Q
模型的解析预测结果
[116]
。
每个科研项目都始于一个构思。灵感促使科学家开始思考某种想法。但是我们很难提前判断一个想法内在的重要性和创新性。如果并不知道某个想法的真正价值,那就先假设它有某种随机价值 r 。有些想法带来的是增量式贡献,只有最相关领域内的少数人感兴趣,那么它的价值就比较一般。但是偶尔会突然出现一个好想法,如果能够完全实现的话可能具有革命性的意义。想法越好,其 r 值就越大,就越有可能具有高影响力。
但仅有好的主意还不够。项目的最终影响力还取决于科学家能否将构想转化为真正具有影响力的产品。人们可能最初有个奇思妙想,但是由于缺乏必要的专业知识、经验、资源,或者无法发挥这个构思的全部潜能,最终结果仍会不尽人意。然而,将构想转化为成果需要的能力因人而异,所以用一个参数 Q 来表示某个人将随机构想 r 转化为具有特定影响力的成果的能力。
换句话说,某位科学家论文的影响力 c 10 由两个因素决定:运气( r )和个人 i 所特有的 Q i 参数。这两者的组合可能涉及许多复杂的函数。为简单起见,我们假设有一个简单的线性函数,写作:
公式6-1背后具有多种假设。
· 当开始一个新项目时,我们从各种可能性中挑选出一个随机想法 r 。 科学家从相同的分布 P ( r )中挑选他们的 r ,因为我们都能阅读同样的文献,所以有着相同的知识。或者每位科学家也可以从他自己独有的 P ( r )中挑选 r ,就像某些科学家比其他科学家更善于选择好的构想。
· 科学家的 Q 参数各不相同。 也就是个人能力有所不同,即使是相同的构想,最终成果也可能产生不同的影响力。一方面,如果一位具有低 Q 因子的科学家有一个具有极高 r 值的构想,那么即使这个构想的潜力很好,项目的影响力也将趋于平庸,因为它所产出成果的 rQ 会因该科学家有限的 Q 而降低。另一方面,如果最初构想就很糟糕( r 值较低),一位 Q 值较高的科学家也只能产出一般或平庸的成果。真正能产生高影响力的论文是那些完美组合的结果,具有高 Q 因子的科学家又碰上了奇思妙想(高 r 值)。也就是说,该模型假设,一篇论文的最终影响力是两个因素的产物:构想的潜力以及将其真正实现的能力。
· 产出量也很重要。 即便 Q 和 P ( r )相同,具有更高 N 值的科学家更有可能碰上高 r 值的项目,并将其转化为能产生高影响力( c 10 )的论文。
问题在于,不能期待这些因素都相互独立存在: Q 值高的个人可能同时拥有发现高潜力项目的才能,因而他们的 P ( r )分布可能偏向较高的 r 值;那些发表较高影响力论文的人,可能同时拥有更多的资源去发表更多的论文,因而他们的产出量也会很高。也就是说,公式6-1的结果由联合概率 P ( r , Q , N )决定,但 r 、 Q 、 N 之间的相关性是未知的。要了解真实职业生涯的情况,我们需要计算这3个参数之间的相关性。我们最终得到了如下协方差矩阵 [116] 。
这产生了有关个人职业生涯的两个出人意料的预测。
· σ r,N =σ rQ ≈0表明,初始构想的值 r 很大程度上独立于科学家的产出量 N 或者他的 Q 因子。因此,科学家随机地从 P ( r )中寻求灵感,而这一分布对所有人都是相同的,代表着影响力背后普适的运气成分,而这是与科学家个人无关的。
· 非零的σ Q,N 表明,隐藏参数 Q 和产出量 N 确实相关,但σ Q,N 的值较小,说明高的 Q 值与高产出仅有很小的关联。
构想值
r
和(
Q
,
N
)之间缺少相关性,使我们可以进行解析计算,寻找最高影响力论文
会怎样随着产出量的变化而变化。
Q
模型的预测与数据十分吻合,表明隐藏的
Q
因子和产出量
N
的个体差异,可以解释我们从实验中观察到的科学家之间影响力的不同,从而修正了
R
模型的缺陷(见图6-1)。
利用除运气之外的其他参数来描述科学家职业生涯的影响力,这种做法是有根据的。不难想象,科学家个体之间有差别,因此我们需要将其考虑在内,以便对真正的职业生涯有一个准确的描述。但奇怪的是,除了运气,我们似乎仅需要增加一个参数。单独引入 Q 因子一项,就足以解释为何科学家的影响力各不相同。
Q 模型究竟在哪一点上弥补了 R 模型的不足呢? R 模型的失败告诉我们,一个人职业生涯中的成功靠的不仅仅是运气。 Q 因子准确地指出了职业生涯的一个关键特征:优秀的科学家在所有的科研项目上都很优秀。每位科学家可能都有一篇使他们声名鹊起的重要论文,但那篇论文的出现并不是靠运气。一位卓越科学家的第二篇最佳或第三篇最佳乃至许多篇论文,通常都是引用量较高的论文。这也意味着,一位能够始终发表杰出论文的科学家,总有某些与众不同的特点。而 Q 所体现的正是这种特点。换句话说,虽然运气很重要,但仅凭它并不能带来长远发展。 Q 因子体现了如何将运气转化为具有持续高影响力的职业生涯。
Q 模型不仅有助于逐个分析高影响力职业生涯的各个关联因素,还使我们能够根据论文发表序列计算出每位科学家的 Q 因子。 Q 的精确表达式涉及一定程度的数学推导,但当某位科学家发表足够数量的论文以后,我们可以通过一个简单的公式大概估算出他的 Q [116] 。假定有这样一位科学家 i ,他发表的论文 j 在10年中总共获得了 c 10, ij 的引用量。对每一篇论文的引用量 c 10, ij 取对数,然后再对所有论文引用量的对数取平均数。 Q i 即是该平均数的指数值:
其中, μ p 是归一化因子,取决于所有科学家职业生涯中的产出。考虑到 Q 依赖于 c 10, ij 对数的平均值,因此它不会受到某个具有高(或低)影响力的成果的支配,而是反映某位科学家长期系统性地将研究项目转化为高(或低)影响力论文的能力。为了更好地理解 Q ,来看一个例子(见图6-2)。
图6-2 具有不同
Q
因子的职业生涯
图6-2显示了论文产出量类似(
N
≈100)的3位科学家的职业发展。由于
Q
因子不同,他们发表的论文呈现出显著的差别。
图6-2中的3位科学家具有相似的产出量,他们都发表了大约100篇论文( N ≈100),但是他们职业生涯的影响力却明显不同。利用公式6-2,我们能够计算出他们每一位的 Q 因子,得到的结果分别是9.99、3.31和1.49。 Q 因子反映了科学家论文序列中的影响力的持续性差异: Q 为9.99的科学家一篇接一篇地产出具有高影响力的论文。而 Q 为1.49的研究人员获得的影响力一直都很有限。中间的那位如果运气好的话,偶尔会发表一篇稍好的论文,但与左边的那位科学家所获得的成就相比,就相形见绌了(见图6-2)。因此, Q 描述了科学家接手随机项目 r 并将其系统性地转化为高(或低)影响力论文的不同能力。每个项目都可能受运气的影响,但如果多个项目观察下来,科学家真正的 Q 值就会开始浮现出来。
公式6-3有许多优点。首先,我们可以通过它估算某位科学家职业生涯预期的影响力。例如,一位科学家需要发表多少篇论文,才能期望它们当中的某一篇获得某种程度的影响力?根据公式6-3,具有较低 Q 值(比如1.2)的科学家,如果希望某篇论文在10年中能获得30的引用量,则需要写出至少100篇论文,这与图6-2(c)所示内容类似。而同样多产的 Q= 10的科学家,在同样的10年时间内,可期待至少有一篇论文能达到250的引用量。
接下来再来考虑两位科学家的产出都有所增加的情况。不管 Q 值如何,产出的提升都会增加碰上绝妙构想的机会,也就是说,会有一个较高的 r 值。因此,他们的最高影响力论文的影响力就会相应增大。低 Q 值的科学家即便将产出增加1倍,他最好的论文的影响力提升也只是增加了7次引用而已。而同样在这种条件下,高 Q 值的科学家能将引用量增加超过50次。也就是说,对于 Q 值有限的科学家,产出的增加并不能在实质上改善他做出重大突破的机会,因此仅靠更加勤奋是不够的。
Q 因子会随年龄和经验的增加而增加吗?人们可能会想当然地认为,随着职业生涯的发展,科学家会更善于将构想转化为高影响力论文。要检验 Q 值在整个职业生涯中的稳定性,我们使用至少包含50篇论文的职业生涯数据,利用这些科学家职业生涯早期和后期的论文,由公式6-3分别计算出早期和后期的 Q 因子( Q early 和 Q late )。 Q late 与 Q early 是几乎相同的,说明 Q 值并不会在职业生涯中系统性地增加或减少(见图6-3)。换句话说,科学家的 Q 因子在职业生涯中相对稳定。这提出了一个很有诱惑力的问题: Q 因子能够预测科学家职业生涯的影响力吗?
图6-3
Q
因子在职业发展中相对稳定
我们对至少发表50篇论文的823位科学家职业生涯早期(
Q
early
)和后期(
Q
late
)的
Q
因子进行比较,利用个人职业生涯的前一半和后一半论文来分别计算两个
Q
值。我们分别计算出真实数据(圆点)和论文的顺序被打乱的随机职业生涯(灰色阴影区域)所对应的值。对于95.1%的人来说,早期和后期阶段的变化出现在随机职业生涯预测的波动内,表明
Q
因子在整个职业生涯中相对稳定。
为了判断
Q
值在衡量个人整体的科研影响力方面是否更加有效,我们将其与本书讨论过的几个计量指标进行比较。首先,检验几个不同的指标在预测诺贝尔奖得主上的能力
[116]
。为此,我们根据物理学家的产出量
N
、引用总量
C
、最高影响力论文的引用量
、
h
指数和
Q
值对他们进行排序。为了比较不同序列的表现,我们使用ROC曲线
(17)
测量每个排序中排名靠前的科学家成为诺奖得主的比例。图6-4表明,总体来说,基于累计引用量的指标,如某位科学家最高影响力论文所获得的引用量以及职业生涯的总引用量,都能做出不错的预测。而
h
指数的确比引用量更有效,对赢得诺贝尔奖的预测更加精确。有趣的是,最差的预测指标是产出量,即单位时间内科学家所发表的论文数量。换句话说,仅凭多发表论文不能赢得诺贝尔奖。
图6-4 预测诺贝尔奖获得者
ROC曲线图显示了根据多种因素对科学家进行的排序,这些因素包括:
Q
、产出量
N
、引用总量
C
、最高影响力论文的引用量
c
*
10
以及
h
指数。每一条曲线代表以某个给定的排名阈值选取科学家,其中包含了诺贝尔奖得主的比例与其他科学家的比例。对角斜线(也叫无识别率线)相当于随机排序;每一曲线下方的面积代表了对诺贝尔奖得主排序的精确性(在图例中给出,1为最大值)
[116]
。
尽管 h 指数以及其他基于引用量的指标有它们各自的优势,但基于职业生涯的 Q 因子则更胜一筹,对诺贝尔奖得主的预测比图6-4中的其他指标都更精确。因此,虽然 h 指数仍然是衡量科学家总体影响力的良好指标,但 Q 因子似乎表现出更好的预测能力。那么, Q 因子具有哪些 h 指数不具备的优点呢?
要理解 Q 因子和 h 指数的差别,可以参考一次实地实验,有关经济学家如何评价同行简历 [125] 。从44所全球排名前10%的研究性大学中随机选出一些教授,然后要求这些教授根据简历中列出的论文发表情况,对简历的所有者进行评价。这些简历包含了两种情况,一种是成果列表中仅列出了在高水平期刊上发表的论文,另一种是既有高水平论文,也有在较低水平的期刊上发表的其他论文。由于经济学领域中各类期刊的声望等级相当稳定,所以非常适合进行这种测试。换句话说,所有的经济学家都明白各个期刊的级别差异。那么,如果某份简历既有一些发表在较低水平期刊上的论文,同时又有一些发表在较高水平期刊上的论文,那么这份简历是否会有更强的说服力呢?如果是这样,会强多少?
此项调查的被试被要求按1~10分对简历打分,其中1分为最差,10分为最优。大体上,仅仅列出了顶级论文的短简历获得的评分为8.1。而长简历(注意,其中包含了与短简历中相同的顶级论文,只是同时又列出了其他较低水平的论文)所获得的平均得分为7.6。这意味着短简历比长简历更受大家喜欢,尽管它们都包含了同样的优秀论文。也就是说,那些来自较低水平刊物的其他论文,不但没有起到任何帮助作用,反而对专家们的评估产生了负面影响。
这些结果既可以理解,又令人困惑。一方面,它佐证了大家长期抱有的猜测:过于频繁地在较低水平的刊物上发表论文可能会带来负面影响。另一方面,如果我们从评估科研成就的计量指标这一角度考虑,这些结果完全说不通。我们讨论的所有指标,从产出量到引用总量,再到 h 指数,都是随论文数量单调递增的。从这个角度看,多发表一篇论文总是有意义的,即使它的影响力有限。首先,它无疑能增加你发表的论文总量。其次,即使论文没有发表在重要刊物上,但随着时间的推移,它的引用量也会累计,从而增加个人的总体影响力,甚至有可能增加 h 指数。最起码,它不会有任何坏处。
但上面这些结果表明,它确实有坏处。如果我们用 Q 因子来解释,那就说得通了。与其他测量方法不同, Q 因子并不是简单地随着论文数量的增长而增长,而是取决于新的论文是否比其他论文的平均水平更好或者更差。也就是说, Q 因子的作用是量化科学家在整个职业生涯中持续产出高影响力论文的能力。它考虑到了所有论文,而不仅是高影响力论文。因此,如果已经有了杰出的论文发表记录,然后又发表了几篇论文,新的论文会提升其他指标,但并不能保证一定能够提高 Q 值。事实上,除非新论文与通常发表的论文水平相当,否则这些新发表的论文反而会降低你的 Q 值。
Q 因子在预测职业生涯影响力方面具有超高的精确性,这说明在职业生涯中,一致性有多么重要。这一结论,连同图6-3反映出的 Q 值的稳定性,给我们描绘出一种有些单调的职业图景:我们的职业生涯都是从一个特定的 Q 开始,无论它是高还是低。 Q 因子控制着我们发表的每一篇论文的影响力,而且一直伴随我们直到退休。但这是真的吗?我们能够打破这种机器人似的单调吗?换句话说,我们的职业生涯中有过游刃有余的时期吗?