中科院和工程院的候选人信息均来自其官方网站以及中科院院刊。我们从两院官网获得了通过第一和第二阶段的候选人信息,但是未能获得进入最终个人投票环节的候选人名单。中科院没有公布2001年和2013年通过第一阶段的候选人名单,工程院则没有公布2001年的信息。在向两院提出获取数据的请求后,工程院向我们提供了2001年的数据。
我们利用上述数据构建了两个主要变量: Elected yi 表示第 y 年候选人 i 是否当选院士。 First Stage yi 表示候选人 i 是否在第 y 年通过了院士选举第一阶段。在两院院士第一阶段选举中落选的候选人可能会在接下来的几年中再次被提名,因此同一候选人可能多次出现。我们根据姓名、籍贯和出生年份进行了匹配。在最终的样本中,1 663名(占49.7%)候选人被提名一次,915名(占27.4%)候选人被提名两次,768名候选人获得三次及以上提名(11名候选人在同一年被提名到中科院和工程院,其他候选人-年份指标都是唯一的)。
落选后再次被提名的候选人的当选概率显著提高:首次提名的当选概率为7.1%,第二次提名的当选概率为13.6%。
中科院和工程院院士的候选人通常都是知名的科学家和社会精英。因此,我们从所在院校官网和百度获得了大多数候选人的个人和专业信息,包括出生年份、性别、籍贯(包括辖区内的农村地区)和教育背景。我们还通过知网获取了论文中列示的作者信息并对数据进行了补充。中科院和工程院官网也发布了院士当选过程的纪要。在总共3 349名候选人中,766名候选人的籍贯信息无法找到。其中,259名候选人(占总数的20.7%)为中科院院士候选人,507人(占总数的21.7%)为工程院院士候选人。我们在研究中剔除了这些样本。 [1] 另外,2001—2013年期间各学部常务委员会委员名单来自中科院官网和工程院年鉴。
结合院士和候选人的籍贯信息,我们构建了变量 Committee Tie yi ,表示在第 y 年候选人 i 至少与一名常务委员会委员为同乡关系。在79%的样本中,与候选人有同乡关系的常务委员会委员只有一名,在17%的样本中有两名,而在4%的样本中有三名或更多。类似地,我们构建了变量 Non-Committee Tie y i ,表示在第 y 年候选人 i 与常务委员会中的任何人都不存在同乡关系,但是与所在学部的其他院士存在同乡关系,描述某一城市盛产优秀科学家的程度。另外,我们引入了“安慰剂”变量 Committee Tie_Placebo yi ,描述在第 y 年候选人 i 是否与本学部常务委员会中的院士不存在同乡关系,但与其他学部常务委员会的院士存在同乡关系。
根据候选人的教育背景,我们构建了两个变量: Committee_College Tie yi 描述在第 y 年候选人 i 与常务委员会委员是否从同一所大学毕业, Non-Committee_College Tie yi 描述在第 y 年候选人 i 与非常务委员会委员是否从同一所大学毕业。类似地, Committee_Employer Tie yi 描述在第 y 年候选人 i 在提名时是否与常务委员会委员是同事关系,而 Non-Committee_Employer Tie yi 则描述在第 y 年候选人 i 是否与非常务委员会委员是同事关系。我们的补充稳健性检验结果表明,对教育背景和任职单位的控制结果是稳健的(限于篇幅,本书没有附上这些表格)。
在实证分析中,我们希望控制科研成果对当选概率的影响。我们用院士选举当年年末的 H 指数衡量候选人的科研成果,相关数据来自科学网。在此,我们遵循已有文献,如Aghion,Van Reenen与Zingales(2013),在统计引用次数时滞后数年,以前瞻性的视角考察科研成果。因为统计引用次数时选举结果已产生,所以当选院士可能对引用次数有潜在的积极影响。然而,我们补充的稳健性检验结果显示,以发表刊物衡量科研成果质量的实证结果是稳健的,不存在上述问题(限于篇幅,本书没有附上这些表格)。我们还根据作者的任职单位和研究领域对作者重名或者使用缩写而非全名的情况进行了匹配。
H 指数分布右尾长,并且36%的工程院候选人以及6%的中科院候选人的 H 指数为零,因此我们使用ln(1+ H -Index yi )作为对候选人科研成果的主要衡量指标。在没有充分的数据佐证候选人质量的情况下, H 指数是一个可接受的描述科研成果和影响力的公认指标(Hirsch,2005)。
为了评估实证结果的稳健性,我们使用替代性指标 Homeruns 衡量科研成果,包括候选人的总出版物数、总引用数以及高质量(引用次数超过100次)论文数。我们用变量 Has Homerun 描述候选人在提名时是否有一篇高质量(引用次数超过100次)论文。
我们还引入了变量 Doctorate yi 来衡量候选人是否拥有博士或同等学位。同时我们也认识到:未获得博士学位本身并不表示资质不足。例如,2015年诺贝尔医学奖获得者屠呦呦就没有获得博士学位。我们还引入了描述地位或关系等其他方面因素的变量。其中, Dean yi 表示在第 y 年候选人 i 是否在其学术团体中担任院长或更高级别职务。 Political Tie yi 描述在第 y 年候选人 i 是否(或曾经)是一个副厅局级别(或以上)的政府官员。政府官员通常拥有较大的政治影响力。例如,铁道部前部长傅志寰于2001年被提名为院士候选人并当选。
表3-1列示了全样本描述性统计分析,表3-2和表3-3则分别按 Committee Tie和Non-Committee Tie 分列数据。后两种分类并不互斥,与常务委员会委员和非常务委员会委员都有同乡关系的候选人在样本中并不少见。
表3-1 数据全样本描述性统计
如表3-1所示,同乡关系相对较为少见。只有10.0%的候选人与常务委员会委员有同乡关系。 候选人平均年龄为58.4岁,可见院士头衔是在职业生涯晚期对其过往成就的嘉奖。
在比较有无同乡关系的候选人的当选情况时,我们发现了一些值得关注的现象。首先,在全部样本中,有同乡关系的候选人的当选概率比没有同乡关系的候选人高出5.9个百分点(19.6%对13.7%,该差距在1%的水平上显著)。但是,同乡关系对于是否能够通过第一阶段选举没有影响。没有同乡关系的候选人通过第一阶段选举的概率更高,但该差异在统计上不显著。由此可见,同乡关系对于通过第一阶段选举的候选人是否能最终当选非常重要。通过第一阶段选举后,有同乡关系的候选人最终当选的概率比没有同乡关系的候选人高出17.2%。相比之下,与非常务委员会委员的同乡关系对当选概率的影响就小很多。
表3-2 根据是否与常务委员会委员存在同乡关系所做的描述性统计
表3-3 根据是否与非常务委员会委员存在同乡关系所做的描述性统计
其次,有些地方盛产科学家,他们也往往在顶尖学术机构学习。因此,如表3-2和表3-3的最后两行所示,有校友关系的候选人与没有校友关系的候选人在当选概率上存在很大差异。因此,我们需要特别关注控制籍贯固定效应后原有结果是否稳健,并且还要考虑“安慰剂”变量的影响。
此外,有同乡关系的候选人与没有同乡关系的候选人在年龄上也存在显著差异。与常务委员会委员有同乡关系的候选人与没有同乡关系的候选人的年龄差异约为1.5岁。与非常务委员会委员有同乡关系的候选人与没有同乡关系的候选人的年龄差异更大,平均为2.3年并且显著。这也直接导致了有同乡关系的候选人与没有同乡关系的候选人在拥有博士学位的比例上有显著差异。直到20世纪90年代后,中国科技工作者才普遍进修博士学位。例如,60岁以下的候选人中超过70%拥有博士学位(大约85%的候选人在50岁以下),而60岁及以上的候选人中这一比例低于20%。控制了年龄之后,表3-2和表3-3中拥有博士学位的候选人的比例差异不再显著。
有同乡关系的候选人与没有同乡关系的候选人在年龄上为何存在差异仍然是一个疑问。虽然我们没有观察到候选人提名的来源,但是候选人可能是由任职单位或现任院士提名。我们推测任职单位可能不太愿意提名临近退休的人员,通过现任院士提名成为这些人获得提名的唯一渠道。因此,年龄较大者更可能在提名过程中采取寻租行为,表现为有关系的候选人年龄较大。
注释:
[1] 可以找到籍贯信息的候选人和无法找到籍贯信息的候选人的 H 指数无明显差异。可以找到籍贯信息的候选人的 H 指数平均值为8.8,无法找到籍贯信息的候选人的 H 指数平均值为8.4,两者差异的 p 值为0.70。两类候选人的平均年龄也几乎相同,均为约58.4岁。