科学文献的引证与被引证,从文献使用角度反映了科学与技术之间、科学之间的相互联系
。大量的统计分析发现,科学文献的引证及科学引文,具有一定分布结构和规律。
(1)被引频次分布
当随机选取一定数量的文献或某一领域的特定文献时,根据论文的被引频次进行统计分析可以发现其分布呈现明显的长尾分布,即少部分文献获得了大量引用,大部分文献处于零被引或低被引状态。张靖雯等
选取美国物理学会(APS)文献引文数据中累计被引次数在200次以上且时间窗口在10年以上的文献1475篇,发现论文累积被引次数在500次以上的文献仅占16%,总被引次数越多,论文数量越少,呈现长尾分布(图3-5)。
图3-5 累积被引次数分布
(2)引文量的年代分布
从文献生命周期角度来看,一篇学术论文在发表之后几年内会被其他论文引用,被引次数逐年增加达到峰值,之后被引次数慢慢减少直至被人们遗忘。一篇论文发表后被引次数随时间的分布称为引文轨迹,也叫引文曲线或引用历史。
早在1979年,Avramescu在大量数据的基础上,总结出了被快速认可、受认可程度一般、受认可程度较低的三种“经典引文曲线”和引文曲线单调递增的天才型论文以及认可后突然被否定的论文,共五种
。对于认可后突然被否定的论文,引文曲线突变后引用次数降至0,这种文献较为罕见。而前三种“经典引文曲线”具有明显的生命周期特征,是引文曲线中较为常见的类型。此时Avramescu并未提出睡美人类型的引文曲线。然而,20世纪60年代初,有学者注意到有些论文在刚发表时很少被引用
,多年后被人们发现,突然被大量引用,这种现象被称为“早熟的科学发现”(Premature Discoveries)
、“延迟承认”(Delayed Recognition)
。1985年,Aversa采用K-means聚类分析对400篇高被引文献的曲线特征进行聚类,分析总结了高被引文献的两种引文轨迹,分别是“延迟增长——缓慢下降”和“立即增长——快速下降”两种
,前者具有睡美人文献特征,后者具有昙花一现特征。荷兰科学家Van Raan教授在2004年将文献“延迟承认”的被引现象总结为“睡美人”(Sleeping Beauties),即一篇论文在发表后如同睡美人沉睡,很长一段时间都处于零被引或低被引状态,而后某个时点突然高被引,仿佛睡美人被唤醒了一样
。Costas和Van Raan
通过计算文献所在学科领域在同一年发表的所有文献获得的总被引次数的50%所需的时间按从短到长排序,以前25%文献和前75%文献达到50%引用所需时间作为基准,将单篇文献与之比较,从而将文献被引形态分为常态型、昙花一现型和迟滞型。其中,常态型代表经典引文分布,获得一半引用的时间在25%~75%文献之间,3~4年达到引用高峰;昙花一现型代表获得一半引用的时间在25%文献之前,即发表之初立即得到较多引用;迟滞型代表获得一半引用的时间在75%文献之后,“睡美人”文献属于此类,文献获得大部分引用所需的时间较长。2014年,李江等
学者利用Origin8软件对341位诺贝尔奖得主的引文曲线进行拟合,发现除了“经典引文曲线”、“指数增长引文曲线”和“睡美人引文曲线”外,还存在另外两种引文曲线,即“双峰引文曲线”和“波形曲线”(其中,“双峰引文曲线”存在明显的生命周期,当处于“经典引文曲线”衰退期时出现了第二次生命周期,而“波形曲线”无生命周期特征),从而构建了基于这五种引文曲线类型的引文曲线分析框架。而在此之前,Li和Ye
在对获诺贝尔奖论文的引文曲线分析中发现了四个“睡美人”的特例,这四篇文献引文曲线在“睡前”有一个飞跃,在此基础上他们将这种现象称为全要素睡美人(All-Elements-Sleeping-Beauties)。从曲线类型来看,全要素睡美人也属于双峰引文曲线范畴。熊泽泉
选择中国学术期刊中图书情报领域相关期刊,采用聚类分析方法,发现了3种基于论文绝对被引量的引文模式和6种基于相对被引量的引文模式。
(3)引文分布模型
关于引文曲线的分类和识别,许多研究者对引文曲线分布提出了不同的引文分布模型用于描述和拟合引文曲线。
①Avramescu一般曲线模型。Avramescu通过大量文献的曲线拟合
,归纳了单篇文献引文曲线的一般公式,表示为
式中, C 0 是引文曲线振幅; α 是时间常量; m 是初始增量。
当 C 0 较大、 α 较小时,文献发表后被广泛关注,随着时间 t 的增加,引用数量下降缓慢,用于描述引用次数较高的经典引文曲线;当 C 0 较小、 α 较大时,文献发表后获得关注较少,随着时间 t 的增加,文献老化速度缓慢,但总被引次数较低;当 C 0 、 α 均较大时,文献发表初期得到较多引用,随着时间 t 的增加,引用数量迅速下降,属于昙花一现型。然而Avramescu一般曲线模型无法描述所有的引文曲线,如“睡美人”文献和双峰引文曲线。
②对数正态函数模型。根据引文生命周期特征来看,引文曲线通常呈现逐渐上涨、达到峰值后逐渐下降的正态曲线分布,因此引文曲线通常可用对数正态函数来描述其特征。Egghe和Rao
等人的研究认为对数正态函数对曲线的拟合效果优于负二项式函数、反函数等。其数学表达式为
式中, y 0 是偏移量; x c 是正态分布中心; w 是宽度; A 是曲线振幅。
当 A 、 w 越大时,文献发表后获得的引用次数较多,且随着时间推移,文献老化速度较慢,文献生命周期较长。
③指数函数模型。对于引文曲线单调递增的形态,Sangam
提出指数函数对单调递增的引文分布形态进行拟合,其表达式为
式中, y 0 是常数,代表函数偏移量; a 是初始值; b 是增长率; t 是时间。
当 a 、 b 值较大时,引文曲线增长速度较快,文献发表后短期内就能获得大量引用;当 a 、 b 值较小时,引文曲线增长速度较慢,文献吸引引用的速度较慢,但整体仍能获得较多引用。
引文是连接科学知识的重要线索,为我们提供了理解知识产生、交流、转化乃至创新规律的金钥匙。科学载体(如文献、论文集等)在科学系统被引用的动态演化过程称为引文扩散。更具体地,引文扩散是指某个知识主体(如一篇论文、一个作者的论文集、一个知识主题的论文集)的被引状态,在科学系统中动态演进的过程与现象。这种动态过程可以在时间维度发生,也可以在空间维度发生,反映了科学系统自身的发展演化。
(1)引文扩散要素
引文扩散的影响因素多种多样,不仅受制于基本的引文规律,而且受到随机噪声、重要历史事件等因素的影响。引文扩散体系中至少包含以下要素,如图3-6所示。
图3-6 引文生命周期及其基本要素的分析框架
注:“最终引文数量”与“引文生命周期”体现在随时间变化的整条引文曲线上。“引文累积速度”是较为抽象的要素,“文献网络/生态系统”是引文扩散结构维度的展现,二者均无法在图中展现。
①时间环境。时间环境是指文献发表的时刻以及发表时所处社会环境的特征,最典型的是论文发表的年代。不同年代发表的论文,其引文模式存在显著的差异。
②首次被引。首次被引是指文献发表后第一次被引用的时刻。相当比重的论文在发表之后,终其一生可能也未被其他文献引用,某些论文则在发表之后获得较多的关注和引用数。
③引文高峰。文献被引的次数可能会在某些年份形成峰值,即之前与之后年份的引文都明显低于这一年,被称为“引文高峰”。引文曲线上体现出两种高峰:一是“本地高峰”,即引文数仅在一小段时间内表现出峰值,而其他时段内可能存在另外的峰值,某些本地高峰可能会高于其他本地高峰;二是“全局高峰”(或者称为“引文顶峰”),即在所有本地高峰中最高的那一个,也就是文献发表以来,达到最高年度引文数量的时刻。
④最终引文数量。这是一个相对抽象的概念,是指文献在整个生命周期中,最终能够吸引到的所有引文数量的总和。
⑤引文累积速度。不同的文献在吸收引文的速度方面存在着明显的差异,有的文献快速积聚引文却后继乏力,有的文献启动缓慢却后劲充足。
⑥引文生命周期。引文生命周期是指文献从发表、兴盛到衰老、死亡的整个生命过程。以往的研究认为,一篇典型文献的生命周期是它在发表之后2~6年
达到引文峰值,然后开始衰老的过程。
⑦文献网络/生态系统。文献网络是指经由文献之间的引用关系形成的网络系统。一篇文献通过引用其他文献和被其他文献引用,加入文献网络系统,引文的扩散也是在文献网络系统
中进行。
⑧引文起飞(Takeoff)。引文起飞是首次被引之后的另一个特殊时点,它衔接了文献从引入阶段到引文快速增长阶段的演进过程。
(2)引文扩散结构
引文的扩散在结构上呈现级联的特征。所谓级联,是指某个事件一下触发后续一系列事件的反应。引文级联具体是指,一篇论文会被后续论文引用,后续论文还会被后续论文引用,如此往复,形成一个由源头论文出发的有向无环图。我们将这样的一个有向无环图称为一个引文级联。图3-7为某文献触发的引文级联。
图3-7 某文献触发的引文级联
◎
延伸阅读资料:创新还是模仿
1.研究背景
两篇假想的论文,具有一致的被引总次数而引文模式截然不同。两篇论文发表于相同领域、相同年份,在发表之后的前15年内获得了相同的被引总次数,但是论文获得未来影响方面的潜力不同。论文1未来能获得更多引用。图3-8为两篇论文的引文曲线。
图3-8 两篇论文的引文曲线
创新扩散中存在两种机制,一种是创新机制,另一种是模仿机制。创新机制是用户独自做出购买产品的决定而不受他人影响(这些用户具有创新精神);模仿机制是用户的购买决定部分受到社会大众的影响,并且随着已经购买人数的增加而加大。而在科学文献中,新颖性是科学文献得以发表的一个重要的内在要求。那么,科学文献中包含的科学想法也是“创新”的一种类型。
创新扩散的理论与模型为理解引文过程带来启发。典型的引文时序曲线与典型的创新采纳曲线在外观上十分接近,两者都呈现钟形。
2.Bass模型
Bass(1969,2004)基于创新与模仿两种机制,提出了一种简洁的新产品销量预测模型,成为创新扩散的经典模型。按照人群划分,前2.5%的采纳者被称为“创新者”,剩余的采纳者被称为“模仿者”。Bass模型假设一位在时刻 t 尚未购买某个新产品的用户将会在下一个微小时段内购买的概率,是系统内所有已经购买新产品的用户比例的线性方程:
h ( t )= p + q F ( t )
式中, h ( t )是时刻 t 的采纳风险率; F ( t )是时刻 t 已采纳用户的累计分布函数; p 是创新系数,与大众传播等外部影响相对应; q 是模仿系数,与人际传播等内部影响相对应。
3.研究数据
诺贝尔奖得主论文数据集,包含629位诺贝尔奖得主的58963篇论文的年度引文数据,学科覆盖化学、物理学、生理学或医学、经济学四个学科领域,论文发表时间跨度为1900—2000年,引文时间跨度为1900—2011年(时间窗口不低于11年)。
美国物理学会数据集,用于验证结果是否可靠。美国物理学会数据集收录了美国物理学会1893—2013年的45万篇论文以及600万对引用关系。
4.研究方法
将Bass模型应用到单篇论文上,估计对应的模型参数值。为了保证实验结果的准确性与可靠性,对数据进行预处理。剔除被引次数较低的论文。将被引次数19次以下的论文剔除,得到28769篇论文。选择参数估计方法。在本研究中我们倾向使用非线性最小二乘法。循环估计模型参数直到结果收敛。在第四次循环后,最终有23399篇论文成功拟合模型,其中22028篇的系数值与 R 2 非负。利用 R 2 筛选结果。保留 R 2 不小于0.5的论文,最终得到11037篇论文。实验结果发现创新扩散的经典机制适用于绝大多数论文的扩散。
5.研究结果
持续增长引文曲线符合小 p 、小 q 特征,高影响力的论文常常兼具良好的潜力与良好的持久力。参数 p 反映了一篇论文在发表之后的早期阶段获得的引文数量在它整个生命周期中的比重。 p 值大表明一篇论文在发表之后很快获得它生命周期中较大比重的引文数量,同时也意味着这篇论文在生命周期的剩余阶段获得更多引文的可能性不大。较小的 p 值显示早期阶段的引文比重相对最终能够获得的引文总数较低,这也表明论文随着时间的推移有较大的潜力获得更多的引文。参数 p 在一定程度上反映了一篇论文获得未来引文的潜力:一篇论文的 p 值较小,它将有更大的潜力获得未来的引文;一篇论文的 p 值较大,它在早期阶段被引用的比例很大,随后往往随着时间的推移呈现下降趋势。参数 q 反映了一篇论文被引的“持久力”。较大的 q 值可以增加某篇论文获得一次新引用的概率,然而它同时也加速了这篇论文的衰老或死亡。较大的 q 值意味着快速死亡,即缺乏持久力;较小的 q 值则使得一篇论文有更多的时间来持续积累引文。
对科研产出评估的启示主要有:引文总数衡量的只是科学产出的整体影响,引文扩散进程能够为我们理解科学影响力提供更多启示。科学引文不只是单一的、静态的统计数字,而且是动态的增长与消退过程,在时间上呈现出特定的模式与规律,与营销科学研究中的“创新效应”和“模仿效应”相对照,“潜力”与“持久力”在引文扩散模式中发挥着重要作用。那些具有突破性创新的科学想法,它们后续的引文增长都比那些平庸的论文扩散更加持久。
相关案例的研究也进一步表明了,马太效应对于信息分布注重核心信息带来的负面影响,在科学研究中,潜在的科学突破并不完全体现在被引次数上,更应探究其内在机制。科学突破的重要性在一定程度上可以从其引用方式的特征中得到体现。