施引者引用意向与文献计量视角的学术论文被引影响因素研究最新章节_谢娟著

2.1 学术论文被引影响因素

Tahamtan等将影响单篇论文被引的因素归纳为三大类：与论文本身相关的因素、与期刊相关的因素、与作者相关的因素。本节依据该分类进行综述。

2.1.1 论文本身相关因素

关于该类影响因素的研究数量较多，提取出来的特征丰富，同一特征不同学者实证得到的结果也各不相同，下面对其中几个重要的影响因素进行梳理。

2.1.1.1 参考文献特征

多项实证研究表明，引文数量、引文质量和引文种类均与论文被引频次成正相关关系。比如：Chakraborty等于2014年提出的引文多样性指数（reference diversity index）综合考虑了参考文献中的引文种类和引文所涉及的领域；Didegah和Thelwall 提出的引文国际化（internationality of reference）指标采用了引文所在期刊国际化（internationality of journal）的平均值进行量化；两项研究的结论均显示所提指标与论文被引频次存在显著的正相关关系。不过，也有研究得到了不同的结论。比如，Wallace等对1900—2006年间WoS（Web of Science）的2 500万篇论文及6亿篇引文的数据集进行了分析，重点关注了其中的零被引论文（uncitedness），结果却发现零被引论文的平均参考文献数量更大。Biscaro和Giupponi 发现一篇论文的研究内容如果建立于该领域的经典基础论文之上，则有更大的机会收获更高的被引频次。此外，Roth等还专门对引文的年龄进行了研究，结果表明，论文参考文献的平均年龄较低时有利于获得更高的被引频次，反之则被引频次显著减少。

2.1.1.2 论文篇幅

多位学者对论文篇幅与被引量的相关关系进行了实证研究。研究中通常以期刊或论文为对象，以页数量化论文篇幅，以被引量的绝对频次或年均频次作为因变量，运用相关分析、回归分析等统计学方法探寻两者间的关系。也有学者从标题长度、摘要长度、图表数量及参考文献数量等局部篇幅的细粒度视角探讨论文篇幅与被引量的相关性。

不同学科领域的多项研究发现了论文篇幅与被引量的强正相关关系。比如，肖学斌和柴艳菊发现论文篇幅与被引量强相关（ r =0.754~0.872）。Falagas等为探讨论文篇幅对未来被引量的影响，以影响因子前5的综合性医学期刊所发表的论文为对象，发现论文篇幅与被引量呈强相关关系（ r =0.70）；作者通过多元回归分析还发现：论文平均增加1页，被引频次的对数值增加0.079。Ronda-Pupo 按照不同合作者数分别对被引量与论文篇幅的幂律关系进行函数拟合，发现拟合程度 R ² 高达0.86~0.98。Robsona和Mousquès 采用基于随机森林的回归分析方法也证实了上述结论。

部分研究报告了两者间的中度相关关系。Haslam等在心理学领域进行的研究表明论文篇幅与被引频次呈中度相关（ r =0.420），作者认为当论文具有更多原创内容时，需要更长的篇幅以深入阐释，因而篇幅越长，论文质量越高，被引量也越大。Hegarty和Walton 对9种高影响力的心理学期刊论文的篇幅与被引进行分析，得到两者间相关系数为0.310。Kostoff ^[1] 的研究支持了上述两篇文献的观点。Van Wesel等在医学领域进行了类似研究，也得到了相似结果（ r =0.435）。肖红等的研究发现生态学部分期刊中论文长度与年均被引频次间存在显著的中度正相关关系，即随着论文长度的增加，年均被引频次随之增加。

另外有一些研究表明，虽然论文篇幅的增加也能带来被引频次的增加，但程度较弱。如Antoniou等的研究发现高质量的血管外科期刊中，论文篇幅与被引量具有正相关关系，但相关系数仅为0.214。Frogel 对天文学领域中论文被引量等级与篇幅的相关性进行分析，发现两者的相关系数为0.21。Bornmann和Leydesdorff 试图通过比较20个负二项回归模型的拟合程度以建立被引量的影响因素预测模型，模型中，论文页数对被引量影响的回归系数 β 介于0.01和0.02之间。

也有研究显示，二者间的相关系数小于0.1或者 p 值大于0.05。Hodge等对社会工作类期刊的研究发现，两者的相关系数仅为0.09，So等得到的相关系数更低（ r =0.03），根据强弱准则，上述两研究已无法支持两者相关的结论。Slyder等在对地理学、林学论文的初步研究中，发现论文长度与被引量的相关关系较弱（ r =0.19），但在删去一篇长75页、被引524次的论文后，二者已不再相关（ r =-0.05， p =0.48），该研究认为，较短的论文表述更清晰，结论更简洁，且容易获取，因而在引用过程中具有独特的优势。Foley和Della ^[2] 的研究发现，短篇幅论文和长篇幅论文在被引量上的差异不具有统计学显著性，但短篇幅论文的页均被引频次高于后者。

部分研究还报告了二者间的负相关关系。Lokker等的结论显示：论文篇幅、是否为结构化摘要、是否为综述与被引量呈负相关；在删除数据集中的Cochrane评价和卫生技术评估报告（HTA）两类综述性的长篇幅论文后，论文篇幅、是否为综述与被引量之间的关系不再显著。Royle等和Uthman等对系统评价和元分析（Systematic Reviews and Meta-analysis，SRM）类论文进行分析，结果显示篇幅与被引量的相关系数为负值（ r =-0.052和 r =-0.002），绝对值小于0.1，这表明二者不相关。Bornmann和Leydesdorff 采用百分位数比例（percentile shares）分析法得到了相似的结论。

少量研究从标题、摘要、图表及参考文献等局部篇幅的视角探讨了篇幅与被引量的相关性。Kostoff ^[3] 通过实证研究发现摘要较长的医学论文被引的可能性更大，而标题较长的论文所获被引却较少。Peters等的研究表明论文的参考文献越多，其被引频次越高；Adair和Vohra 以及Vieira和Gomes 的研究结论与之不谋而合。Cleveland 发现，由于图表具有较好的可读性及解释能力，其数量对被引量的预测也具有一定价值，作者强调，图作为“硬科学”（hard science）的特征，在增加被引中的作用不容小觑。Onodera和Yoshikane 将被引影响因素进行多元建模，以预测6年、11年的被引情况，结果发现论文篇幅变量的系数在大部分学科中均不显著，但由于篇幅与图表数、公式数、参考文献数等强相关，因此在负二项回归模型中采用这几个变量进行预测效果较篇幅更优。

综上，学界对于论文篇幅与被引量的相关关系尚无明确、一致的结论；样本在诸如学科领域、文献类型、论文质量等方面的差异可能是两者间关系的调节变量。目前，尚缺乏对上述相关关系的系统、定量梳理，这为本书统合分析论文篇幅与被引量的相关关系提供了研究问题和数据源。

2.1.1.3 下载量

下载量是出版数字化的直接产物。作为科学计量学的新秀——使用指标之一——下载量记录了论文在期刊网站或出版商中被保存、下载的次数，它与直接反映论文被引的引用指标有异，也有别于以社交媒体影响力为基础的替代计量学指标。

关于下载量分布规律、峰值出现的时间及老化规律的研究，引起了学者的广泛兴趣。Wang等发现，使用数据呈现明显的偏态分布，幂律函数可以较好地拟合其分布曲线，该研究表明，仅少数论文被大量阅读和下载，这说明论文的使用也具有马太效应。方红玲和Schloegl等分别对国内外论文下载量达到峰值的时间进行探讨，得到了一致结论，即论文在发表后1~2年获得的下载最多，且数年后下载量会再次增加，这提示论文被引频次的增加一定程度上也影响了下载量。Moed 对单本期刊的下载量进行了历时和共时分析，发现其下载量在6个月之内即可达总下载量的40%，下载半衰期为12.6个月，明显短于被引半衰期；Wan等提出了下载即年指数（Download Immediacy Index，DII），将之定义为期刊论文出版一年内的下载量与该刊当年发表的论文总数之比，该研究显示DII可以作为独立指标使用，且对期刊 h 指数等指标具有一定的预测价值。

目前，被引量作为科研评价的重要指标，反映了基于文献的传统学术交流过程。随着网络的普及，许多学科的学术影响力已经扩散至社交媒体和Research Gate等非正式学术交流平台。使用指标和替代计量学指标的出现弥补了传统学术交流模式下评价不全面、不及时的缺陷，而下载量指标相较于替代计量学指标的稳定性，使其备受推崇。于是，下载量与被引量的相关关系研究引起了学界的关注。

部分研究从论文层面对下载量与被引量的相关关系进行了探讨。Schloegl等研究发现，图书情报学领域论文的下载量与被引频次呈强相关关系（ r =0.770和 r =0.760），而Moed 以 Tetrahedron Letters 为例的研究发现该刊论文的下载量与被引量间的关系较弱（ r =0.220）。Botting等试图根据下载量预测论文的被引量，发现论文发表年内所获得的下载量可以预测其3年后的被引（ r =0.450）。牛昱昕等却发现单篇论文的下载量与被引频次间的相关性不显著。

也有学者从期刊层面进行了相关研究。Bollen和Herbert 仿照ISI期刊影响因子的定义，率先提出使用影响因子指标。Gorraiz等的研究选取了4个领域的362本期刊，分别比较了期刊使用因子（JUF）、Garfield's影响因子（GIF）和总影响因子（TIF）间的关系。庞景安探讨了中文科技期刊被引与下载指标间的关系，发现总下载量与总被引量的相关系数为0.545，而影响因子前100名期刊的总下载量与总被引量的相关性更强（ r =0.659）。

少部分研究以作者、机构为单位探讨下载量与被引量的关系。Kurtz和Henneken 采集美国天文学领域中922位博士的论文数据，试图明确论文下载量与被引量的相关关系并预测其未来成就。Boukacem-Zeghmouri等则从机构层面展开了类似研究。

上述研究发现，下载量与被引量间的相关关系会受到学科、期刊类型和文献类型等变量的调节。（1）学科。Wan等发现，农学论文的被引量与下载量具有较强的相关关系（ r =0.635）；Subotic和Mukherjee 的研究数据取自心理学的高下载量论文，结果显示下载量与被引量之间的相关系数仅为0.220，研究认为该结果可能是心理学的学科性质造成的。（2）期刊类型。Nieder等根据BMC期刊网站中5本肿瘤学期刊的论文数据，发现下载与被引之间关系较弱（ r =0.230），而Liu等以5本中国眼科学期刊发表的论文为研究对象，发现被引量与下载量的相关系数为0.491，呈中度相关。Schloegl和Gorraiz 的研究则发现SCI一区的药学期刊 Drug Discovery Today 中论文下载量与被引量呈强相关关系（ r =0.560~0.770）。（3）文献类型。Ketcham 探讨了Lab.Invest期刊网站中论文的下载与被引间的相关关系，发现其中被下载最多的是技术报告而非综述，且技术报告与被引的相关性较综述低。Moed 认为其研究中被引量与下载量相关性较低的原因与期刊 Tetrahedron Letters 上发表的短讯（short communications）较多有关。牛昱昕等的研究显示应用型、综述型论文更容易出现“高下载低引用”现象。（4）时间。Schloegl和Gorraiz 比较了论文发表后1~5年下载量与被引量的关系，结果发现论文发表2年后所获得的下载和被引之间的相关系数为0.510，而发表5年后的下载量与被引量的相关关系更强（ r =0.630）。（5）数据源。Liu等以PLoS网站的论文为研究对象，发现其被引量与下载量的相关系数为0.402，该结果与Brody等和Xin等对arXiv.org中论文下载与被引的分析结果相近（ r =0.440和 r =0.387）。O' Leary ^[4] 将单个期刊中下载量最高的25篇论文分别与其在SSCI、Scopus和Google中获得的被引量进行比较，结果表明尽管被引数据源不同，但所得相关系数差异不大（ r =0.839，0.820，0.784）。

可以看出，上述研究以单篇论文的下载量与被引量为基础数据，汇总并衍生出期刊、作者、机构等层面的下载与被引间的相关性分析，研究结论的明显差异为本书从单篇论文层面统合分析下载量与被引量的相关关系提供了新的研究思路。

2.1.1.4 跨学科性

目前，学术界尚未就跨学科（Interdisciplinary）的定义形成一致的理解。1926年，美国哥伦比亚大学的心理学家Woodorth在美国社会科学研究理事会上首次提出“跨学科”一词，并认为跨学科是“超越一个已知学科的边界而进行的涉及两个或两个以上学科的实践活动”，不过，当时并未引起足够重视。 20世纪60年代后，随着跨学科研究（Interdisciplinary Research，IDR）的深入，学界开始关注跨学科概念并进行了深入探讨。OECD （Organization for Economic Cooperation and Development）将跨学科定义为“两门或两门以上不同学科之间的相互联系，从思想的简单交流到较大领域内教育与研究的概念、方法、程序、认识论、术语、数据乃至组织之间的联系”。Klein 从历史、教育和实践的角度，将跨学科理解为“源于统一科学、一般知识和知识整合等一系列思想的共振”。美国国家科学院、国家工程院等将跨学科定义为“为了增进根本性认知或解决单学科范畴或研究领域无法解决的问题，由个人组成的团队研究模式，该研究模式集成了两个或两个以上学科/专业领域的知识、数据、方法、工具、观点、概念或理论”。Larivière和Gingras 认为“跨学科是不同学科围绕同一个目标的整合”。Rhoten和Pfirman 将跨学科理解为“两个及以上不相关的学科、知识体系与思维模型的整合或综合”。综合上述定义可知，跨学科跳出了单一学科的藩篱，学科整合是其重要标志。

随着跨学科概念的日益普及，学界也诞生了多个与跨学科相近的概念，如“横学科”（Crossdisciplinary）、“多学科”（Multidisciplinary）及“超学科”（Transdisciplinary）等，尽管这些概念具有广义上的共同点，但在狭义上，它们分别强调了学科发展的不同进路和演化，属于跨学科活动的不同层次。①跨学科比多学科更能实现深层次整合。Birnbaum 认为“IDR是一种独特的团队研究形式，不同领域的学者为研究一个共同问题聚集在一起，他们的努力被整合成一个有凝聚力的整体；而多学科研究是指将不同学科研究人员聚集在一起，但每个研究人员只需研究与自己专业相关的问题，具体研究结果无须整合”。该观点得到多数学者的认可，Repko 指出“多学科同时从若干学科的视野研究某个课题，但并不试图整合其见解，且研究方法易受主学科所偏爱的方法与理论支配”。因此，多学科的本质仍然是单一的学科研究，而跨学科则打破了学科壁垒，实现理论整合。②超学科相较于跨学科跳出了学术系统，目标在于解决社会问题。Pohland等提出：“当有关社会问题领域的知识不确定时，当问题的具体性质有争议时，当有大量关注问题的利益相关者及介入者并与之打交道时，就需要超学科。” 因此，超学科在解决社会问题中具有重要的现实意义。目前，学界对“超学科”也尚无明确定义，但对于其研究目标已达成共识。Rosenfield认为“超学科方法在界定和分析影响人类健康和福利的社会、经济、政治、环境和制度因素时可以提供系统、综合的理论框架” 。超学科跨越纯粹的学术界限，站在经济社会发展的整体高度，解决现实社会中的复杂问题，因此，超学科是传统学科和跨学科的延伸和补充。

区分“跨学科”“多学科”和“超学科”的关键在于不同学科之间的作用强度，依据作用强度的差异可以将跨学科分为三个层次：①多学科为最低层次，它同时提供多种学科，但没有明确学科关系，且不涉及任何学科的相互作用，仅限于研究结果的汇总；②跨学科为第二层次，该层次的各学科之间相互作用促成了各学科范式之间的相互碰撞，学科间的数据、技术、理论和方法等互相融通，产生新的内容；③超学科为最高层次，它彻底打破了学科之间的壁垒，所研究的问题不受特定学科的束缚，研究人员共同开发、使用同一个概念框架，通过整合学科和非学科的观点，来获得对整体现实世界的认识。相较于上述三个概念，目前学术界对“横学科”的研究较少。Jantsch 从系统和整体的角度将不同学科间的合作关系分为多学科、横学科、群学科、跨学科和超学科，认为横学科是介于多学科与跨学科之间的一种学科研究，并将其定义为“在同一层次，一门学科的原理对其他学科施加影响，因此围绕着这门特定学科的原理，各学科发生了固定的极化” 。由此可知，横学科相较于多学科突破了单一学科的研究，但只产生单向影响，且影响的幅度较小，并未在学科间实现双向融合。

在明确“跨学科”与上述概念的区别后，还需强调的是，由于中英翻译的差异，“interdisciplinary”在国内也有被翻译为“交叉学科”“交叉科学”“学科交叉”等。“交叉学科”是“跨学科”的另一种说法，二者在内涵的丰富性上相同，而“跨学科”的说法更符合国际惯例。钱学森先生指出，“交叉科学是指自然科学和社会科学相互交叉地带生长出来的一系列新生学科” ，可以认为“交叉科学”是“交叉学科”的集合体和统称，因此，学科交叉是一种动态融合过程，而交叉学科则强调融合的结果。

除了前面探讨的IDR概念之外，学界还对IDR进行了多视角的定量研究。李江指出“研究成果的学科属性是最直接、最贴近本质的现状表征” ，因而测度学者发表论著的学科属性成为量化科研人员跨学科性的有效方式。据此，学界多基于论文的学科多样性，分别从论文的作者特征、主体和引文三个方面对IDR展开研究。

（1）作者特征

Pierce 的研究发现，当一个学科的信息出现在另一个学科的文献中时，信息传递的方式有三种：①合作，研究人员与其他学科成员合著发表文献；②借鉴，研究人员借鉴其他学科的理论或方法，将其融入自己的学科文献中；③跨界，研究人员在其他学科发表作品，向其他学科领域输出理论或方法。

在IDR中，研究人员具有跨学科的知识需求，科研合作必然成为IDR的重要途径。合作实现了知识在个体间的多维度整合，有助于完成单一个体难以企及的任务。具体到学术领域，学者间的合作拓宽了学科的研究领域，提高了科研成果的水平，实现了1+1>2。引文分析、网络分析并不能直接反映跨学科合作的结构特征，而学术论文的合著者信息，如作者所属机构、教育背景、地域分布等，却可以对IDR提供指引。Grant等指出，跨机构、地域和国家的合作有助于产出更高水平的跨学科研究成果，基于此，国内外学者开展了一系列合作视角的IDR。张琳等以2014—2016年连续入选ESI社会科学领域33位高被引学者的成果为研究对象，从论文合著作者机构的地址信息探究机构和学者合作的跨学科属性，发现跨学科的机构合作对交叉科学成果的产出具有一定的促进作用。杨良斌采用多学科度、专业度、学科交叉度和合作度四个测度指标，对WoS中生物传感器8个领域的无合作论文、国内合作论文和国际合作论文进行了跨学科性研究，结果发现跨学科指标与不同合作类型关系不大。除机构合作视角的研究外，也有学者从学者研究领域的学科背景进行IDR。Schummer 分析了2002—2003年在纳米期刊上发表的600多篇论文的合著作者信息，通过论文合作者所属机构的学科获取作者的研究领域，并利用可视化方法描述不同研究的合作模式。Abramo等从WoS中选取自然科学领域2004—2008年间意大利学者发表的论文，依据作者的研究领域将所选论文分为三类：第一类是“特定”IDR，即作者分属于不同学科，学科间合作紧密；第二类是“普通”IDR，即作者分属于不同学科，但学科间合作较少；第三类是“非”IDR，即作者属于同一学科。以论文的被引频次和论文所在期刊的影响因子为因变量，结果显示，除地球科学外的其他学科，IDR比非IDR能取得更优的绩效，且“特定”IDR的表现优于“普通”IDR。

科学合作视角有助于了解跨学科的活动模式和运行规律，但由于合作者的学科背景信息获取较为困难，因此基于该视角展开的IDR有待改进，部分研究结果值得商榷，如：Bhat等利用学者在各个期刊上发表论文的熵值量化跨学科程度，学者虽在多个期刊上发文，但对跨学科性较弱的大部分学者来说，这些期刊可能都属于一个学科，若此，则难以区分期刊分布在量方面相似学者的跨学科性；Abramo等选取意大利学者作为研究对象，但意大利科研系统有明确的立法规定，即所有大学教授都必须被划分到唯一的学科领域中，考虑到部分学者会在多个学科耕耘，这种生硬的做法掩盖了学者自身的跨学科性；Schummer 将作者的工作机构作为学者学科划分依据的做法存在的问题是，作者的工作机构比如院系有一定的学科属性，不过，一个院系往往有多个学科，因此，该做法不能如实地反映学者的学科归属；Leahey等按照学者最后学历的学科确定学科归属的做法虽有理据，但也不能充分反映学者的科研实践，同时该做法需要大量的人工编码，作为计量研究来说，限制了样本量。因此，从产出维度测度学者的学科归属，即通过学者论著的学科分类量化其所属学科是作者层面IDR的有效方式。

除了“合作”之外，作者自身的“借鉴”和“跨界”也是IDR的重要研究对象。邱均平和余厚强利用论文专业度指标测度了学者的跨学科性，并从跨学科发文的视角探索了图书情报领域的IDR态势；张云和杨建林利用CNKI中2008—2017年的情报学与计算机科学的期刊论文，通过考察各学科学者对单个学科的发文贡献度，得出情报学对计算机科学贡献度极低，而计算机科学对情报学贡献度较高的结论。这些研究为从作者角度进行IDR提供了有力参考。

（2）论文主体特征

论文主体的学科多样性是衡量跨学科最直接的来源，主要包括论文的文本内容特征和学科信息两类。

基于论文主体的文本内容信息研究跨学科性的主要途径是识别文献主题。主题识别在学术信息挖掘和分析中是一项重要的研究任务，在跨学科领域，主要通过信息计量、文本挖掘或网络挖掘等方法，从论文标题、摘要、关键词和正文等文本出发，主要采用聚类方法识别研究主题。两个学科共现的主题词越多，则这两个学科在研究主题和内容上的交叉度越大，因此，通过对主题词的统计分析，可以揭示不同研究在主题层面之间的关系。魏建香等通过对文献关键词分类和共词聚类，提出了学科交叉文献发现模型和学科交叉知识发掘模型，并从学科研究热点和学科增长点角度为IDR提供新的思路。李长玲等以在情报学与计算机科学交流中起桥梁作用的6本期刊为样本，对样本中的交叉文献利用关键词共词矩阵进行核心-边缘模型分析，找出IDR的重点；同时，分别对两学科的共词网络可视化，从中挖掘两学科的主要交叉研究领域与潜在研究主题。Wang等利用关键词挖掘方法，对5个纳米研究领域1998—2009年间的723 356篇文献的主题词进行共词分析，揭示了5个领域跨学科的聚合趋势。许海云等采用一种新的测度指标TI，挖掘跨学科主题词间的交叉程度，并基于该指标提出TI指标序列，结合社会网络分析和时序分析探析了情报学领域的跨学科态势。

基于论文所属的学科类别信息研究文献集合层次上的跨学科问题是目前最常用的方法之一。邱均平和曹洁以WoS中2000—2012年图书情报领域的12种影响因子较高的核心期刊为代表，通过引文分析研究了图书情报学与其他学科间知识扩散的跨学科特征，发现图情领域与计算机科学、经济贸易、医学信息学、医疗保健和服务领域有着密切联系。王璐等基于学科分类体系构建学科树，并利用论文所属学科分类来量化学科交叉规模和学科交叉难度，提出交叉指数算法和TOP-K学科组合算法，综合两种算法发现国内外热门交叉学科等。虽然利用该方法量化跨学科性简单高效，但目前大部分文献数据库并未对单篇文献进行学科标引，仅少部分论文提供了学科分类，且分类的粒度差异较大，因此学界的常用做法是将文献所在期刊的学科分类等价于文献的学科类别。使用期刊进行IDR的基本前提是期刊有明确的学科分类，不过，学界尚未就诸如WoS等不同来源数据库提供的分类形成共识，如魏建香等指出“中图分类号由编辑人为制定，主观性强，所以采用这种方法识别跨学科文献存在缺陷”。

综上所述，基于文本内容的主题识别为跨学科文献发现提供了更加客观的视角。在跨学科的微观主题研究中，对学科交叉主题提取的信息主要源自标题、关键词、摘要、正文和引文等，其中，关键词是论文研究主题的高度概括和凝练，可以直接准确地揭示论文核心内容，多数研究将其直接用于表征主题。

（3）引文信息

“合作”是跨学科性测度的方式之一，不过，作者在合著过程中是否进行了知识整合，成果是否具备跨学科性，这些在具体实践中仍难以衡量。考虑到“借鉴”和“跨界”也是IDR的重要研究对象，如果将学术论文作为IDR对象，参考文献可以体现各领域对论文的信息与知识输入，且有效避免了基于“合作”的度量方法中存在的问题。Porter等认为“从逻辑上来说，参考文献多样性是知识整合的最好测度，可以很好地测度该领域知识与信息的融合情况”，参考文献的学科分布规律是测度论文跨学科性的最佳依据之一，利用参考文献分析来源文献和被引文献的关系，可以揭示不同学科之间相互影响的程度和交叉渗透的模式。

对单篇论文而言，参考文献的学科属性及组合状态可反映论文吸收整合其他学科知识的程度，即知识输入的跨学科性；施引文献的学科属性可以体现知识贡献方的学科跨度，即知识输出的跨学科性。目前在基于引文的IDR中，学者常聚焦于单向的知识流动，且多以“引用”为研究切入点。例如，Chakraborty 选取计算机科学的200万篇论文作为研究样本，将论文参考文献多样性指标RDI作为跨学科性测度的指标之一；Larivière和Gingras 获取2000年WoS收录的所有来源文献及其参考文献，并将跨学科程度定义为参考文献中引用其他学科论文的比例；张金柱等以图书情报领域12种期刊为数据源，从论文参考文献学科分类的数量、平均分布程度和学科分类间的差异性三个维度分析了图书情报领域的跨学科性，发现其具备跨学科性较强的特点。柯青和朱婷婷利用《期刊引证报告（社会科学版）》2007—2014年图书情报学科的引文数据，采用直接引用率、布里渊指数和逐年弹性系数三个指标，多角度分析图书情报学科的跨学科引用，把握图书情报学科的主要知识来源。从“引用”的学科多样性角度探索跨学科有明显优点，但有学者认为当面对相近参考文献的学科分布时，仅依靠参考文献多样性有时很难区分更细微的跨学科差异。为此，Rafols和Meyer 引入网络凝聚性概念，虽然该方法在识别IDR中具有一定的优越性，但在大样本环境下工作量较大，因此在具体使用中效用有限。

从“施引”视角，国内外学者也展开少量研究。例如Levitt等以观测学科被其他学科引用百分比量化跨学科性；于洋等以9种情报学核心期刊为研究对象，从被引期刊所属学科分布，确定情报学与图书馆学、科学学和计算机等学科的联系最为紧密。

鉴于“引用”和“施引”对于IDR并无明显优劣之分，有学者将二者结合以探讨跨学科模式和演化规律。Kwon等利用论文的引用和被引信息，将跨学科知识流动分为汇聚型（aggregating）、扩散型（diffusing）和桥接型（bridging）；冯志刚等以图书情报学科为研究对象，从引用与被引计算其跨学科性，研究发现图书情报学知识输入与输出表现为社会科学与自然科学并重；吕冬晴等收集CSSCI中1999—2009年间23个学科的所有来源文献，采用RDI、SCI和CDI（施引文献跨学科性）三个指标分别测度观测学科的知识输入、知识内化和知识输出，并通过聚类分析发现我国人文社会科学学科总体上表现为“内聚型”“收敛型”“平衡型”和“开放型”四类跨学科模式。总之，“引用”和“施引”丰富了跨学科知识流动的测度视角，二者的结合是IDR切实可行的方法。

随着IDR向纵深的不断推进，IDR与学术影响力的关系研究成为新的研究热点：IDR更容易获得高学术影响力吗？为回答此问题，学界展开了一系列研究。然而，有学者指出，诸如同行评议等传统评价方法并不完全适用于跨学科，其评价结果很难准确和全面，故引文分析成为现行IDR的主流方法，并获得了一些探索性成果。

①正相关关系

多数研究显示IDR与被引之间呈正相关关系，比如，Levitt和Thelwall 从WoS中选取2007年以前信息科学与图书馆学（IS & LS）学科的82篇高被引论文（被引的前0.1%）作为研究对象，根据JCR的期刊分类将其分为跨学科论文（78篇）和IS & LS单一学科论文（4篇），将二者除以各自的论文总数，再乘以100 000之后，分别得到185.1和9.9，结果表明仅属于IS& LS学科的高被引论文占比远小于跨学科论文，即IDR比单一学科研究更有可能获得高被引。Kwon等从“引用”和“被引”双重角度，将跨学科知识流动分为汇聚型、扩散型桥接型，选取了认知科学、教育学和边缘领域（border field）的177种期刊共计32 121篇论文为研究数据集，将其分为单一学科、汇聚型等三类跨学科论文，结果显示汇聚型论文的被引频次显著高于非跨学科论文。Leahey等选取IUCRCs中心发表过论文并具有博士学位的854位科学家为研究对象，采用Porter提出的整合度指标计算单篇论文的跨学科性，回归分析结果证实了IDR与论文可见性（即被引）之间显著的正相关关系，回归系数达0.341，即IDR能获得更高的引用。Bhat等下载了WoS中2005—2010年间影响因子排名前250的247本自然科学期刊和248本社会科学的论文（D1）；提取论文中的所有作者，分别遍历每位作者2000至2006年间发表的论文（D2），根据数据集D2中论文发表的期刊分布计算香农熵，以作为作者跨学科性的间接测度；定义作者香农熵的均值为数据集D1中每篇论文的跨学科程度，并采用Jensen-Shannon散度测算多作者论文的期刊分布广度；据此探讨跨学科性与论文被引间的关系，实证结果展示了二者间的正相关关系。Chen等选用2000年WoS中的来源文献，采用基于秩的Simpson期望值（Simpson Expected Value，SEV）测度每篇论文的跨学科性，因变量为引文百分比；研究发现，在学科层面上，除了地球和空间科学外的其他学科高被引论文（引用排名前1%），其跨学科性领先于其他论文，在专业层面上，超过90%的专业也存在上述关系，这表明IDR在产生高影响成果方面起着更重要的作用。邵瑞华等以SSCI中图书情报领域37年中的85种期刊为研究对象，通过布里渊指数、学科种数测度论文跨学科性，采用了论文被引频次和学科规范化的引文影响力CNCI两种学术影响力指标，相关分析结果显示，总体上图书情报学的跨学科性程度越高，越有利于文献学术影响力的提高。

②不相关与负相关关系

Rinia等选取了1985—1994年间发表的185个科研项目的15 000多篇论文（其中大部分来自物理学）作为研究对象。该研究以物理学作为主学科，将物理学之外的论文百分比定义为跨学科程度，将其与期刊平均被引、领域平均被引和论文的引用率相结合后分析发现：期刊平均被引与跨学科程度间的关系不显著，领域平均被引与跨学科程度间呈弱相关关系。Ponomarev等将跨学科性用于突破性论文的预测，研究选取WoS化学学科（包括诺贝尔奖得主）的51篇高被引论文（被引的前0.1%）作为候选论文，利用丰富度、香农熵、Simpon指数和Rao-String-Porter指数等多样性指标测度论文的跨学科性，研究未发现跨学科性与被引间的显性相关关系。Wang等对香农熵、Simpon指数、Rao-Stirling及1-Gini等7个跨学科指标进行了因子分析，得到的三个因子分别是丰富度（variety）、平衡度（balance）及差异性（disparity），测试数据集选择了2001年WoS中的所有期刊论文，基于泊松模型的回归分析显示：长期被引量（13年）与平衡度为负线性相关；短期被引量（3年）与丰富度及差异性为负相关关系。Levitt和Thelwall 选取WoS和Scopus中不同学科的期刊，将发表在隶属于多学科期刊上的论文定义为跨学科论文，结果发现，社会科学的跨学科论文与单一学科论文的被引频次没有显著差异；生物医学和物理学领域源于Scopus的数据却显示，单一学科论文的被引频次约为跨学科论文的两倍，即跨学科与被引呈负相关关系。李东等以200位国家自然科学基金杰出青年项目入选者发表在WoS中的论文为例，将不同学科作者的合著关系视为跨学科合作，将不同学科的引用关系视为跨学科引用，利用布里渊指数测度跨学科性，并采用H指数、H5指数测度科学家学术影响力，通过相关分析发现：200个学者所在的8个学部中，仅生物学部的跨学科合作与学术影响力存在相关关系；仅生物学部和医学部在不同分类体系中的跨学科引用与学术影响力具有相关关系，其余学科均未发现相关性。

③倒U形关系

Chakraborty 选取计算机科学的200万篇论文，利用论文参考文献多样性指标（RDI）和关键词多样性指标（KDI）计算每个领域的跨学科性，分析了跨学科性与单篇论文5年被引频次、期刊影响因子和被引前5%论文的领域分布；研究发现，跨学科性中等的论文可以吸引更多的引用，处于跨学科性两端的论文被引较低，两者间的曲线呈明确的倒U形。Larivière和Gingras 、Enduri等以及Yegros-Yegros等的研究也发现了类似的现象，如Larivière等选取2000年WoS的所有论文，将跨学科程度定义为参考文献中引用其他学科论文的比例，结果也发现了跨学科性与被引间的倒U形关系，不过，学科对该关系存在调节效应。Enduri 等选取了1985年至2012年间美国物理学会（APS）发表的论文，利用Weitzman多样性指标测度论文和作者的多样性，结果发现论文的多样性指数与被引之间存在相关关系，且多样性适中论文的被引频次更高。

通过文献梳理可以发现，总的来看IDR与被引的关系并未取得一致的结论，究其原因可能为：

第一，在指标选择上，研究采用了不同的跨学科测度指标，从学科多样性角度来看，大部分研究的跨学科性指标只涉及学科多样性的一到两个维度，而学科多样性的不同维度对被引的影响程度存在显著差异；

第二，在分析单元选择上，多数研究从论文引用和被引的角度衡量跨学科性，如多样性指标、香农熵等，少量研究从作者视角判别跨学科性，论文主题视角的IDR甚少；

第三，在研究领域选择上，大多数研究以自然科学为研究对象，少量研究涉及社会科学，尚未发现人文科学的IDR，而人文社会科学随着学科知识体系的不断发展，研究领域也逐渐向交叉性、综合性的方向发展，因此对人文社会科学的跨学科性研究有其必要性；

第四，文献被引受诸多因素的影响，Tahamtan等众多被引影响因素的研究已经阐明，论著质量是被引的内在因素，其他诸如作者特征、参考文献特征等对被引也存在显著影响，而现有的大多数研究常忽略这些要素或只考虑部分要素的影响。

2.1.1.5 学科领域

不同学科领域论文的被引概率不同，相应的高被引论文的被引频次也不同。Bornmann等研究表明，研究主题或领域宽广的论文能获得更高的被引频次，比如，化学学科中的分析化学、有机化学和物理化学论文的篇均被引频次高于生物化学（biochemistry）。Skilton 对1999—2004年间WoS中的126本特刊进行了分析，发现社会科学特刊论文的被引频次明显高于自然科学。此外，热门学科或领域研究论文的被引频次也更高，不过，论文中包含的主题数与被引频次的相关关系并不显著。

2.1.1.6 文献类型

期刊上发表的论文类型主要有综述、实证研究、书信、短评等，不同类型期刊论文的被引频次存在差异。研究发现，综述类论文的被引频次高于研究型论文，不过，该结论在质量较差或者匆忙完成的综述中未能复现。

2.1.2 作者相关因素

2.1.2.1 作者数量与合作

作者数量能够在一定程度上表征学术合作的程度，研究发现高被引论文比普通论文的学术合作更密切。Adusumilli等提出了作者密度（authors' diversity）指标，认为除了作者数量以外，作者来自不同学科即各有所长的作者会影响被引频次，结果显示，作者密度越大，被引频次越高，反之亦然；该研究还发现，某些学科的论文在出现特定学科知识背景的作者时会更受施引者的欢迎，比如，当普通外科期刊上的论文中出现基础医学的作者时论文的被引频次会增加。

科研合作是一项研究人员以产生新科学知识为共同目标而协同工作的活动。目前，学界普遍认为科研合作与论文被引频次之间存在显著的正相关关系、，Tahamtan等对探讨二者间关系的实证研究进行的定性总结也得出了类似的结论，显示了科研合作对提高学术成果影响力的重要价值。该研究结论对研究活动的各个环节都产生了深远影响，比如：科研管理部门出台了促进科研合作的相关政策以提高成本效率和责任分配；研究人员之间自发加强合作以期提高研究质量；资助者也将研究人员之间的合作活动作为获得资助的条件之一；其直接结果是科研合作逐渐成为研究活动的常态。例如，多项研究发现合著论文数量迅速增加 ^[5] 、，且论文的合著规模也呈上升趋势、。Bosquet和Combes 发现多作者合作的论文更容易出现在学术会议、研讨会等学术网中，而知识信息在学术网中分布得越广泛，收获的关注越多，最终获得的被引也越多；合作者多，论文会更易于被其合作者网络中的其他合作者引用，学术研究团体规模也存在类似效应。

目前，学界虽已就科研合作与论文被引间的相关关系取得了系列成果，但现有研究显示二者间关系并不一致，表现为关系强度仍不明确，这使得学界缺少关于二者间关系确切且普遍的定量证据；此外，部分研究还发现二者间的相关关系不显著、、，甚至得到了负相关关系的结果、、 ^[6] 。鉴于学界对科学合作和被引频次关系的广泛关注，进一步探明科研合作在提升学术影响力方面的积极作用，将有助于研究人员有意识、深层次地开展合作以提高研究质量，进而加大成果的影响力，也可供科研管理者、资助者和期刊在机制设计时全面参考。此外，论文被引具有明显的时滞，通过探讨二者关系的强度及一致性，还能够进一步揭示科研合作在论文被引早期预测中的价值。

2.1.2.2 作者声望

作者声望可以通过多项指标进行量化，比如职称、 h 指数等。有学者对不同职称作者的论文被引进行了比较研究，发现被引频次的排序为：主席、正教授、副教授、助理教授、讲师 ^[42] 。也可以通过作者先前论文的被引进行衡量，比如：曾经发表过高被引论文的作者其后发表论文被引用的概率也更大 ^[7] ；论文的第一作者或通讯作者之前发表的论文曾经被引，则被引用的概率要高于尚无被引者。Hurley等将 h 指数用于量化作者声望，通过PubMed数据库中98 000篇论文的数据分析发现，作者的 h 指数越大，被引频次越高，如果论文中有多位作者，则呈现出木桶效应，即论文被引受作者中 h 指数最小者的影响最大。不过，Wang 基于马太效应（Matthew Effect）提出了作者声望与被引频次正相关的假设，实证结果却显示二者的关系不显著。

2.1.2.3 作者生产力

作者生产力（author's productivity）是指作者的科研产出能力，常用作者之前发表的论文篇数进行衡量。有些学者认为，发表论文较多的作者，其个人学术网络更为强大，该网络中的成员节点引用其论文的概率会增大，进而可以提升其论文的被引频次。 Bornmann和Daniel 指出，围绕同一研究项目发表的论文越多，则该项目在其学术领域内的影响会越大，结果显示其总被引频次与发表的论文数量呈线性相关。不过，Jabbour等的研究表达了不同的观点。

2.1.2.4 作者文化资本

文化资本的概念最早是作为一种理论假定出现的，该假定通过联系学术上的成功来解释不同社会阶层的孩子取得不同学术成就的原因。传统观点通常认为学术上的成功或失败是理解力、记忆力等自然能力的结果，却没有关注到教育投资在文化资本形成中的决定性影响。越来越多的学者关注到了文化资本独立于教育之外的作用，认为文化资本不能简化为教育水平、。

父母的教育水平通过代际传递，可以影响子女的教育成就，这种传递既可以理解为文化资本再生产的过程，也离不开亲子沟通和家庭沟通的具体作用。Lundywagner等利用从十所高校收集的学生数据和学生就读中学的相关数据，分析了学生所读中学的社会经济层次与其能否进入本科教育的关系，研究发现，前期教育水平较低会阻碍学生本科学位的获取。一项关于韩国学生的研究表明，该国学生去美国高校攻读学位的目的是追逐文化资本以实现社会阶层的流动；古继保等通过探讨优秀博士论文作者与其本科毕业院校的关系，强调了本科阶段的教育对科研人员学术成功的作用。上述研究揭示了文化资本的核心要素，即教育在学术成就中的作用。

研究发现文化资本不局限于上层社会阶层，也不仅仅包含教育水平。英语能力也被认为是文化资本最重要的表现形式之一，Pherali 通过文化资本理论解释了科研人员从非英语国家向英语国家的流动，分析了科研人员国际流动过程中的优势和挑战。Cotterall 基于活动理论，通过访谈，证实了博士生所在的管理团队、他们的文化资本和学术写作是影响其学术生涯发展的关键因素；其中，博士生在进入博士阶段之前积累的文化资本表现在前期学术论文发表、科研项目参与、期刊审稿经历、与其他学者的社交关系、共同指导低年级研究生的经历等方面。有学者提出，在高层次机构学习的博士生科研成果产出更高，其原因可能是：一方面，高层次机构能够吸引水平较高的博士生，另一方面，高层次机构能提供更多的人力、社交和文化资本，使得他们具备成为优秀科研人员的条件。 Valle和Schultz 也认为，高层次机构中的科研人员在积累社交、人力、文化资本上具有优势，因此他们能产出高水平的学术成果。

综上所述，教育背景是文化资本的核心之一，通过教育可以形成个人的知识、技能、思维等方面的优势，这些优势又可促进学术成就，形成可再次获得优势和收益的能力；同时，科研人员的语言能力、前期科研经历、所在机构的等级等也使其形成了文化资本并具有了进行文化再生产的能力，文化资本的持有量越丰富，科研人员赢得学术资格和学术话语权的机会也就越大，就越可能提升其学术地位及影响力。既有研究侧重于初、中等教育文化资本对学生学术成就的影响，并未充分关注高等教育及科学研究过程中文化资本的积累，更少涉及科研人员文化资本对其论文影响力的促进作用。因而本书有必要探讨文化资本能否提升论文影响力，并分析不同形态文化资本的作用。

此外，许多学者也论证了作者所在的单位特征、作者自引情况、国家、性别、年龄等因素对于被引频次的影响，并进行了大量的实证研究。

2.1.3 期刊相关因素

涉及期刊的被引影响因素研究中，讨论最多的是期刊影响因子。影响因子是引文的结果，也可以是引文的原因。在较长的一段时间内，影响因子常被当作论文质量的一个重要衡量指标。换言之，一篇论文的学术质量决定了其能否在优秀的期刊中发表，进而决定了其能否进入更多学者的视野，从而影响其被引频次；一本优秀期刊中排名靠后的论文，也常比一本普通期刊的被引频次高。Vanclay 曾在论文中指出， Nature 杂志上的论文平均每年被引14次，该值在全球所有论文中处于前3%。Bornmann和Williams 对WoS中的2 200万篇文献进行了统计分析，其中高被引论文中有70%来自影响因子高的期刊，仅有9%的高被引论文其期刊影响因子较低，研究还发现学科领域对被引频次的影响要大于期刊影响因子。目前，大部分的研究支持期刊影响因子与被引频次的正相关结论，不过，Roldán-Valadez和Rios 在探究期刊影响因子数学本质的基础上，以胃和肝脏领域的医学论文作为数据集，最终得出了影响因子与论文最终的总被引频次并没有什么关系的结论。

此外，期刊的语言、覆盖范围、出版形式、期刊编委会与被引频次之间也都存在着一定的相关关系。

[1] KOSTOFF R N.The difference between highly and poorly cited medical articles in the journal Lancet [J].Scientometrics, 2007, 72(3): 513-520.

[2] FOLEY J A, DELLA S S.Do shorter Cortex papers have greater impact? [J].Cortex, 2011, 47(6): 635-642.

[3] KOSTOFF R N.The difference between highly and poorly cited medical articles in the journal Lancet [J].Scientometrics, 2007, 72(3): 513-520.

[4] O' LEARY D E.The relationship between citations and number of downloads in Decision Support Systems [J].Decision support systems, 2008, 45(4): 972-980.

[5] AGUILAR I N, GANESH V, MANNFELD R, et al.Authorship trends over the past 30-years in the Annals ofBiomedical Engineering [J].Annals of biomedical engineering, 2019, 47(5): 1171-1180.

[6] FU H Z, FANG K, FANG C L.Characteristics of scientific impact of Resources Conservationand Recycling in the past 30 years[J].Resources conservation and recycling, 2018, 137: 251-259.

[7] BORNMANN L, DANIEL H D.Citation speed as a measure to predict the attention an article receives: an investigation of the validity of editorial decisions at Angewandte Chemie International Edition [J].Journal of informetrics, 2010, 4(1): 83-88.