购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第二章
追踪了解引用情况

以质量为导向的工作,着眼于取得良好的具体成果,却不一定能协调或保护组织团体的利益。

——理查德·森内特(Richard Sennett)

提高自我意识在生活的任何领域都不容易。世界对我们的评价和我们对自身的评价完全不同。了解别人眼中的我们往往是痛苦的——就像我们总会猝不及防地在镜子里瞥见糟糕的一幕。在我们的职业生涯中,厌恶情绪会加剧,这完全可以理解,因为学术写作以一种具体的形式展现了数月或数年的研究成果,文章出版的背后是充足的准备和精心的编辑。因此,我们无法轻易否定它们在别人面前的表现。许多学者往往想要提前屏蔽负面信息,而不是试图从中汲取教训,这和他们面对学生的教学反馈时的做法一样。正如森内特上面所说,适用于我们个人的这一道理也适用于组织机构。

对于业内研究新人来说,引用数增长的长期滞后性让他们在最需要鼓励的时候幻想彻底破灭。之后的职业生涯中,他们会清醒地认识到,自身的工作对整个学科的影响是如此之小。最后,在评估学术影响力时,不同的引用和替代计量指标体系的差异很大,因此人们更关注那些对他们的工作最有利的指标,并指责那些看起来最悲观的指标;又或是对整个“指标”体系不屑一顾,认为它们是混乱、不合理或令人反感的。当然,这些利己的动机与对肤浅的“学术自恋”的蔑视,以及对自我监督的更实质性、原则性的反对交织在一起,会让人认为自我监督是在潜在地歪曲事实。对学术影响力的思考也可能与对大学中“新自由主义”趋势的担忧有关,学者因此受到越来越多的外部监督,但实际上,这些联系大部分仅仅浮于表面(见后记)。

然而,如果不收集学术进展中的高质量的、前沿的信息,并尽量客观地看待它,任何行业都很难得到提高。了解我们现有的研究成果中哪些起作用、哪些不起作用,是采取行动计划的第一步。大多数研究员只需简单读几篇文章,就能理解为什么不同的体系在评价作品的学术影响力时见解各不相同。

首先,我们会了解一些在衡量学术影响力方面经验丰富,但尚不完备的专有系统。这些系统在一些STEMM学科领域表现得很好,在其他领域却不尽如人意。基于网络的引用系统,特别是将在第二节介绍的谷歌学术搜索(Google Scholar, GS)这一实力雄厚的学术搜索引擎,采取了一种更完备、更具包容性的方法。接下来,我们将探讨能替代GS的一系列现代引文追踪系统。本章第四节介绍了替代计量指标,重点是计量引用数以外的内容,比如阅读情况或文本的下载量。最后,我们会研究所有极大地扩展引用范围和种类的新型数字研究工具对学术引用行为产生的广泛影响。

“传统”引文追踪系统

专有数据库的最大优势是能快速收录核心期刊的新文献,这是STEMM学科一个特别重要的特点。然而,它们“传统”的设计往往早于数字时代,用起来“笨手笨脚”,麻烦复杂且互不相通……这些系统往往强调了一种观念,即文献综述是研究的一个孤立阶段。

——帕特里克·邓利维

追踪引文的系统性方法是利用文献计量系统(有时也被称为网络计量学、赛博计量学或信息计量学),它们构成了科学计量学广大领域的一部分。世界上第一个被启用,同时也是当前最著名的引文追踪系统,最初由尤金·加菲尔德(Eugene Garfield)的科学信息研究所(Institute for Scientific Information, ISI)管理,后来被大型跨国公司汤森路透(Thomson Reuters)收购,随后被抛售给了一家对冲基金管理公司。虽然现在仍有一些年长的学者用这一系统早期的名字ISI、知识网(Web of Knowledge, WoK)等,但现在它的名字改为了WoS。该系统的文献汇编仍然基于人工输入和较专业化的学科数据库反馈。一般来说,WoS只关注期刊论文,收录期刊时也非常保守(以美国或英国为中心)。但近年来,WoS扩大了期刊的覆盖面。2012年起,它还记录了一些著作的引用数(但不太清楚使用标准在经验上是否具有显著性)。与WoS类似的“传统”引文追踪系统大多是Scopus数据库(2004年推出)的更新版,但也都大同小异。Scopus引文数据库由爱思唯尔(Elsevier)拥有和运行。爱思唯尔本身是一家大型全球期刊出版商,因此这里存在着潜在的利益冲突。但是,Scopus坚称其引用政策是独立的,不给爱思唯尔旗下的期刊任何优先权。

自这些付费系统上线以来,访问这些系统变得更加容易,但整体而言仍旧非常笨拙,操作异常麻烦,明显与现代社交媒体脱节,只有许多博士生、博士后和学者等还可以通过大学图书馆从任一设备访问某一个系统(几乎没有图书馆会同时购买WoS和Scopus,因为服务费十分昂贵)。

大型数据库公司表示,系统能提供准确的引用计数(没有重复或虚假引用),因为它们是由人工编辑的——这是制作成本高昂的原因之一,也是导致它们服务成本高昂的原因之一。最重要的是,公司的生产商强调WoS和Scopus门户网站的态度颇为小心谨慎,只会收录经过学术验证的期刊,剔除那些不相关、不正式或不标准的引文来源。同时,两家公司都可以提供索引的期刊和数据的所有来源。这两个数据库公司为保护其造价高昂的专有运作模式,会以限制性的方式运行其系统,这其中也存在着巨额的既得利益。

大学领导层和政府研究委员会可能钟爱这些稳固可靠的IBM时代的技术,认为费用高代表着品质高。此外,一个由文献计量学学者和顾问组成的小型社区已经发展起来,以研究如何科学地引用文献,特别是在物理和STEMM学科领域。从WoS和Scopus中提取出有意义的数据需要时间和大量专业知识,因此他们在学习如何使用大型专有系统方面投入了大量“沉没”智识资本。而大部分大学和图书馆管理者已经习惯关注“最佳”期刊,这在多年来阻碍了基于互联网的新兴引文追踪系统发展和被认可。

在核心的STEMM学科之外,剔除著作(WoS在2012年之前一直如此,Scopus只是部分地避免了这一点)是专有系统面临的一个关键问题。它系统性地低估了引用数在某些学科的重要性,而对于这些学科,著作仍然是交流研究成果的核心方式——主要是在人文学科和大约一半的社会科学(如社会学和社会政策学)中。在英国2008年的科研水平评估(Research Assessment Exercise, RAE)中,人文社科学者提交的所有报告中,约有31%是著作(专著、编著和著作章节),而STEMM学科的学者提交的著作仅占1%。到2014年[部分原因是卓越科研评估框架(Research Excellence Framework, REF)的“分级”实施],著作占比远低于之前:社会科学为17%,人文学科为22%。

此外,一些系统(特别是WoS)最初是在美国发展起来的,并持续关注来自美国的和英文类出版物。美国是一个庞大而富裕的社会,国内大部分STEMM学科和社会科学领域的学者比欧洲国家或世界其他地区的要多得多,传统系统提供的排名和统计数据往往在很大程度上偏重于在美国“市场”的成功。英国学者从中得到的好处也较少。Scopus偏向收录欧洲国家的引文数据,对其他非发达工业经济体的覆盖则更不全面。一般来说,用英文发表文章的作者会有最全面的引文信息;同时以英语等语言发表文章的作者,非英语版本文章的被引量可能会明显减少;而完全用非英语发表文章的作者是最不具代表性的。

为了专注于严肃的学术工作,防止亚洲等地目前数百种几近虚假的期刊中的引文抬高引用计数,严格挑选系统的覆盖范围是合情合理的。因此,WoS和Scopus主要关注历史悠久的期刊,即那些在数据库中已经被许多其他期刊引用的期刊。一家新创立的期刊要经营多年才能开始被索引,所以它们更青睐核心学科领域,收录新兴、前沿的研究领域成果则需要更长的时间。传统文献计量系统目前仍将工作文件或会议论文排除在索引列之外。这一情况对某些学科的影响很大。例如,在计算机科学领域内,超过40%的高被引出版物(主要是期刊论文)的引用来自会议论文。因此总的来说,这些系统并没有很好地反映出学术研究的最新进展,而是反映了学科三四年前的成果。基于以上这些因素,WoS和Scopus在全球学术期刊总量中的覆盖比例仍然很小(在学术出版物总量中更小)。

传统系统最根本的问题是,它们在许多学科中收录的积极引用数(即学者引用的有效文献)太少。回顾WoS和Scopus扩大覆盖范围之前的时期,表2.1分析了2006年WoK(当时这么称)系统的“内部覆盖”结构——对于每个学科,系统中涵盖了多大比例的被引用文献。在分子生物学和生物化学领域,WoK收录了90%的被引文献。在大多数STEMM学科中(最左边的一列),4/5以上的参考文献都被收录在了WoK内(当时的情况是这样)。还有资料显示,Scopus数据库中类似学科的内部覆盖率为80%。然而,表2.1显示,即使在应用性更强的STEMM学科中,这一比例也降至2/3或3/5,在数学和工程学中处于2/5~3/5,在信息技术和计算机科学中则为38%。

表2.1 2006年ISI的引文索引
(即现在的WoS)数据库中包含相关学科群参考文献的情况

人文和创造性艺术领域的情况则不同。如表2.1所示,WoK只收录了1/10~1/4的被引文献,所以3/4~9/10的引文都不包括在数据库内。这里的部分原因可能是作者引用了非学术成果,如文学研究中的“伟大作品”、历史研究中的档案材料、法律法规或文化分析研究中的电视节目/电影。但是,传统数据库收录的人文学科类成果,如著作、著作中的章节、未编入索引的期刊论文和灰色文献,仍少之又少。

社会科学则处于自然科学和人文科学这两极之间。如表2.1所示,该学科在WoK内部覆盖率普遍低于50%——如经济学的内部覆盖率为43%,所有其他社会科学的这一比例在24%~36%(不包括接近医学领域的社会科学,其被引量一般较高)。在这一学科领域,许多学术成果显然也没有包括在内。

大多数文献计量学专家承认,如果文献计量系统所包含的引文来源少于一个学科中使用和参考引文来源的2/3~3/4,那么该系统的有效性就会急剧下降。他们通常认为,内部覆盖率达到80%,即表2.1中的“高”水平,才能有效地评价学术表现。水平越低,问题就越严重。鉴于此,2006年人文社科数据库中所有这些引文计数都不可靠。

还有一个衡量数据库包容性的指标,那就是基于国家政府对学术研究的官方审查情况,看看提交给他们的研究“成果”在多大程度上同时被纳入了传统数据库。2001年英国政府的RAE数据库涵盖了1996~2000年的出版物。WoS(早期的版本)收录了STEM科学中提交项目5/6的文献,但只收录了1/4的社会科学项目(见图2.1)(很遗憾,我们不知道人文学科的数据,但肯定更低)。因此,尽管传统数据库从1996年到2006年扩大了非STEM学科期刊的内部覆盖范围,但其中社会科学和人文学科引用数据的质量仍然非常低。我们尚不知它们在收录著作方面做出了多大的成就,但无论如何,积累引用仍需要时间。

同时,学者和研究员应始终小心谨慎地处理来自WoS和Scopus的引用信息。这些信息展示物理学某些学科时兼收并蓄,描述其他STEMM学科时中规中矩,刻画工程和社会科学时不太全面,探讨人文学科时则毫无用处。它们在评估以高声望期刊论文(尤其是美国期刊)为主要学术成果的学科的学术影响时,表现得更好。鉴于美国(部分原因是其庞大的规模)在几乎所有科学、技术和社会科学学科中仍是佼佼者,所以探讨这一点仍然意义重大。

图2.1 2001年提交给英国RAE的项目在WoK(当时被称为ISI)中的比例

期刊影响因子

如果科学工作者没有意识到期刊影响因子本质上是不科学的,那么应该扪心自问自己选择的职业方向是否正确。

——比约恩·布雷姆斯(Bjorn Brembs)

如果你在广告或电子邮件中大肆宣扬自己期刊论文的影响因子,那么在统计学意义上你就是一个“文盲”。如果你还将此影响系数保留到小数点后三位,那你就彻底完了。

——斯蒂芬·柯里(Stephen Curry)

专有数据库时代最具破坏性的遗留问题之一是一个被称为期刊影响因子(the Journal Impact Factor, JIF)的指标,正如上文布雷姆斯和柯里所说的那样,该指标近年来饱受诟病。这个分数代表期刊J某年之前两年在该期刊上发表的文章被引用的次数,除以之前两年在该期刊上发表文章的总数。例如,JIF为22.3,表明在记录期内(t减1年和t减2年),期刊J中在t年的论文平均被WoS中的其他22.3篇论文引用。因此,JIF是一个特定的平均数,即算术平均数,表示t年J期刊上所有文章的引用情况。

JIF是一个糟糕的指标,因为无论何时,大部分期刊都会收录一些在记录期吸引了诸多引用的“大热门”论文,同时期刊还收录了许多被引量非常少的论文——一些社会科学和人文学科中的文章可能根本没有被引量。所以,一方面JIF分数完全可行,但另一方面,J期刊上很可能没有一篇文章的引用数和它的JIF分数一样。对几乎所有的文章而言,该指标都具有误导性。它完全低估了最成功的论文获得的被引量,而夸大了一大堆失败论文的被引量。两年的记录期也只适用于快速发展的STEMM学科,社会科学和人文学科的记录期则需要放宽至五年。

尽管JIF分值的缺点不少,但从20世纪70年代起到现在,它仍是唯一可用的指标,并被视为衡量期刊质量的决定性指标。“顶级”期刊的出版商和编辑用自己的JIF分值打广告,吸引新的作者,并利用这些分数(连同他们的拒稿率)声称自己拥有最优秀的学术成果。这种用法还是有那么一点儿合理性的,毕竟JIF平均分是衡量期刊综合成就的指标(尽管不可靠)。但奇怪的是,复杂的排名和排行榜是建立在这种不稳定且具有误导性的衡量标准之上的,STEMM学科的研究员曾在一段时间内还特别重视这些标准。

但真正灾难性的发展趋势是,人们将整份期刊的JIF分数解读为在某种程度上代表着该期刊上所有文章的质量。这种盲目崇拜(官僚主义的压力使人们认为无用的数字比没有数字更好)始于美国的STEMM学科,因此到了20世纪80年代,在美国和欧洲,在“高影响力”期刊上发表文章对获得终身任职变得至关重要。对JIF分数的崇拜随后蔓延到其他大学和学科。21世纪初,英国和澳大利亚政府对学术成果进行审核时,将JIF影响下的“顶级”期刊纳入准官方指标,用以衡量学术作品的假定质量。负责研究评估考核(Research Assessment Exercise, RAE)项目的英国机构[当时被称为英国高等教育资助委员会(the Higher Ed-ucation Funding Council for England, HEFCE)]一直声称,每一部作品都是基于自身特点由至少一位来自众多专家小组之一的读者进行阅读和评估的,但每次审核时要考虑20多万个“成果产出”似乎不太可能。在2010年的“澳大利亚卓越研究”(Excellence in Research in Australia, ERA)考核中,这种做法糟糕到了极点:基于JIF分数的期刊被公开用于判定单篇文章和具体作者的“质量”分数。

从2011年开始,JIF明显的缺陷引来学术界如潮般的批评之声,ERA和REF审查都开始禁止通过明确使用JIF分值或期刊的“质量”排名来评估文章价值。然而,人们仍然怀疑由于这些审核过程涉及的范围非常之广,审核员不得不在短时间内(且不一定是在其专业领域)“盯着”大量项目,私下可能仍会使用期刊的JIF作为短期指标。时至今日,许多顶尖大学的晋升选拔委员会仍经常根据文章是否曾在受JIF影响的“顶级”期刊上发表来判断文章的质量。

制定一个能全面衡量期刊论文被引情况的指标仍具有潜在的价值,这也是决定向哪里提交学术成果时必须要考虑的一件事。2016年,爱思唯尔推出了JIF的“竞争对手”,名为“引用评分”(CiteScore),也是基于Scopus数据库的平均分。但在现代数据条件下,JIF分值的显著缺陷和引用评分的一些小问题(见下一节)可以通过谷歌学术指标(Google Scholar Metrics, GSM)轻松避免。谷歌学术(GS)使用的不是复杂多变且毫无意义的方法,而是更为强大的期刊h分值和引用中位数。要使期刊的排名更稳健可靠,我们需要在这三个指标间进行比较,取其平均值。

GS追踪系统

教育中有用的技术……又快又便宜,而且不受控制……

快速——易于学习且能快速上手的技术……

便宜——工具通常是免费的或至少有免费模式——不需要从预算负责人那里获得使用授权……

不受控制——这些技术在正式的制度性控制结构之外……

(这些特征)往往会鼓励实验和创新。

——布利恩·兰姆(Brian Lamb),由马丁·韦勒(Martin Weller)总结

谷歌一直以来是开发免费文章查找、图书搜索和引文追踪系统的主要力量,雄心勃勃地宣称自己的使命是“组织全世界的信息”。成立不到10年,谷歌就开发了两大学术搜索工具:搜索期刊论文、著作和灰色文献的GS(于2004年推出),以及持有图书文本的“谷歌图书”(Google Book)网站。现在这两大平台在大学的研究中占据主导地位,上文兰姆和韦勒所说的很好地总结了其中的原因。

学术机构已经向谷歌开放了自己的网站和数据库,谷歌无须通过研究员或大学,便能自动收集和索引大多数新发表的学术著作和工作文件。这里使用的精确算法仍属于商业机密,但GS的自动搜索系统似乎贪婪地记录了所有被引用的学术成果。其中包括:

●通过某种形式的同行评议得到认证、经过精心编辑,并已经正式发表的传统研究成果,如期刊和学术著作。

●“灰色文献”——如预印本、工作文件、会议文件、研讨会记录或政策简报——发布的方式可能不太正式,但发布方是大学、专业性学术团体或某种学术出版机构。当然,其中许多文献(也许大多数)随后将正式出版,但现阶段可能没有(完全)通过同行评议。

●GS中一部分与教学有关的项目。

因此,和传统系统相比,GS展现的学术辩论状况更具时代特征。在信息技术或计算机科学等领域尤其如此,这些领域变化迅速,大多数出版物都是数字出版。如果文章的内容是开放获取的,不在已出版图书或期刊的付费专栏,GS还会向用户提供全文链接。根据哈布萨(Madian Khabsa)和贾尔斯(C.Lee Giles)的估计,就范围而言,GS索引了约一亿份文档,占网络上所有英语学术文档的近87%。英国的一项综合研究证实,GS检索出的引文比传统数据库要多得多——在七个以书籍为基础出版形式的学科中,它是Scopus的三倍。其规模庞大,是追踪WoS或其他传统系统的学术影响力的一个重要替代方案。

GS作为传统文献计量数据库的直接竞争对手,也受到了一些批评。早期的质疑者指出,该学术搜索引擎在搜索个别项目时出现了小故障和异常状况。一些文献计量学学者对GS可能导致的学术造假表达出担忧。长期以来,许多图书管理员以这些早期的小故障为由忽略GS,继续购买传统数据库。但谷歌已着手解决这些问题,并扩大了覆盖和分析范围。哈金认为,GS现在极不可能出现系统性错误,尽管在自动解析知识时会出现一定数量的随机错误,但任何搜索系统都会犯这种错误。

批评人士还认为GS有两大问题,尽管谷歌对此已经做出了强有力的回应。首先,与WoS和Scopus不同,谷歌没有完整列出它使用的数据源,也没有详细解释其算法的选择过程,只是概括性地描述了其来源和方法。一些政府审核机构、专业机构和大学管理层将此视为一个主要问题,声称谷歌的做法必须是可信的,其目前的做法在科学上是无法被接受的,因为其仅仅考虑了其商业利益。谷歌回应说,互联网上垃圾信息的问题非常突出且日益严重,因此他们本质上无法公布用于搜索和分类的算法的详细信息(如删除重复条目并计算引用数)。只有对算法保密,才能有效和持续地应对垃圾信息发送者。

其次,批评人士认为,任何像GS这样的自动化系统都会汇集大量不同的(未经评估的)学术资源,其中有些知名度很高,如大型和小型期刊的文章、已出版的学术著作以及基于重要专业会议或主要大学知识库的论文,但除此之外的其他资源的学术地位和出处就很有可能存疑。与WoS或Scopus人为监管下的“围墙中的花园”相比,GS使用未经审核的收录标准使得引文的定义变得非常模糊。此外,GS不容易识别重复的信息,比如期刊网站上有一篇论文,同时该作者的大学网页上还有一个开放获取的版本,这对成果和引用量计算的准确性会产生影响。重复计算对作者的影响也存在分歧:增加了作者的成果产出数量,但减少了每个项目的平均引用数。在系统层面,这些所谓的问题是否会带来不利影响尚不清楚。随着时间的推移,GS技术也在不断地改进,并采取措施鼓励工程师提高软件的精确性。GS对作者、文章和期刊的排名(见下文)与传统数据库的排名密切相关。

谷歌还以第二波创新来回应批评。谷歌学术引用简介(Google Scholar Citation, GSC)(有时也被称为GS简介)会邀请学术人员管理自己的GS出版作品列表,进而建立一个完全开放的、与传统专有数据库对应的数据库。研究员登录谷歌账户,用学术领域内的电子邮件地址(如.edu、.ac.uk或.edu.au)注册作者身份。然后GSC就会创建一个个人主页,并从数据库中提取出定义明确的出版物“文章组”列表,研究员只需勾选自己的文章。GSC在每一次信息输出时都会提供完整的引用数据,可追溯至作者最早发表的作品(在1997年之后效果最好,那时在线存档才真正开始)。点击任何出版物的“引文”编号,将显示所有引用来源的完整列表。作者可能需要“消除”某些选项的歧义,但一旦做好了,就可以创建和维护一个近乎完整的出版物列表,自主选择是否公开。此后,GSC会随着作者的每一次新引用自动更新。

该程序还能生成一些关键的综合统计数据:

●作者个人的h分值,表示“至少有h篇论文的被引次数不少于h次”。因此,如果一个人的h分值是14,那就意味着他发表的14篇文章、著作或论文,每一篇都被单独引用了14次。该指数展示了作者在过去5年中整体的出版情况。

●i10分值,表示一位作者被引用10次及以上的出版物的数量,也展示了过去5年的出版情况。

●列出出版物总数以及过去5年的出版物数量。

研究员还可以列出他们的合著者以展现其学术协作网络。他们可以通过使用自动提醒功能,看到他人最新发布的文章,进而了解该领域的主要同事、竞争对手或其他人的学术动态。有了一个公开的GSC档案,世界各地的任何用户都能可靠地追踪你的最新出版物,查看你的引用数和学术影响。

GSC还允许研究员编辑和更正拼写错误或不准确的条目和引用,删去错误引用,合并重复条目,并确保日期准确(当期刊刚开始数字化原始档案时,往往容易混淆这几点)。作者和GSC用户可按标题的字母顺序或按年份的时间顺序列出引用条目,并选择要显示的条目数。一旦新作品出版,作者可手动将其插入GSC中。他们还可以搜索任何丢失的文章或著作,以便将其囊括其中。然而从本质上看,GSC是一种“做完就忘”的工作。学术界只需关注新条目,同时或许每隔几个月或几年就会清理可能累积的错误——例如,当其他作者错误地引用你的作品时。

GSC中“我的更新”推荐功能可以提醒研究员注意引用他们作品的其他作者(可能研究兴趣相同)。它还能分析你的出版物,以便定期“推送”GS算法计算出的相似或相关的新作品。一个研究员发表的研究成果越多,算法可以利用的信息就越多;而学者的研究领域越受限或越一成不变,他们对分支学科就越没有进行“广泛涉猎”的兴趣,因而这种方法就越有效。GSC不主张学科壁垒,因此对于跨学科研究员来说,特别有价值的一点就是,它可以推荐来自一系列学科来源的成果,而这些信息在一般情况下可能不易被发现。随着越来越多(或现在大多数)学者加入GSC, GS的数据库可能会变得更加精确,这些功能将进一步完善。GSC已经成了描述整个学科特征的最佳社交媒体工具。谷歌最终可能会得到一个完善书目信息的开放系统,由作者自己手动检查。毕竟,还有谁能比他们自己更清楚发表了什么或没有发表什么呢?

GSM是GS的另一个延伸,通过衡量以下两个有用(且易于理解)的指标来提高学术期刊的排名:

●h5指数,表示过去整个5年中每种刊物的h分值,也就是说,“过去5年期刊发表的h篇文章至少获得了h次引用”。因此,如果某期刊的分值是55,这就表示它在过去5年中发表的55篇文章被单独引用了55次或更多;

●h5中值,表示上述h5指数中所包含文章的引用中位数(即将上述h5分值内表现较好的论文按引用数大小顺序排列后所取的引用数中间值)。基于均值的平均值非常不稳定,与其相比,这一指标是稳定可靠的。

点击每种刊物的h5分值,GSM就会给出一整套链接,列出所有高被引文章。GS还能分别显示每篇文章的引用次数:单击此链接,就会显示所有引用来源的链接。然后,我们就能“一字不漏”地快速获取所有引文的信息。

还有一些程序增强了GS的实用性,尤其是免费下载程序“不发表就出局”(Publish or Perish, PoP),设计者是文献计量学家安妮-威尔·哈金。它涵盖了所有的研究员(不仅仅是那些GSC中的研究员)。在PoP上输入任何一位作者的专有称呼,就能得到其学术成果的简介。它还计算了一整套引用统计数据,包括重要的“年龄加权引用分数”。这些因素控制了h分值在其他方面——奉承老牌研究员,低估研究新人——不可避免的偏差。对于模棱两可的名字,我们也能快速手动编辑PoP的列表,以消除“引起混乱”的条目。

最后,在谷歌家族中,还有谷歌图书程序。它试图持有所有已出版书籍的文本(并重新销售其电子版),而不仅仅是学术期刊,但通常只给出书中全文的“片段显示”(或更少)。然而,谷歌图书作为一种搜索、发现和确认工具,对研究员来说仍有很大的价值(见第五章)。

基于网络的引用和全引系统

参考文献应尽可能提供全文。

——“研究型写作”(Writing for Research)博客

学术界一般不喜欢垄断,尤其是寡头垄断。谷歌在大学领域的主导地位受到了即将推出的替代方案的极大挑战,在这些替代方案中,研究员可编辑自己的出版物资料,并在线发布作品的全文,全球读者可以轻松访问。这种系统的显著优势在于读者只需轻点鼠标,就可以立即下载作者作品的开放获取版本,而不仅仅是谷歌提供的搜索功能。

在发达工业国家的重点大学中,在线研究知识库(集合了文章、书籍和其他可在线访问文本的索引存储档案)的发展极大地推动了这种趋势的发展,同时也夯实了自动文献计量系统的主导地位,加速了传统数据库和自愿性的文章聚合网站的淘汰。大学知识库现在存有学校教授、讲师和学生的开放获取作品,在以前,访问这些作品很困难(可能要通过访问每个作者的个人网站来获取),或者这些作品完全隐藏在期刊付费门槛后面。知识库还存有会议和工作文件的永久URL副本,而在以前,这些文件只能从有使用时间限制的会议网站或大学的分支机构获得,而且它们可能会更改名称或停止运作。

大学知识库的一个缺点是运作方式非常多变,且往往“笨手笨脚”。在很长一段时间里,只有谷歌等搜索引擎才会整合这些知识库(当然,GS会在任何可能的地方“找到”开放获取版本的资源)。用户还必须分别学习每个知识库的工作方式。最近,像Unpaywall这样的新型应用软件能更快找到合法的开放获取副本,这些副本主要来自知识库,因此它一定程度上减少了学习每个独立知识库操作原理的麻烦。

还有一些重要的多机构来源以预印本(期刊提交前)的形式储存了主要研究,供免费下载。最大的开拓者是arXiv.org(物理学),这是一个庞大的数据库,研究员在早期阶段发布研究成果,收集评论并互相讨论,以帮助修改论文,供期刊发表。在生物学和生命科学中,类似的bioRxiv.org也实现了快速发展。至于社会科学领域,类似的数据源发展水平较低,Socarxiv项目在2016年才启动。大型研究论文库还包括美国国家经济研究局(National Bureau for Economic Research, NBER)和多领域社会科学研究网络(Social Science Research Network, SSRN)。前者收录了很多在期刊发表之前的工作文件;后者则是开放式数据库,但其笨拙的界面和糟糕的内部搜索功能限制了它的使用率。2016年初,爱思唯尔接管了SSRN,使其性能得以改进,但该网站也因此成为主要出版商版图的一部分。

GS有三个市场竞争对手,其发展也具有关键意义。ResearchGate(RG)类似于一个面向学者的脸书风格的社交网络,总部位于柏林。作者可以从GSC中导出BibTeX格式文件,从而轻松地在线发布、整理免费或开放获取作品(作者也可以发布非开放获取的版本,但出版商一直在监控这一做法,并要求RG删除被禁止的项目)。RG还会设法为其数据库找到尽可能多的非付费副本,尽管内容的选择有些随意。作者需要删除RG试图收录到他们的个人资料中的任何非法副本,但也可以手动添加RG没有找到的合法副本。该程序允许作者定义“项目”,将出版物分门别类。它们可以存储许多不同的输出信息(例如数据库、视频及进行中的信息变体或灰色文献)。RG还能记录谁在引用或阅读你的作品,让你知道、追踪其他作者,并及时发送可能相关的作品的新版本(如果作者在RG上发表新文章,则比GSC更快)。到2019年,RG用户已达到1500万,尤其受到欧洲STEMM学科和社会科学工作者以及美国东西海岸更开放的大学的青睐。

与之类似的是纯商业化的公司Academia.edu(该名称具有误导性,实际上它不是教育类网站)。到2019年,该网站声称拥有7800万用户,已储存了2200万个项目。同样,如果从你的GSC资料中载入BibTeX格式文本列表到Academia.edu,它就会找到这些文本的开放获取版本,以及一些你应该删除的非法副本。你也可以在上面上传简历,并链接到社交媒体(如推特和脸书)上。但是,该程序需要你做更多的管理工作(你需要手动更新每一本新出版物)。如果你的出版物很多,而且网络、社交媒体和提醒功能都很差,那么它的运行也会变得笨拙。Academia在美国中西部和亚洲的应用最为广泛,但最近推出的新功能加速了其传播。2017年6月起,Academia.edu规定需要订阅才可以搜索其数据库,以此来减少用户数量。

第三个竞争者是Mendeley,它是与EndNote相匹敌的参考文献管理器。该网站最初是独立运营的,主张公有制观念,截至2013年已积累了250万用户,但随后被爱思唯尔接管。2018年,根据Mendeley的声明,他们已拥有800万用户。此外,它还是一个免费的参考系统和PDF管理器,致力于让用户在线上、云端能够访问在工作中使用的所有文件或材料,并为他们提供格式化的引用数据。它结合了用户对其他来源的引用和对全文的共享访问。用户只需在计算机上选中PDF文档中的一整套文件,并将其拉到Mendeley主屏幕的中间,即可将所有PDF文件上传到该服务器。然后,系统会自动从你上传的所有文件中提取出版物的详细信息,并在全文的副本旁边生成引用数(它可以根据你指定的不同格式生成关于引用的详细信息)。如果有作者错误地索引了你上传的资料,那你可能需要编辑一些条目。鉴于许多资料是由多人使用或拥有的,Mendeley可以通过剔除重复的资源,并让每个引用这些资源的作者使用同一个合法的开放获取版本或付费数据源,以节省云服务器空间。该程序还有一个“我的出版物”标签,你可以轻松在自己的GSC资料页上传作品的BibTeX格式文件,并向其他用户提供全文。作为一家初创企业,Mendeley的用户量增长迅速,且支持更多(合法的)开放获取资源。但它的缺点是网速太慢(特别是对于拥有大型PDF格式文件库的作者),操作十分笨拙,所以仅对刚起步的研究员非常有用。爱思唯尔的收购大大降低了该应用在学术界的“大众”信誉度,但也可能会(通过与Scopus等应用的整合)提高其技术性能,完善使用功能。

替代计量学

(数字化变革)反映并传递了学术影响。书架上那篇被翻得皱巴巴的(但未被引用过的)文章,如今存放在互联网中(网络书目中)——我们可以进行查阅和统计。研究讨论的阵地已经转移到博客和社交网络上——现在,我们可以予以关注。当地的基因组数据集已经发展成在线知识库——现在,我们可以予以追踪。这些活动形式多样,形成了一种综合的影响力追踪,比以往任何可用的影响力追踪都要丰富得多。我们称这种追踪的元素为替代计量指标(altmetrics)。

——《替代计量学宣言》( The Altmetrics Manifesto

引用数作为一种衡量标准有相当大的缺陷,它们需要很长时间才能生成。只有一小部分(甚至极小部分)的读者在发现一篇有用的研究文章后,会就类似的主题发表文章,进而引用这篇文章。“文章水平指标”(“替代计量指标”)的倡导者认为,引用数是非常滞后、片面和不稳定的指标,不能反映出哪些学术成果是有用的。而《替代计量学宣言》(上文引用)主张使用替代性指标(也容易被替代标签所覆盖),这些指标针对每篇论文或书籍的具体情况(与JIF不同),以更快、更具包容性的方式捕捉其不同类型的用途。替代计量指标还必须具备扩展性,能使用自动搜索方法扫描大量材料。

符合这些苛刻标准的测量指标有很多,包括:

●任何研究项目(文章、著作、工作文件、幻灯片、博客、演示文稿或数据集)的浏览量显示了关注(或可能读过)它的总人数。但“总关注量”并不等于积极使用量,更不用说认可度了。许多读者也可能只看摘要,因为他们并未付费。

●研究成果的下载量体现了它更大的用途。获取整个文本的PDF或HTML格式副本需要时间,并表明会在阅读时保存源文件。一般来说,下载文章代表读者不仅是简单地在线浏览然后退出,而是有可能看到了其中的长远价值。当然,人们的做法各异。许多学者可能会将文本储存在硬盘上,以供将来阅读、使用或引用,但后来却忘了。即使各个领域下载文章的人比后来引用文章的人多得多,但下载量至少能表明其学术影响力。

●Mendeley可以更直接地检测新获得的研究材料的保存和存储,你能搜索系统内的所有文章,并查看还有多少用户也下载了这篇文章。该功能在阅读文献时非常有用。

●人们经常在网上推荐信息或表达对信息的认可,如在脸书上对研究点赞,在推特上发布或转发研究相关的链接,以及完成反馈调查。PLOS One(公共科学图书馆的主要期刊)采用“五星”系统对论文的深度、可靠性、风格和整体性进行评级。读者对作品给予好评很重要,只留下评论也很重要——因为大多数研究员不会评论乏味的作品。

替代计量指标的技术变化很快,并且还在不断变化之中,所以这里我们只提供两个不同使用模式和指数的例子。表2.2的示例1显示了莫兰迪(Morandi)等人在PLOS One期刊中所著文章(关于新生儿肥胖风险的评估)的替代计量指标。这产生了立竿见影的效果,在发布后的15天内,该文章的浏览量已经超过了18500次,PDF文件被下载超过了1500次,通过谷歌博客(Google Blogger)软件搜索到的相关引用或讨论有331次。截至2017年初,该文章的下载量已超过3.6万次,但在WoS期刊上只被引用了32次,在GS上只被引用了60次。

表2.2 示例1: PLOS One 医学文章的使用

图2.2的示例2显示了2006年以来最著名论文之一的使用数据。到2017年初,付费专区文本的下载量已超过19000次,但是(可免费下载的)摘要下载量要多得多。该论文完整的标题“新的公共管理已死——数字时代的公共管理万岁”,阐明了文章的核心论点。这也使得论文更易被引用,这可能就是为什么到2017年初这篇文章在GS和WoS上分别被引1400余次和300余次。

图2.2 示例2:2006年社会科学领域优秀文章的替代计量指标水平随时间的变化

注:2016年的数据是以前6个月按年计算的。

以上例子也与替代计量指标的支持者和批评者之间的激烈辩论有关,即如果一篇学术成果吸引了大量用户浏览、下载、使用参数、赞同和评论,那么它是否也极有可能及时吸引大量学术引用。研究发现,一些替代计量指标确实在单篇文章层面与文献计量指标呈显著正相关。研究结果为替代计量指标是一种能彰显学术能力的前瞻性指标这样一种观点提供了一些支持。有证据表明,在一个学科中,Mendeley的书签在该文章被引用前一年就已出现。

而批评者认为,替代计量指标可能无法衡量研究质量或未来的可引用性。该指标可以显示哪些材料用于教学和专业实践(也许只有更简单易懂的期刊论文、评论文章或教科书)。一些研究可能会在短期内吸引大量非学术性读者(如表2.2中莫兰迪等人的论文那样)。其他方面的增值也许是为时事政策辩论提供信息,或促进公共和文化生活的学术成果,这些是人文和社会科学领域主要书籍的一个关键作用,传统的引文数据库完全忽视了这一点,但GS及其主要线上竞争对手如今(部分地)抓住了这一点。

在前数字时代,人们认为学术书评具有前瞻性,能判断可能的使用情况。对比《书评索引》( Book Review Index )中某篇文章的评论数量和拥有此书的图书馆数量,可以发现两者之间的联系呈正相关。但是(美国)大学图书馆员似乎也收集了很多“不中用的东西”。人们发现,大学图书馆里有许多书籍和研究成果从未被借阅过。如今,可以通过亚马逊上的销量或评论数来衡量某书在学术和非学术读者群体中的关注度。有正面评论的社会学专著比有负面评论的著作吸引(来自社会科学资料库)的引用数更多。另一项研究发现,2008年出版的2700多部学术专著中,亚马逊评论的数量与引用指标之间存在显著(但较低)的相关性。

替代计量指标也可以涵盖非传统学术成果,例如学者制作学术音频和视频播客或将其作为补充成果来使用。截至2011年12月,约1800篇来自Scopus的出版物引用了至少一个YouTube视频,视频引用数从2006年的3个增至2011年的719个。这只是初期,在不久的将来,此类多功能媒体、博客和数据集的被引量可能会迅速增加。

总体而言,替代计量指标领域在快速发展。越来越多的计量方法强调了学术出版物所涉及范围的不同方面,或表明了它们的用处。但悲观主义者认为,计量指标根本无法表现学术研究的整体性和多维性。他们担心,频繁使用替代计量指标(或任何形式的指标)将催生更多“大众喜闻乐见”的研究,标题肤浅直白或“具有引诱性”,与研究结果没有什么深入联系。相比之下,乐观主义者将该指标的信息视为学术研究如何在学术界内外产生影响的另一个宝贵而丰富的证据来源。

数字指标与学术引用行为

在非精英期刊上搜索并阅读相关文章(数字版)就像在精英期刊上搜索并阅读文章一样简单,因此研究员越来越多地积累和引用各地发表的作品。

——阿努拉格·阿查里亚(Anurag Acharya)及其同事

GS的制作团队(如上所述)认为,更好的数字搜索、网络引文追踪和替代指标工具正在改变学者引用的方式。基于最近的网络发展趋势,许多人担心互联网的使用权力更多地集中在互联网巨头公司(如谷歌、微软和苹果)的手中。但至少在学术界,有明确证据表明,搜索能力的发展通过大幅拓宽学术工作中的资源范围,产生了相反的分散效应,在一项“大数据”分析中,阿查里亚等人最终证明,过去十年来,学术引用模式发生了巨大变化(见图2.3)。

到20世纪90年代中期,几乎所有学术领域都在战后得到了发展,期刊数量大幅增加。而1995年,在互联网发展之前和GS发展的早期,学术界的引用行为仍然非常保守,往往只选择每个领域内极少数的顶级期刊。此时,GS中只有略高于1/4的被引量来自各个领域的非精英期刊——即学科前十名以外的期刊。到2013年,这一比例已升至近一半。如图2.3所示,物理和数学的比例在这一时期的两端都是非常低的离群值,但即便如此,近期引用非前十名期刊的比例也提高了很多。非前十名期刊被引量的增长在计算机科学、医学和健康科学领域尤其迅速。图2.3中的趋势线是一条对数曲线,曲线的方程显示,在1995年数字初始值较低的学科,增长量在一定程度上较大(纯数学效应)。在引用模式更加分散的领域,如社会科学,比例也有所增长,但幅度较小。

近几十年来,除了数字出版和开放获取出版之外,推出的新期刊越来越少。与此同时,在不到20年的时间里,互联网和基于网络的搜索引擎的出现改变了全球学术界的引用行为。研究员现在比以往任何时候都能更容易地从范围更广泛的期刊、书籍等学术来源中找到材料。传统的文献综述在以前需耗时数月,如今完成只需数周,更新只需几个小时。现在,拥有网络技术能力的研究员可借助数据库、搜索提醒、电子预印本、社交媒体和学术内容整合器,不断监测更多的来源。

图2.3 1995~2013年GS引用在各学科群非前十名期刊的占比变化

访问范围扩大,优秀研究成果能被更多人看见,这带来了诸多影响。在英国2014年的REF审查中,一些政治学小组遵循了必要的“同行评议”程序,将发送给他们的37%的书籍以及19%的期刊论文评为“世界领先水平”。他们还表示:

在质量方面被评为“世界领先水平”的570篇期刊论文发表在了180多种不同的期刊上。在这些期刊中有5个及以上的退回项目,但没有一家期刊退回所有项目,也没有一家被评为“世界领先”。因此,尽管(由期刊发起的)严格的同行评议对出版作品的质量无疑有着重大贡献,但在哪家期刊上发表文章既不能保证也不能代表研究的质量。

结合图2.3,这些观察结果表明,在搜索技术进步的推动下,学术行为发生了惊人的变化。乐观主义者认为,无论优秀的内容在哪里出版,(优秀的)研究员都能找得到,这是前所未有的。

还有一些人的态度则更为谨慎。2012年底,《自然》( Nature )期刊基于三种标准为读者展示了年度十大最具影响力的论文。在WoS记录的被引率最高的论文中,有64~140条引用来自常规学术期刊(如有关寻找希格斯玻色子粒子的2篇)。接下来,《自然》期刊问Mende-ley用户他们最常上传什么类型的STEM学科论文到文件存储器中时,330~730位读者表示,大部分仍是正统的学术论文——其中3篇为相似的遗传学项目(编码数据),项目在年中吸引了大量报道(相比之下,《自然》期刊上传量最多的论文是3年前的一篇短文,近6000人将其放入了他们的Mendeley知识库)。最后,基于在推特上发布论文、在脸书上点赞论文的人数,以及在Google+圈子里添加论文或在博客上发布论文的人数(900~2200条推特文章和10~131个脸书点赞),Altmet-rics公司发布了十强榜单。几乎所有这些论文的叙事标题都生动活泼,而且大多聚焦于更“贴近日常”的事件,这些事件也吸引了国内外媒体的报道。但是,没有一篇论文可以同时满足三个标准。《自然新闻博客》( Nature News Blog )曾评论道:

坦白地说,这有点混乱。这30篇论文都不简单。在不同的指标下,它们都达到了普及度或引用强度的顶峰——但是,此次行动确实揭示了替代计量指标和引用数是如何引起不同方面的关注的。

但是,如表2.3所示,如果我们仅比较核心的引用指标本身,情况就会好很多,还能更好地理解不同的操作模式。在STEMM学科等以期刊为中心的学科中,论文不同的引用数量之间存在很高的相关性。例如,在该领域中,Mendeley通常包括传统数据库和GS中95%的被引用最多的条目。但是,在引用水平较低且著作的地位很重要的学科中,WoS在评估被引内容时的基础仍然非常薄弱。以目前的形势,WoS还需要很多年才能给著作(和著作章节)带来在GS中已有的突出地位。如表2.3所示,Scopus介于这两者之间。

表2.3 主要引用系统运行的一般预期

注:*GSC的资料简介功能进一步提高了GS的可靠性,作者可检查和编辑自己的条目。但在撰写文章时,只有部分作者拥有公开的GSC档案。一些研究员还未加入GSC,还有的会将个人资料简介保密。

小结

查看影响指标本身并不意味着要做什么。当然,这绝不意味着你只应关注(到目前为止)研究生涯里最成功的作品。与大多数人相比,研究员更倾向于投资他们所相信的东西,即使它不会马上受到专业受众的欢迎。毕竟,一些伟大的科研创新经过漫长的时间滞后以后才得到认可,这是一段悠久而光荣的历史(见表11.2第二条)。进行投资、播下进行后续研究的种子,往往比“随大流”,使用肤浅直白,或短期内取悦受众的策略要好得多。

然而,如果你拒绝衡量的标准或者拒绝汲取教训,同样面临着自欺欺人和徒劳无功的危险。不管你做什么类型的研究,不管你的研究在什么学科领域,一旦你了解了研究情况,参考指标便会帮助你在未来做出更好的选择。而且,为确保研究成果得到更广泛的认可,你只需进行小规模的调整(策略性的转变),而这些调整并不麻烦。这一点我们将在下一章讨论。关注引用数等指标只是一种让你更好地向广泛的专业受众传达研究成果的重要基础,而不是预示着要牺牲哪怕一丁点儿的科研诚信。数字化时代之前,每个学科都有少数几家权威期刊,而如今这种模式正在逐渐消失。因此,作者在作品出版方式上所做的努力变得更加重要。这将在接下来的两章有所涉及。 9+MC1qVYONOGWa/1HhgU4SNIHRtyHce2HLfQIHT6LECOoagzAQtlXwF0anjGc9MV

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开