随着以开放存取运动(Open Access Movement)为代表的模式变革,越来越多的学术资源数字化后被呈现于网络之中,而搜索引擎的诞生则改变了科研学者查找相关资源的方式,同时,也改变了他们的搜索信息和利用信息的行为。近年,国内外研究者开始以网络引文的视角关注学术网络资源的利用状况,大多聚焦于引文数量、域名分布、可追溯性等特征指标 ,少有研究对网络引文资源类型进行深入分析和探索。由3.1节的分析可见,图书情报学科对于网络学术信息资源的利用走在了其他学科的前列,因此,本节着眼于学术深网资源,通过引文分析法探究“看不见”的网站资源对图书情报学科科研工作的价值,旨在挖掘出该领域研究者对相关资源的利用规律,从而为学术深网资源的开发和利用提供依据。
(1)“看不见”的网站与学术深网
“Invisible Web”发源于互联网领域,相关概念还包括“Deep Web” “Hidden Web” 等,著名情报学家马费成教授将其译为“看不见”的网站 ,美国图书馆员Chris Sherman和信息专家Gary Price将其定义为“通过网络环境获取的,但由于技术限制无法得到,或出于其他考量最终不作为索引的高质量、高影响的信息资源” 。而在科学研究中,考虑到存在“看不见”的网站,故搜索引擎检索结果的质量常引发质疑。 据此,德国学者Dirk Lewandowski与Philipp Mayr提出了学术深网(Academic Invisible Web,AIW)的概念,认为学术深网可以检索到包括所有数据库在内的传统搜索引擎无法检索到的学术内容,涵盖了文献(如期刊论文、学位论文、报告、图书)、数据(如调查数据)、电子内容(如开放存取文档)等资源,在科学研究工作中具有重要意义。 美国数据整合与企业信息分析公司Bright Planet发布的白皮书指出,表面网(Surface Web)的资源规模远不及“看不见”的网站的,且后者正持续走高,内容深度和信息质量也远高于前者 。
(2)学术深网资源类型
“看不见”的网站主要包括关系数据库(Relational Database Files)、未被链接的网页(Unlinked Pages)、非HTML网页(Non-html Pages)、特殊文件(Special Files)、实时或者流动文件(Real-time or Streaming Files)和动态网页(Dynamic Pages)等内容。 陈红勤基于Sherman和Price的研究,指出技术、经济和知识产权是产生“看不见”网站的主要原因。 Lewandowski和Mayr指出,以图书馆为视角,学术深网资源主要包括PDF、PPT、DOC格式的特殊文件。 技术的发展变革使得AIW资源逐步可见,例如键入查询语句“关键词+filetype:pdf”可以检索PDF文件,再如谷歌与百度相继开放图像搜索功能等。然而“一站式”检索还未真正诞生,因此,目前上述类型资源仍为AIW资源。
2005年,最新发布的《文后参考文献著录规则》(后文简称“《规则》”)规定了包括数据库在内的网络资源的标引格式。然而,基于《规则》识别AIW资源存在两大难点:一是许多文献特别是年代久远的文献并未严格按照《规则》标引;二是著录符号无法识别、区分部分资源特征,譬如动态网页和静态网页。因此,本节拟用著录符号与URL双重特征识别方法抽取目标引文,AIW资源分类与特征如表3-14所示。
表3-14 AIW资源分类与特征
④董文鸳. 深网及其查找途径探析[J]. 图书与情报,2005,6(6):75-77.
⑤百度百科. 动态网页[EB/OL]. http://baike.baidu.com/link? url=YwZ75-EhyD8X-Hclj8ax3ajZ91hHiouT-RQBHqwvmxe65rtMOlg6EawHd3clqQwzYOCLgytp38ShPj97SyuyN2p0E5 F2wp2ms_JhbEs5DwSJNFH_PWo46CXDUbH3s6x707Jj5LL60Z40HY82h_62FG2FpztJjr5 jrEqBf9Hvg-8Od3KfL8l03_Rp2dEnmalx,2015.
为考察我国图情领域AIW资源的利用情况,本研究从数据可靠性和获取可行性出发,选择《中国图书馆学报》《大学图书馆学报》《图书情报工作》与《情报学报》4种期刊于2010年至2014年刊载的学术论文为研究对象,获取AIW引文数据,这4种期刊均收录于中文社会科学引文索引(CSSCI)公布的《CSSCI(2014—2015)来源期刊拟收录目录》,也是图书情报领域的权威期刊、核心期刊。此前,引文分析的相关研究多以CSSCI为数据来源,但从CSSCI中直接获取引文数据存在格式不规范、内容缺失等问题。因此,本研究以万方数据库为数据来源,基于数据抽取规则获取论文著录信息。数据采集时间为2015年11月18日至11月22日,共计获得AIW引文论文1699篇,AIW引文4597条。
基于期刊分布和年度分布,统计分析AIW引文情况,以从侧面反映学术工作者对AIW资源的价值认识和依赖程度。由表3-15可知,含AIW引文论文在全部刊载论文中占比超过1/3,而《中国图书馆学报》的占比更突出,其中,篇均AIW引文数达到2.71,AIW引文数在网络引文总数中占比为30.22%。这说明AIW资源已成为学术网络资源的重要组成部分,被广大图情领域工作者接受,同时,在相关研究中也发挥着重要作用。从纵向上看,由表3-16可知,2010年至2014年5年间单篇论文引用的AIW资源条目呈上升趋势,引用AIW资源的论文占比也在一定程度上提升,特别是2013年和2014年,该占比高达39.88%。这说明AIW资源逐渐得到了图情领域科研工作者的认同和肯定,同时,对AIW资源的利用也逐渐受到重视。
表3-15 含AIW引文期刊分布情况
表3-16 含AIW引文年度分布情况
基于表3-14中所示的AIW资源分类与特征,分析样本的AIW资源引文类型。在统计过程中发现,大量数据库类型引文未按照数据库文件的著录规则进行标注,同时数据库文件的URL缺乏统一的识别特征,因此,此处以特殊文件和动态网页两种类型为主进行分析。
由表3-17所示,特殊文件中PDF文件的引用远高于其他类型,该结论与之前的一项研究相符 ,同时,其在AIW引文中占比也逐年增多,并于2011年开始超过一半,2014年更是高达65.75%。PDF文件是一种通用的文件格式,具有跨平台、易于传输与存储等特性 ,相关研究表明,PDF格式的学术网络资源与较高的学术价值存在关联 ,这在一定程度上说明了PDF文件能够被持续大量引用的原因。Word文档与PPT文件也多次出现在AIW引文中,这与一项基于谷歌搜索的学术网络资源类型调查结论相吻合。 此外,.xls、.zip、.rar、.exe格式的资源则以较低概率出现于引文之中。
表3-17 特殊文件引文类型及其年度分布
注:表示此类AIW引文在年度AIW引文中的占比。
就动态网页来看:① URL特征中的.asp、.jsp、.php等并不代表本身特征差异,仅表明了资源网页的开发语言;②常与URL特征出现的“?”符号表示网页属于动态网页,如“http://www.sciencenet.cn/m/user_content.aspx? id=216844”,故对类似特征符号之间的引文变化情况进行分析并不具有太大价值。因此,本研究不去探究不同特征动态网页引文在AIW引文中的占比,而将动态网页视为一个整体,考察近年来它在网络引文中占比的情况。由表3-18所示,在2010年至2014年这5年间,动态网页引文占网络引文的比例逐年递减,从2010年的16.97%回落到2014年的9.24%,五年来合计占比12.78%。国内学者丁敬达、杨思洛曾对2005年至2010年图书情报领域权威期刊网络引文进行研究,发现动态类网络引文比例呈上升趋势,6年合计占比10.47% 。比较两组数据发现,虽然2010年至2014年动态网页引文量有所下降,但整体上较五年前仍有增长。可以预测的是,随着用户生成内容的推广及其自身价值被逐步认可,在学术研究过程中仍有动态网页型资源的一席之地。
表3-18 动态网页引文年度分布
为探究AIW资源来源与研究者对其的利用偏好,间接度量不同类型网站的学术价值,此处对AIW引文的域名进行分析。常见学术相关网站可按域名分为7类:.com(工商企业)、.org(非营利组织)、.net(网络机构)、.edu(教育机构)、.gov(政府)、.ac(学术机构)和.int(国际组织)。 AIW引文域名的统计情况如图3-12所示。由图3-12可知,出现频次较高的域名从高到低依次为.org(非营利组织)、.edu(教育机构)、.com(工商企业)和.gov(政府),该结论不同于国内一项对2010年至2012年网络引文来源域名的研究 (.org>.com>.gov>.edu),同时,也区别于中国互联网信息中心发布的《第36次中国互联网络发展状况调查统计报告》 中的中国域名分类统计结果(.com>.net>.ac>.org)。
本研究统计了不同类型的高被引网站,以深入分析AIW资源来源,发掘在图情领域研究中具有重要意义的网站,统计结果如表3-19所示。由表3-19可知,大量高质量的AIW资源由学术类机构协会、图书馆与数据库等传统学术资源供给方提供,同时,这类资源受到研究者的广泛关注,并被多次引用。在来源网站中多次出现的各类学术数据库与搜索引擎包括IEEE Xplore、CiteSeer、e-LIS、e线图情等,这也印证了真正的深网内容是以数据库为主的论断。 基于网站内容,高被引网站的主题以图书情报为核心逐渐向相关学科和领域延伸,比如面向法学与知识产权的北大法宝、世界知识产权组织等。这也说明我国图书情报科研工作者的研究主题与学术知识来源具有一定的跨学科性。基于地域分布和语种,英文国际域名网站占有绝对比重,如国际图书馆协会联合会等机构。此外,来源于英国与美国的资源也受到科研工作者的广泛关注。由此可知,我国图书情报学科的国际化程度不断走高,对国际学术资源的重视程度越来越明显,特别是在教育资源与政府信息不断开放、各非营利组织的资源进一步丰富的基础上,可以预测的是外文资源将在我国图书情报领域的研究中起到重要作用。以社会科学研究网、读写网为例,随着Web 2.0的发展,这些新型的学术资源网站也受到广泛关注。研究指出,Web 2.0能够促进知识的交流共享 ,而学术博客作为一种新型信息资源,蕴含着大量前沿的学术资源 。数据表明,Web 2.0下的新型学术网络资源被科研工作者广泛认可,并在一定程度上被有效利用。此外,经济合作与发展组织、中国互联网信息中心等网站资源被广泛引用,说明我国图书情报领域的研究开始关注经济产业发展,也说明科研工作者在研究过程中逐渐打破传统学术资源的限制,开始利用“非学术”资源进行研究。
图3-12 AIW引文的域名分布
表3-19 高被引AIW资源来源网站
基于引文分析法,本研究对2010—2014年出现在图书情报领域4种权威期刊上的AIW引文进行分析,考察AIW资源在图书情报领域研究中的利用情况和发展趋势,得到如下结论。
学术论文引文中出现大量的AIW资源,说明我国图书情报工作者在研究过程中对学术资源的采集和使用开始逐步突破浅层“表面网”的限制,转为重视那些具有重要价值而“不可见”的深度资源。同时,日益增加的AIW资源比重也反映出科研工作者对该资源的依赖程度有所提升。但是,即便数字化工程推动了资源进一步共享开放,相对落后的搜索能力间接加速了学术资源的“不可见”。 因此,AIW资源利用的主要问题之一便是日益增长的资源获取需求与资源获取水平、资源获取成本的不平衡。Lewandowski与Mayr指出,为解决这类问题,包括图书馆在内的学科服务提供方有义务将AIW资源开放给学术研究者。 正因如此,在推进学科建设与发展的过程中,深度聚合图情领域的AIW资源、建设高质量资源信息导航具有重要意义。
从资源类型出发,应给予在AIW引文中占有绝对比重的非结构化资源足够关注和重视。研究指出,尽管PDF资源具有一定的学术价值和意义,但谷歌学术等学术搜索引擎的覆盖范围仍以结构化的学术文献为主,对非正式发表的学术资源的覆盖率依旧不高,因此,部分具有重要价值和意义的PDF资源仍处于“不可见”状态。针对该问题,现有研究多从链接、内容、文体等方面进行探索,目前,已在识别、检索PDF学术资源等问题上有了一定进展。研究发现,改善AIW资源的使用现状需要加快推进PDF、DOC、PPT等一系列资源的建设工作。此外,动态网页这类资源在科学工作中也具有重要价值,而针对如何获取动态网页型资源这一问题,有研究指出,编写代码来获取“不可见”网站是一种行之有效的方法。
在研究过程中,国内图书情报工作者运用AIW资源具有跨学科、国际化、非传统、新形式等特征,主要表现在资源类型和资源内容等方面。因此,在学科建设、知识聚合和信息服务工作中,需牢牢把握时代发展动向,紧密结合学科发展趋势,创新科研工作模式。从资源来源看,研究者在获取科研资源时,已不再局限于图书馆、档案馆和传统数据库,而逐步向工商企业、政府以及非营利组织等非学术类型网站拓展,此外,研究者还关注Web 2.0环境下的各类非正式学术交流社区;从资源内容看,关注图书情报研究与其他学科相交叉的部分,进一步拓展学科研究范畴;从资源区域看,突破区域限制与语言隔离,更多更广泛地引用外文资源。基于上述原则摘取主要信息源,并与所编写的代码程序相结合,可实现对AIW资源的提取和揭示。