数字图书馆是经过处理的信息集合,并提供相关的服务,其信息以数字形式存储,通过网络存取。数字图书馆,又称电子图书馆、虚拟图书馆、网上图书馆、没有围墙的图书馆、未来的图书馆等,是从不同角度对数字图书馆的认识。在这些概念中,美国等国家常用的是“数字图书馆”,并且为多数人所认同。而英国、日本等国家则偏重于使用“电子图书馆”。国内倾向于使用“数字图书馆” [4] 。
在近十几年的时间里,世界各国掀起了一场数字图书馆研究和建设的热潮,这一趋势正在改变着人们对信息的保存、传播和利用方式,推动着信息革命的发展,促进着信息时代的成熟。数字图书馆的建设与利用将成为信息时代的重要标志之一 [5] 。
本节运用情报分析方法中的共词聚类分析法,对世界近年来发表的数字图书馆论文进行了文献计量学调查分拆,总结出当前世界数字图书馆研究的热点,并对之加以评价,供广大专业人员和图书情报人员参考。这有助于了解世界数字图书馆发展的历史、现状和趋势,有助于中国在数字图书馆建设与服务领域赶上世界发达国家。
本节采取的样本来自于美国科技信息研究所(ISI)基于Web所建立的信息平台ISI Web of Knowledge(WOK),WOK功能强大,使用方便,为信息用户借助于此平台,通畅的检索多个研究性数据库提供了一个整合的数字化研究环境。WOK所包括的德温特创新专利索引(Derwent Innovation Index),包括40多个国际、国家与地区专利机构的德温特分析家(Derwent Analytics,以下简称DA软件)是美国Thomson Scientific公司提供的用于计算机桌面的数据挖掘和可视化工具,应用该软件工具可以对信息和数据进行整理、分析和汇总,可以按照用户的需求对采集自ISI的SCI以及其他一些大型数据库的数据进行聚类和关联分析 [6] 。
在WOK的高级检索中输入TS=(" virtua* librar*")or TS=("digita* librar*")or TS=(" electron* librar*")or TS=(" e-librar*")复合检索词及检索时间段后,检索系统自动搜索出1991~2006年11月的所有与数字图书馆相关的文献共2413篇,各年代文献量的分布如表3-4所示。
表3-4 数字图书馆文献量按年代分布
续表
分别套录检索到的各年代相关文献的主要关键词,运用DA软件统计这些关键词的出现频次,共出现1788个关键词,经手工处理、判断,删去含义宽泛、不明确的关键词,将剩余关键词按照它们的出现频次由高到低排序,本章将关键词出现的累积频次达到8次(含)以上的关键词,作为高频关键词,得到高频关键词29个,这些词作为表现当前数字图书馆研究热点的标志如表3-5所示。
表3-5 数字图书馆的高频关键词
续表
为进一步反映这些关键词之间的关系,笔者对这些高频关键词进行了进一步的处理:两两统计它们在同一篇文献中出现的次数,如果两个关键词在众多的文献当中同时出现的频率高,说明它们之间的关系密切,这样就形成了一个29×29的共词矩阵,再通过进一步计算生成相似矩阵。以此为基础用DA软件对这些词进行聚类分析,生成mapping图(factorsmapping方式),聚类分析的结果可以反映出这些词之间的亲疏关系,将这些关键词重新组合起来,能反映出这些词所代表的研究主题,从而获得数字图书馆研究活动的热点如图3-4所示。
利用高频主题词的共词矩阵,进一步可以用“战略坐标”来分析数字图书馆各热点主题的发展阶段 [7] 。1988年Law等提出了用“战略坐标”(Strategic Diagram)来描述某一领域内部联系情况和领域间相互影响情况 [8] 。在战略坐标中,X轴为向心度,表示领域间相互影响的强度,Y轴为密度,表示某一领域内部联系强度。其中:
向心度(Centrality)。用来量度一个学科领域和其他学科领域的相互影响的程度。一个学科领域与其他学科领域联系的数目和强度越大,这个学科领域在整个研究工作中就越趋于中心地位。对于特定的类别,向心度的计算可以通过该类别的所有主题或关键词与其他类别的主题词之间链接的强度加以计算。这些外部链接的总和、平方和的开平方等都可以作为该类别的向心度。
密度(density),用来量度使字词聚合成一类的这种联系的强度,也就是该类的内部强度。它表示该类维持自己和发展自己的能力 [9] 。某一类别的密度的计算可以有多种方式,首先计算本类中每一对主题词或关键词之间的在同一篇文献中同时出现的次数,通过计算这些内部链接的平均值、中位数或者平方数,得到这个类别的密度。
以向心度和密度为参数绘制成的二维坐标即为战略坐标,它可以概括的表现一个领域或亚领域的结构。其典型结构是横坐标表示向心度,纵轴表示密度,坐标的原点在两个轴的中位数或者平均值。这个地图将每一个二维空间的主题领域划分为四个象限,可以用来描述各主题的研究发展状况。
1)高频主题词的共词聚类mapping图,如图3-4所示。
图3-4 数字图书馆关键词共词的聚类mapping图
根据聚类结果,可以看出当前数字图书馆研究的热点主题有:
①远程学习、教育和咨询服务(由29、27、17、8、28号关键词组成,用A表示);
②开放系统及学习(由25、19号关键词组成,用B表示);
③用户研究、教育和互联网(由13、8、10、1号关键词组成,用C表示);
④信息技术、信息服务和互联网(由7、22、5、1号关键词组成,用D表示);
⑤元数据、搜索引擎和信息检索(由4、21、2号关键词组成,用E表示);
⑥版权、电子期刊和电子出版物(由9、6、3号关键词组成,用F表示);
⑦信息系统及数据库(由23、12号关键词组成,用G表示)。
2)各研究热点主题的战略坐标图
由高频主题词的共词矩阵,可以计算出各研究热点主题的向心度和密度如表3-6所示,采用平均计数法,进而得到战略坐标:
表3-6 数据图书馆研究热点的密度和向心度
该研究的战略坐标如图3-5所示。
图3-5 各研究热点的战略坐标
由图3-5可以看出,密度轴和向心度轴将整个图形分成四个象限:
①第一象限:在此象限的主题领域内部联系紧密并处于研究网络的中心,这是因为它们的密度和向心度都较高,密度高说明研究主题内部联系紧密,研究趋向成熟,向心度高说明这两个研究热点又与其余热点有广泛的联系,即与其余研究密切相关,因此成为数字图书馆研究的中心。如热点D、C和E,其聚类的关键词在表3-6中位置都比较靠前,说明这些关键词出现的频率较高。关键词出现频率越高,越说明这些词与其他词共词的可能性越大,使之成为数字图书馆研究的核心。关键词出现的频率高同时还说明这些关键词之间共词的可能性大,其研究相对成熟。可知,信息技术、信息服务和互联网,用户研究、教育以及元数据、搜索引擎和信息检索三个主题是当前数字图书馆研究的中心内容。
②第二象限:此象限的研究主题领域结构比较松散,研究尚不成熟,与网络中其他研究结合紧密,但其内部联系较弱,该领域的工作有进一步发展的空间,具有较大的潜在重要性。数字图书馆的研究没有第二象限的主题,说明数字图书馆的研究已日渐成熟,尚不存在或人们还没有找到处于初级探索阶段的主题。
③第三象限:其主题领域内部链接紧密,题目明确,并且有研究机构在对其进行正规的研究,但是在整个研究网络中处于边缘地位。F主题,即版权、电子期刊和电子出版物,处于该象限,说明版权、电子期刊和电子出版物是数字图书馆研究中很成熟的研究内容,但该内容不是数字图书馆研究的核心。
④第四象限:该象限的研究主题密度和向心度较低,说明其内部结构比较松散,研究尚不成熟,同时处于整个数字图书馆研究网络的边缘。热点A、B和G处于该象限,它们分别代表了数字图书馆比较独立成块的内容。说明远程学习、教育和咨询服务,开放系统及学习,信息系统及数据库三个方面的主题的研究处于不成熟的状态,不是核心内容。通过查看其聚类的关键词可知,这些关键词在表2中排位都很靠后,说明其文献数量少,大多为探索方面的研究。这些研究主题要不进一步开展完善进入第一象限,要不随时间的流逝被认为没有研究价值而遭到淘汰。