购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第二节
学术隐蔽网络及其资源

一、学术隐蔽网络的定义与类型

隐蔽网络是搜索引擎没有加到它们索引中的那部分资源,产生的原因主要受存储空间和索引某种内容能力的限制。根据这个定义,垃圾信息是隐蔽网络,因为搜索引擎选择不索引它们,但显然垃圾信息不是学术隐蔽网络。德国杜塞尔多夫大学的Dirk Lewandowski给学术隐蔽网络(Academic Invisible Web, AIW)下的定义是:包含所有数据库和相关学术收藏,但不被普通搜索引擎所检索的那部分资源。

事实上,从内容类型上看,一半以上的隐蔽网络是主题数据库,图 1显示了隐蔽网络类型的分布。主题数据库、内部网络与出版物构成了隐蔽网络的将近 80%的资源,黄页/白页、图书馆、门户网站、职业和计算资源共占 10%。 Bergman对主要隐蔽网络进行重叠分析,认为大约有 10 万个隐蔽网络数据库。90%的隐蔽网络被认作是学术内容,但要去掉只包括原始数据的数据库,学术内容的比例就缩小到 4%。这是因为隐蔽网络的主要部分是原始数据(raw data),大多为图片,如地球卫星图片等,这些数据的记录远远比那些文本数据库大得多。

图1 隐蔽网络内容类型的分布

二、学术隐蔽网络的内容

AIW对学者、图书馆员、信息工作者和所有其他学术搜索者是非常有价值的,能提供相关科学过程的学术信息资源,包括文献(如论文、学位论文、报告、图书等)、数据(如调查数据)和纯网络内容(如开放存取文档)。

Sherman和Price定义了四种隐蔽网络的类型,从用途上讲,专有网络和免费内容的区分最为重要,与学术相关的很大一部分网络是专有网络,主要来自出版商数据库的内容。从图书馆的角度上讲,学术隐蔽网络主要包括文本文件(以不同格式出现的,如PDF, PPT, DOC等),这种文档类型如今能被主要的搜索引擎阅读。

更多的技术问题,如动态产生的网页和文档类型,现在已被解决。被压缩的文档对搜索引擎来说仍然不可见,但通过能索引它们的搜索引擎可以解决这个问题。 Flash和Shockwave内容仍是一个问题,因为对索引它们的搜索引擎来说,缺乏足够的文本。实时数据仍是一个问题,因为搜索引擎不能紧跟快速增长的网址的速率。由于数据库是搜索引擎无能为力的,这部分内容是真正的学术隐蔽网络,也是隐蔽网络的核心。

与学术隐蔽网络相对应, AIW内容的主要机构提供者包括:①数据库销售商:生产书目元数据记录和文献传递等的附加服务;②图书馆:通过联机公共访问系统提供馆藏目录检索(OPAC查询)和其他附加服务;③商业出版商:主要提供全文内容;④其他社团、协会机构,如美国计算机学会ACM等;⑤开放存取仓储,如Citebase, OpenROAR等。

这些不同的机构各用自己的体系标引文献信息,从而导致了各个收藏之间的异构现象和复杂环境,也导致了更多的学术内容成为隐蔽网络资源。图书馆藏书和成千上万的数据库文件对普通搜索引擎用户来说是看不见的,而且正在进行的数字计划也更加促使了隐蔽网站的继续增长。现存的技术标准如Z39.50 或开放存取计划——元数据收割协议(Protocol for Metadata Harvesting, OAI-PMH)并不能经常被完全利用。因此,有价值的可以公共获取的资源,尤其是来自图书馆的资源仍保持不可见,这对读者来说需要跨库检索。

三、学术搜索引擎

一方面,传统的搜索引擎无法整合上述以深层网页形式存在的资源;另一方面,用户希望在同构的环境下使用这些资源,希望通过一次点击就可以获得资源的全文,而无需考虑其来源(网上免费资源、信息提供商的付费资源或图书馆的馆藏资源)。

学术搜索引擎正是为增强AIW的存取而出现的,它以学术资源为索引对象,一般涵盖互联网上的免费学术资源和以隐蔽网页形式存在的学术资源,通过对这类资源的爬行、抓取和索引,以统一的接口向用户提供服务。学术搜索引擎有不同的种类,按照覆盖范围有综合性和专业性两类,前者面向各种类型的学术资源,后者则专门针对某类学术资源。这里介绍Google Scholar、 Scirus、 BASE和Vascoda四种免费综合性学术搜索引擎。

1.Google学术搜索(http://scholar.google.com)。 Google Scholar是Google于 2004 年底推出的专门面向学术资源的免费搜索工具,能够帮助用户查找包括期刊论文、学位论文、书籍、预印本、文摘和技术报告在内的学术文献,资料来源于学术著作出版商、专业性社团、各大学及其他学术组织的经同行评论的文章,涵盖数百万隐蔽网络文件。 Google Scholar的搜索结果可以过滤掉普通搜索结果中的大量垃圾信息,排列出文章的不同版本以及被其他文章所引用的次数。2006 年 1 月 11 日, Google公司宣布将Google学术搜索扩展至中文学术文献领域,信息来源包括万方数据资源系统、和维普资讯,以及主要大学发表的学术期刊、公开的学术期刊、中国大学的论文和网上可以搜索到的各类文章,这对于学生、学者以及其他需要经常查阅学术文章的人来说是非常实用的。

2.Scirus科学搜索引擎(http://www.scirus.com)。它是目前互联网上最全面、综合性最强的科技文献搜索引擎之一,由Elsevier科学出版社开发。 Scirus是表面网内容和学术隐蔽网内容的有效结合,表面网内容大约 2.5 亿, AIW包括Elsevier自己的信息数据库,如ScienceDirect、BioMedNet和Chemweb等和其他科学信息公司数据库以及开放存取资源,Scirus是迄今为止采用FAST技术创建的最大的科学搜索引擎。

3.BASE (Bielefeld Academic Search Engine,比勒费尔德学术搜索引擎)。 BASE (http://www.base-search.net )是德国比勒费尔德(Bielefeld)大学图书馆开发的一个多学科的学术搜索引擎,采用挪威公司的FAST搜索和传递技术,提供对全球异构学术资源的集成检索服务。目前, BASE已经注册成为OAI服务提供者,整合了德国比勒费尔德大学图书馆的图书馆目录和大约 160 个开放资源(超过 200 万个文档)的数据。

4.Vascoda (http://www.vascoda.de/)。它是一个交叉学科门户网站的原型,集成了图书馆的收藏、文献数据库和附加的学术内容, Vascoda更注重特定主题的聚类,是消除AIW鸿沟的一种可供选择的模式。

以上四个系统有一个共同点就是都关注隐蔽网络学术信息,但它们提供的方法和内容有很大的不同。 Google Scholar和Scirus创始于商业公司计划,它们内容的核心以出版商的知识库加上可公共获取的资料为基础。而BASE和Vascoda是图书馆和信息机构开放其收藏的学术计划,主要是学术参考数据库、图书馆目录以及免费的优质文件。这些典型的学术搜索引擎索引AIW需要联盟合作,任何一种单独的方法都有自己所特有的优势和缺陷,或者带有商业偏见,或者缺乏全文信息。

现有的免费综合性学术搜索引擎并不限于以上几种,还有OJOSE (http//www.ojose.com/)、 sciseek (http//www.sciseek.com/)、 INFOMINE (http//infomine.ucr.edu/)、 CiteSeer等,但这些搜索引擎在规模、功能等方面与上述四种相比相对较弱。 ke5+hdyVPvCv+Bvk2fBg5qcimFlfsx5k/RoHmDu/gS9mX8UhhD2bNKRQRvHjOvq/

点击中间区域
呼出菜单
上一章
目录
下一章
×