隐蔽网络的出现揭示了网络信息资源走向失控的现实,越来越多的资源出现在网上,却无法得到充分的利用,因而信息资源的有效组织和控制是必要的。笔者认为应从微观和宏观两方面应对,更好地组织、控制深层网络资源,使它们从信息海洋深处被挖掘出来,更好地为检索用户服务。
隐蔽网络自身的难获取性,使得开发隐蔽网络的难度很大,单单依靠某一种力量来解决隐蔽网络问题是不现实的,它需要信息提供者、信息服务商、图书馆和信息检索者各方的努力共同来完成。
信息提供者是信息提供活动的主体,在整个信息活动过程中占主导地位。为了保证所提供内容能够比较容易被搜索引擎索引,信息提供者应该优化网站,避免网站进入隐蔽网络。
1.结构平面化策略。搜索引擎由于商业原因,对搜索深度进行限制,四级或更深层次的页面往往深埋于隐蔽网络,不为人知。因此,网站信息提供者要采用结构平面化策略,尽量不要把自己的网络做得太大。如果所提供的内容实在太多,可以考虑采取分布式的方式,创建“姐妹站点”来容纳资源。
2.文本化策略。隐形网络形成的原因之一,是网络信息资源的非文本化。目前,尽管很多搜索引擎开始支持多媒体检索,如Google支持.pdf、.doc、 .ppt等文件格式和图像检索,但目前多媒体技术还很不成熟。要避免网站的资源成为隐形网络,目前最好的方法是将非文本资源文本化。其中包括: a.在非文本元素(如图片、动画等)的代码中,运用Alt属性标签进行说明,标签中要包含关键词; b.避免纯图像网页; c.少用Flash;d.对一些非文本元素的链接,可以在URL中列出其文本描述。
3.链接策略。搜索引擎搜集和评价网页都是利用网页的链接,要想让搜索引擎更容易找到你的网站,尽可能地扩大链接的广泛度,让其他跟你主题相关的网站与你的网站链接,特别是那些重要网站的链接,同时设置好自己的站内链接,达到页页有链接,避免出现孤岛网页。此外,还要避免过深链接,多采用横向和浅层链接。
4.付费索引策略。目前很多搜索引擎公司开展了一项付费服务,只要网站向搜索引擎公司交纳一定的年费,并且提供的内容不具有危害性,该项目就允许网站管理员指定一些特定网页让蜘蛛搜集,搜索引擎能够确保这些页面被索引。
5.静态化策略。针对动态化的网页难以检索的特点,网站中重要的网页应尽量使用静态化网页。另外,还可以在一个静态页面(如网站地图)建立一个链接指向该动态页面,或者修改这个动态页面的URL。通常来说,蜘蛛判断动态网页的依据是动态网页的地址中是否含有一些特殊符号,如“?”、“=”、“&”,或字符串“ cgi”或“ cgi-bin”等,蜘蛛遇到这些符号就判断此网页为动态网页,便停止索引。现在出现了一些专门的软件包可以改写URL地址,用其他符号来替换这些特殊符号,如ASP蜘蛛诱饵和Apache网络服务器专用的“重写”模块。
6.通用的网络数据库协议(OAI)策略。以上五个策略主要是针对一般网页,而网络数据库是组成隐蔽网络资源的最重要组成部分。对这部分资源的网络信息提供者来说,若想使自己的资源出现在搜索引擎中,可以用统一的框架、协议规范数据库。在众多网络数据库协议中, OAI (Open Archives Initiative for Metadata Harvesting)框架协议是应用较广的一个,该协议是 1999 年美国数字图书馆联盟(DLF)、网络信息联盟(CNF)等组织提出的一个应用框架。最初是为了解决电子期刊预印本的互操作和元数据收割问题。2001 年, OAI协议的应用扩大到数字图书馆领域,目的是实现分散的、不同系统平台之间的元数据交换和共享,提高系统的互操作能力。2003 年, ALCTS (Association for Library Collections &Technical ServicesPrograms)的年度会议项目(ALCTS Annual Conference Programs )为:Metadata Harvesting: Using the Open Archives Initiative Protocol to Expose the Deep Web。该项目旨在利用OAI协议,把元数据思想应用到的Deep Web研究中,以便获得更好的检索效果。如果所有的深层网络资源数据库都采用这种协议,再利用专门针对这种框架的网关接口,那么深层网络资源就可以展现出来了。
所谓信息服务者是指搜索引擎公司、网站目录制作者、搜集各种资料并提供检索的机构或个人。他们是专业的信息组织者,其任务就是使各种资源得到有效的利用。就目前情况来看,信息服务者可从以下几个方面努力来探索隐蔽网络信息资源。
1.优化现有搜索引擎的工作模式。通用搜索引擎本身的搜索能力存在着局限性,导致了隐蔽网络的出现,而搜索局限性主要来自技术原因和经济原因。因此,要克服隐蔽网络问题,从搜索引擎方面来说,就要从这两个因素着眼。
(1)技术因素。一方面,构建面向隐形Web资源的网络爬虫,制造更智能化的蜘蛛。对蜘蛛来说,现在遇到的最大障碍是各种表单。大量的隐蔽网络资源都是因为蜘蛛不会填写表单而出现的。我们可以通过构建更灵活的网络爬行器,突破目前蜘蛛搜索中遇到的障碍,力图尽可能多地、更有效地发掘隐蔽网络中的信息。目前,几个旨在创造更智能化搜索引擎蜘蛛的计划正在实施中,这种蜘蛛能够自动填表和检索信息。该蜘蛛采用两种最基本的办法,一是采用事先设置好的代理程序与特定数据库的表单进行交互;二是利用人工智能技术猜测表单所需内容,使蜘蛛能够透过表单进入数据库内部检索信息。这些技术若能够被搜索引擎广泛使用,则会大大改善现状。其中,南洋理工大学几个研究者已经研制成功一套能够自动填写表单的隐蔽网络查询系统DEQUE (Deep WEb QUery SystEm),他们建立了表单数据模型,并设计了一套DEQUEL查询语言,能够利用复杂多变的客户端脚本程序。
另一方面,采用元搜索技术,实现分布式检索。改进搜索技术,优化现有专业搜索引擎的工作模式和工作机制,注重协作策略的运用,使之能搜索更多格式的文件。据此, King-Ip Lin等设计了一个多元专业搜索系统,集合互联网上的多个专业搜索引擎,自动查找和标引隐蔽网络资源。目前,搜索引擎对很多网络数据库无能为力,采用分布式检索技术的Proprietary Software看起来更有发展潜力。分布式检索隐蔽网络可以分为如下两步:第一步,用户的检索请求被同时推送到多个网络数据库;第二步,各个数据库的检索结果经过一定处理返回给用户。这种技术目前存在着一些障碍,分布式技术现在还很不成熟。
(2)经济因素。很多资源之所以落入隐蔽网络之中,经济因素是一个不可忽视的原因。搜索引擎公司是商业机构,获取利益是他们的最终目标。若索引某些资源需要很高的成本,在效用与成本之间他们往往要仔细权衡,最终可能只索引一部分这样的资源。我们不能责怪搜索引擎公司的利益顾虑,这方面的障碍是很难处理的。最好的解决办法就是技术上的突破,带来成本的下降。
2.建立隐蔽网络的专门目录。隐蔽网络目录是针对搜索隐蔽网络资源的专门检索工具,目前已经存在一些这样的工具。例如:
(1) Librarians.Index to the Internet (http://lii.org/),一个可以信赖的经过图书馆员筛选的含有 14000 多个网站的有评注的主题目录,该网站包括可见资源和隐形网络资源。
(2 ) The Invisible Web Directory (http://www.invisible-web.net/),《看不见的网站》的作者Chris Sherman和Gary Price创办的专门用于指导检索Invisible Web资源的网站,该网站资源广博、价值高。
(3) Direct Search (http://www.freepint.com/gary/direct.htm),最具权威的用于检索“看不见的网页”的网站,拥有数量庞大的Invisible Web资源链接。
(4) Academicinfo (http://www.academicinfo.net/),学术资源主题指南,提供一个适合教授教学计划和大学生研究论文的素材。
(5) CompletePlanet (http://www.completeplanet.com) Bright Planet致力于公共的、文本内容,不包括防火墙后的私人数据、 e-mail,非HTML文档、图像、音乐和视频信息,可检索 100 000 个深网网站。此外, FindLaw, Profusion, InfoMine等都是搜索“Invisible Web”的指南。
作为信息时代网络资源的组织与导航者,以及资源提供者与利用者的图书馆,是否已经意识到隐形网络的巨大潜力和价值?笔者认为,图书馆应用和开发隐形网络,应从以下几个方面考虑:
1.建立隐蔽网站的导航或学科信息资源指引库。高校图书馆可以根据本校的专业设置和重点学科,组织学科馆员多途径、多角度进行搜集,对分散的某一学科的大量学术隐蔽网络资源进行筛选、过滤和重组,建立隐蔽网络导航或相应的学科信息资源指引库,置于图书馆主页,力图就某一个学科比已有的隐蔽网络门户网站做得更专业、更具特色。
2.将“隐形网络”作为信息素质教育的一项内容。此举不仅能提高用户网络信息搜索能力,更能激发他们探索网络奥秘的好奇心。较有代表性的是加州大学伯克利分校的隐形网络教程;再如,美国兰格地亚社区学院图书馆馆员在其“图书馆研究指南”的讲座中,把隐形网络作为开场白,很好地吸引了学生的注意力。用户培训的方式可多种多样,既可在文检课教学中加入此项内容,也可结合“一小时讲座”、“因特网导航”等培训课程,指导用户进行实际操作,讲解检索技巧。对于科研人员,则更需强调对其进行特定主题、多种形式的培训。可结合学科馆员的工作灵活开展,如在学术活动、报告会之余进行单主题、短时间的小型讲座;采用电子邮件推送、网页留言板的形式,主动向科研人员介绍隐形网络的有关知识。
3.通过元搜索引擎、组织统一检索平台等方式,提高图书馆电子资源的可见度。具体方法有: a.OPAC系统与电子资源的整合。 b.通过OPAC系统检索其他图书馆的馆藏信息。美国Texas大学就通过引入Z39.50 协议使该馆的OPAC与该州 60 所公共图书馆和 25 所高校图书馆联结在了一起。
信息检索者是整个信息活动的终结者。一方面,信息检索者可以充分享用上述三者的劳动成果;另一方面,信息检索者绝不是完全被动的,而是主动地获取隐蔽网络资源。
1.培养信息意识。检索者要意识到隐蔽网络占据了整个网络资源的很大一部分,而且价值高、数量大,所以检索不能局限于普通的搜索引擎。
2.改善用户个人搜索策略。隐蔽网络资源是通用搜索引擎不能索引的资源,这里所说的不能索引是不能索引其内部资源,而不是说搜索引擎找不到隐蔽网站的入口。我们可以利用普通搜索引擎间接查找“隐蔽网络”,如在Google中输入“关键词+ filetype: pdf”便可找出PDF文档,输入“pediatrics database”就能查到儿科学方面的数据库,然后要做的就是进入数据库内部,利用数据库所提供的检索工具进行查找。用户也可以直接查找专门的隐蔽网络搜索工具,如前面提到的LII, The Invisible Web Directory和FindLaw等。
3.利用个人信息管理软件。在利用网络进行检索时,应该培养一种良好的检索习惯,把检索过程中发现的有用资源及时添加到收藏夹保存起来并定期整理,建立自己的个人查询目录。我们可以使用网上免费的个人信息管理软件来管理自己的文件和资料,此类软件有DailyPIM, EssentialPIM, UU Point Endnote等。利用这些工具能够合理有效地搜集知识,保存知识和对知识进行分类,是组织和利用网络等资源的好工具。
隐蔽网络的出现使我们认识到,网络信息资源组织中存在问题,但需要各方的共同努力才能使这个问题得到缓解。有效的网络信息资源控制是全面的,仅仅依靠技术等微观办法不能从根本上解决隐蔽网络问题,网络信息资源的宏观控制必不可少。
网络信息资源组织与控制是一种事业,而不是商业。政府有义务让公众充分利用网络信息资源,这是社会文明进步的标志。任何商业机构,出于其自身利益的考虑,会放弃对社会有益但无利可图的服务,而选择和提供有利可图的项目。从人类整体利益来看,网络信息资源管理应和图书馆事业一样,实行“终身制”,而只有政府才能把这样的事业长久地维持下去。互联网信息资源的组织与控制不是某个或某些国家的责任。目前,人们缺乏网络检索技能,一般用户只会利用少数几个搜索引擎,通过出版隐蔽网络使用指南,可以普及网络检索知识,从而大大改善这种状况。
基于以上情况,我们提出网络信息资源宏观控制的设想:①建立一个国际互联网信息资源控制中心组织(UIIRCO),负责组织、协调各国在网络信息资源控制与管理方面的工作;②各国政府应对其管辖范围内的网络信息组织管理工作负有责任,并设立专门机构履行该职责;③制订统一的网络信息资源组织标准,使用统一的搜索工具,共建网络信息资源索引数据库,实现跨库检索;④定期出版国际互联网信息资源有关刊物和使用指南等资料。