购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第四节
隐蔽网络研究文献计量学分析

Dr.Jill Ellsworth于 1994 年首次在互联网领域使用了Invisible Web一词,意指那些对于常规搜索引擎难以发现的信息内容。自 1999 年开始,国外针对Invisible Web的研究相当热烈,以美国一些互联网专家、图书馆员、信息学者为主的研究人员对隐蔽网络进行了深入的探讨,并将研究结果以论文、学术著作和学术报告的形式发表出来。从对OCLC First Search数据库系统的检索结果来看,目前在这个研究领域已有数本英文著作,比较权威的专著有Chris Sherman和Gary Price合著的《The Invisible Web: Uncovering Sources Search Engines Can.t See》(2001)等,相关论文的数量则达几百篇。

与国外众多的成果形成对照的是,我国国内对隐蔽网的研究起步较晚,2002 年才有人发表此方面文章(以“隐性信息”为关键词),数量也不多,目前国内所发表的有关隐蔽网的文章只有约 50 篇。 Invisible Web资源无论在质量还是数量上,与可见网络相比,均占优势,具有重要的应用价值。在这里分析我国隐蔽网络论文的发表情况,希望能对我国隐蔽网络研究的开展提供参考。

一、数据来源和分析方法

笔者选取《中国期刊网》、《中文维普科技全文数据库》和《万方数据资源系统》的中国数字化期刊群作为检索工具,统计文献从 1989 ~ 2007年底为止。分别采用关键词、题名、主题和基金四种检索途径,以“隐蔽网络、看不见的网络、深层网络、深网、隐形网络、 Invisible Web和Deep Web”作为检索词;检索过程中发现 2002 年始有“隐性信息”方面的文章实际上也是“隐蔽网络”的内容,故增加检索词“隐性信息”。

通过Access的SQL语言或Excel的排序功能去掉重复的和不相关主题内容的论文,最后共得出 2002 年以来我国有关隐蔽网络研究的论文 50 篇;并利用文献计量学的方法,对论文总量的变化趋势、期刊分布、主题分布、作者机构分布等方面进行了统计分析。

二、论文统计分析

(一)论文发表年代分布

表4 隐蔽网络研究论文的时间分布

从表 4 可知,2002 年我国才出现“隐性信息”的一篇文章,2003 年始有关键词为“看不见的网站”和“隐性信息”各 1 篇论文。2004 年达到 8 篇,是上一年的 4 倍,增长幅度较大;随后几年,国内关于隐蔽网络的研究总体上逐年稳步增长,这符合普赖斯文献指数增长规律以及文献逻辑增长规律。但总的来说,近几年我国隐蔽网络的研究并不热烈,成果寥寥,说明我国并没有给予太多重视。

(二)论文主题分布

隐蔽网络研究的论文所涉及的主题内容非常广泛。从微观角度出发,该主题论文大致分为:隐蔽网络及检索策略研究, deep web查询、分类、聚类与系统实现,隐蔽网络资源的采集与整合、提取与集成,隐蔽网络宏观控制、技术上应对策略,高校图书馆隐蔽网络资源开发利用,介绍美国深网实践工作和比较分析等七个方面(见表 5)。

表5 主题内容分类

1.隐蔽网络及检索策略研究。从表 5 中可以看出,关于隐蔽网络及检索策略的研究文章数量最多,占了总文献的 52%。主要阐述隐蔽网络的概念和规模,分析其形成原因,介绍隐蔽网络的检索策略。 Sherman和Price把“隐蔽网络”定义为:虽然通过互联网可以获取,但普通搜索引擎由于技术限制而不能,或者经审慎考虑后而不作索引的那些文本页、文件或其他通常是高质量、权威的信息。

Bright Planet公司研究结果显示:隐蔽网络的容量有 7500TB,而表面网只有 19TB,隐蔽网络有近 5500 亿个独立文件,而表面网只有 10 亿,隐蔽网络中的公共信息数量是表面网的 400 ~ 550 倍;而质量价值是表面网的1000 ~ 2000 倍;一半以上的隐蔽网络内容存贮在专题数据库中;95%的隐蔽网络信息可以公共获取而无需付费或订阅。可以肯定:隐蔽网络的规模远远大于表面网,并且将持续性地高速增长。

Sherman和Price把隐蔽网络划分为不透明网络、私人网络、专有网络和真正的隐蔽网络四种类型。隐蔽网络的形成有技术原因,也有出于商业考虑的经济原因,还有些知识产权方面的因素。根据其形成的不同原因,其内容可分为: a.未被链接的网页; b.动态生成的网页; c.网上可检索的数据库; d.实时数据; e.部分非HTML格式文件; f.需要密码或注册的网站; g.其他难以搜索的内容等七种,数据库里的信息内容构成隐蔽网络的核心。

隐蔽网络检索策略包括:利用普通搜索引擎间接查找“隐形网络”;利用专门搜索“Invisible Web”的检索工具等。

2.deep web查询、分类、聚类以及系统设计与实现。此类文章也较多,12 篇,占总文献量的 12%,主要介绍Deep Web查询接口的各种类型,研究基于查询接口特征的数据源聚类方法和基于聚类结果的数据源分类方法,讨论从基于规则与线性文档分类器中抽取查询探测集的规则抽取算法和Web文档数据库分类的查询探测算法。该主题是计算机技术类,撰写该主题的作者也大多是计算机、信息工程与自动化院系的教师。

3.隐蔽网络资源的采集与整合、提取与集成。该类文章有 4 篇,主要论述采用人工采集、自动化采集、人机结合采集隐蔽网络资源的收集方法,采用对资源的规范与标引及建立跨库检索平台等方法对资源加以整合。介绍隐蔽网络信息集成的模型,分析目前界面提取、模板匹配、结果组合技术的特点和不足,并提出相应的改进方法。

4.隐蔽网络宏观控制、技术上应对策略。隐蔽网络的出现说明,网络信息资源组织中存在问题,需要各方的共同努力才能使这个问题得到缓解,有效的网络信息资源控制是全面的,政府支持的宏观控制和技术改进的微观办法缺一不可,同等重要。但我国研究此类主题的文章不多,目前仅 3 篇。

5.高校图书馆隐蔽网络资源开发利用。隐蔽网络资源学术价值高,受到国内外学者、研究人员、高校教师和学生的青睐。但高校图书馆如何开发利用这部分资源,目前国内研究并不深入。而隐蔽网络资源的采集与整合与此有交叉之处,介绍了高校图书馆网络导航采集隐蔽网络资源的收集方法,实为高校图书馆应对隐蔽网络资源之策略。

6.介绍美国深网实践工作。该类文章有 2 篇,专门介绍美国的深网实践工作。如BrightPlanet公司的BrightPlanet (r) -Home项目和Yahoo公司的Content Acquisition Program项目。美国BrightPlanet公司是一家专门从事数据整合和企业信息分析的公司,开发了深网检索平台工具DQM (Deep Query Manager)。2004 年 3 月,雅虎公司推出了Content Acquisition Program服务,这项服务的主旨是将公众数据库重的数以亿计的文件编入索引之中。为此, Yahoo与国会图书馆、几所大学进行了合作,该项目能接触到100 ~ 1000 亿个深网。

7.比较分析。隐蔽网络与其他概念的比较研究只有 1 篇,马费成和张婷所撰写的“看不见”的网站与学科信息门户的比较分析,在隐蔽网络研究上有所突破;该文指出,在结构设计上、信息用户提供的功能、在学科专业研究方面所起的作用三方面,隐蔽网络与学科信息门户存在很大不同。但二者也存在着很深的联系,它们都运用了数据库技术对信息进行存储与加工,一般都可进行浏览和检索,有着比较复杂的检索机制。虽然所存储信息的深度不同,但是都对专业研究作用巨大。

笔者发现,隐蔽网络与开放存取也有一定关系,开放存取资源有相当一部分是隐蔽网络资源。而且,隐蔽网络实质上是网络信息组织问题。这两者的关系也值得探讨。

从以上论文分析,我国对隐蔽网络的研究一直偏向于理论介绍,一半以上是阐述隐蔽网络概念、分析其特点和形成原因,提出检索策略。在技术措施方面,图书情报学界很少涉猎,主要是计算机届参与。相对所有主题,隐蔽网络教育的研究、图书馆开发利用研究以及比较分析研究涉入少。

(三)论文发表的期刊源统计

1.期刊类型分布。据统计,50 篇论文分布于 30 种期刊中,其期刊种类分布如表 6。

表6 具体期刊分布情况

由表 6 可知,图书情报类期刊为隐蔽网络主题的研究提供了学术探讨空间,共载文 37 篇,占总数的 74%,论文期刊分布符合布拉德福的文献集中与分散定律;其他分散在非专业期刊中,主要有计算机技术类和学院学报类。学报类 4 篇,主要是deep web查询方面的论文,计算机技术类 9篇,探讨deep web查询、分类、聚类以及系统设计与实现,反映出学科研究的交叉渗透。

2.高载文量期刊分布。如果将发文 3 篇以上期刊视作高载文期刊,它们的具体信息如表 7 所示。

表7 载文期刊统计

从表 7 可知,在 2002 ~ 2007 年 6 年间,关于隐蔽网络研究载文最多的7 种期刊均是图书情报信息类期刊,其中核心期刊 3 种;发文 2 篇的期刊有两种属于计算机技术类的,4 种图书情报类的核心期刊;说明图书情报界是隐蔽网络研究的主要领域。

(四)论文著者的统计分析

在所统计的 50 篇论文中,共有作者 66 人,其中以第一著者身份发表的有 45 位。

1.论文合著分析(见表 8)

表8 隐蔽网络论文合著统计

表 8 的数据表明: a.参与隐蔽网络研究的著者较多,但著者的平均发文量少; b.以独著为主,占所有著作方式的 52%。笔者查阅得知,3 人合著、4 人合著多为近两年现象,说明在此课题研究中,虽然以独著为主,但是开始注重合作研究。

2.发表论文篇数的著者统计(见表 9)

表9 发表论文篇数的著者统计

从图表 9 中我们可以看出,绝大多数的作者只发表了 1 篇论文,占作者总数的 78.9%。发表 2 篇论文的作者占作者总数的 13.6%,发表 3 篇以上论文的作者占作者总数的 6%。根据检索结果,界定发表论文在 3 篇以上的作者为核心作者,如表 10 所示。

表10 核心作者表

在这 4 名作者中,崔志明是发文最多的,发文 6 篇;赵朋朋和黄青松发文数量位居第二,均发表论文 4 篇,但崔志明和黄青松这两人都不是以第一作者的身份发表论文。从数据中可以看出,赵朋朋所发的 4 篇文章中均有崔志明参加,表明这两位作者之间有比较紧密的合作关系,并在隐蔽网络研究领域内取得了优秀的成果。

苏晓珂发表了 3 篇文章,其中 2 篇以第一作者身份发表,且苏晓珂发表的 3 篇论文中均有黄青松参加,说明这两位作者之间有比较紧密的合作关系,并在隐蔽网络研究领域内取得了优秀的成果。赵朋朋和苏晓珂是博硕士研究生,崔志明和黄青松是研究生导师。这四位核心作者主要从事智能信息系统、智能化信息处理方面的研究。

马费成、张婷分别以第一、第二作者身份发表了 2 篇论文,另外马费成等翻译了Sherman和Price的著作《看不见的网站: Internet专业信息检索指南》,该译著于 2003 年出版。由此可知,马费成、张婷两位作者在隐蔽网络研究领域内做出了突出的贡献。

(五)著者机构统计

1.著者所在省份分布(见表 11)。

表11 著者所在省份前8 位分布表

从统计结果看,论文著者遍及全国 14 个省 2 个直辖市,江苏省和湖北省发文数最多,分别占总数的 22%和 14%。发文数最多的江苏省有 11 篇论文,而最少的省只有 1 篇;由此可见该课题研究作者分布范围较广,地区间不均衡,没有形成规模的集中研究区域。

2.著者机构分类统计。按机构性质不同将论文著者的机构分为高校院系、图书馆、研究院和企业进行统计,如表 12 所示。表 12 表明,高校院系的发文量是最多的,达 29 篇,占 58%,此数据包括高校的管理院系、研究所和计算机工程与自动化系;图书馆发文次之,均为高校图书馆,达19 篇,可见高校是隐蔽网络研究的主体。高校的计算机工程、自动化院系的研究主要是技术上的,但其他单位的研究大多集中在理论层面上,缺少实践经验。

表12 著者机构分类统计

表13 核心机构统计

发文量前四位的作者机构,如表 13 所示。可见,隐蔽网络领域已形成一些研究机构的雏形,且主要集中在高校的信息管理系和信息工程与信息处理研究所,如苏州大学智能信息处理及应用研究所、武汉大学信息管理学院、中山大学信息管理系和昆明理工大学信息工程与自动化学院。

(六)基金论文分布(见图表 14)

表14 基金论文分布

表 14 的数据表明:自 2004 年以来,隐蔽网络研究论文得到 5 项省部级基金支持。因国家自然科学基金项目(60673092)资助的 1 篇论文同时受到教育部科研重点项目、教育部高校博士学科点科研基金和江苏省高技术研究计划项目的资助,故基金资助项目实际上为 8 篇论文。从发文量看,得到基金资助的机构发文量多,其中教育部科研重点项目、教育部高校博士学科点科研基金和江苏省高技术研究计划项目资助的苏州大学智能信息处理及应用研究所的研究论文最多,共 6 篇,占基金论文数的 75%。

以上表数据说明隐蔽网络已经成为网络信息资源检索的一个新的研究领域,吸引了越来越多的研究者,并得到了从国家到高校各级各类研究部门的重视和支持。

(七)引文文献的统计分析

笔者对 50 篇关于隐蔽网络研究论文的参考文献进行统计,国内研究目前并不很热烈,故引用外文资料的较多,引用最多的外文是Sherman和Price的“ The Invisible Web: Uncovering Sources Search Engines Can.t See”以及Exploring the Invisible Web; Bergman的“ The Deep Web: Surfacing Hidden Value”等。中文论文被引率较高的有马费成、张婷的“获取看不见的网络信息资源的有效途径”,黄晓冬的“ Invisible Web研究综述”,吴志强、严贝尼的“从隐蔽网络到国际互联网信息资源控制计划”、陈红勤的“埋藏的web财宝——隐形网络的搜索利用”等。

总之,自“隐蔽网络”的概念引进以来,我国隐蔽网络研究吸引了越来越多的研究者,各年度的文献量呈直线上升趋势,高校教师在重要作者群中占有很大比例,图书情报界仍然是我国隐蔽网络研究的主要力量。但还应该清醒地认识到:隐蔽网络研究的力度和深度还不够,论文数量增长缓慢,作者人均发文量不高,没有形成核心作者群,图书馆应对隐蔽网络的研究还很欠缺,隐蔽网络教育的研究也明显不足。不过随着国内外网络信息资源组织的完善和搜索引擎功能的不断提高,接下来的几年里,隐蔽网络研究将会得到更快、更深和更广的发展和应用。 tky7qb7Brumxw50ZeJJr8PK74g1apbMMixFeDJJ8hGvkZY8GfHweoJVif8SP4Dnk

点击中间区域
呼出菜单
上一章
目录
下一章
×