购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第一节
信息检索基础

一、信息检索概念

“信息检索”(Information Retrieval,IR,我国早期译为“情报检索”)一词最早于1952年,由美国学者穆尔斯(C.W.Mooers)提出,从1961年开始在学术界和实践领域中得到广泛的应用。信息检索是指信息按一定的方式组织起来,并根据信息用户的需求找出有关的信息的过程和技术。

信息检索有广义和狭义的之分。广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”(Information Search或Information Seek),是指从信息集合中找出用户所需要的有关信息的过程。狭义的信息检索包括3个方面的含义:了解用户的信息需求、信息检索的技术或方法、满足信息用户的需求。

二、信息检索原理

信息检索的基本原理是:通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,在统一存储和检索过程所用检索语言和名称规范的基础上,将用户表达检索课题的标识与检索系统中表达文献信息内容和形式特征的标识进行比对,从而在系统中检索输出与用户需求相符的文献信息。

信息检索的基本原理可以用图2-1表示:

图2-1 广义信息检索的基本原理

从上图可以看出,信息存储和信息检索有两个交汇处:一个是直接的,即表达信息主题内容的词语与表达需求主题内容的词语之间进行对比的交汇;另一个是间接的,即通过检索语言进行沟通,确保把存储用词和检索用词都统一到同一个检索语言体系中。

三、信息检索的类型

信息检索根据检索的目的和对象不同,可以分为书目信息检索、全文信息检索、数据信息检索和事实信息检索。

(一)书目信息检索

以标题、责任者、摘要、来源出处、专利号、收藏处所等为检索的目的和对象,检索的结果与课题相关的一系列书目信息线索,即检索结果不直接解答课题用户提出的技术问题本身,只提供与之相关的线索供参考,用户通过阅读后才决定取舍。因此,书目信息检索是一种相关性检索。

(二)全文信息检索

以论文或专利说明书等全文为检索的目的和对象,检索的结果是与课题相关的论文或专利说明书的全部文本,检索结果也不直接解答用户提出的技术问题本身。因此,全文信息检索也是一种相关性检索,它是在书目信息检索基础上更深层次的内容检索。通过对全文的阅读,可进行技术内容及技术路线的对比分析,掌握与研究课题的相关程度,为研究的创新点提供参考与借鉴。

(三)数据信息检索

以具有数量性质,并以数值形式表示的数据为检索的目的和对象,检索的结果是经过测试、评价过的各种数据,可直接用于比较分析或定量分析。因此数据信息检索是一种确定性检索,如各种物质的物理化学常数、各种统计数据、工程数据等都属于数据检索范畴。

(四)事实信息检索

以事项为检索的目的和对象,检索的结果是有关某一事物的具体答案。因此事实信息检索是一种确定性检索。但是事实信息检索过程中所得到的事实、概念、思想、知识等非数值型信息需进行分析、推理,才能得到最终的答案,因此要求检索系统必须有一定的逻辑推理。目前,较为复杂的事实信息检索课题仍需人工完成。例如,要想得到中国发明专利的申请案中,国外来华申请历年所占的百分比是多少这一事实信息,就需要对历年的数据进行统计,然后进行比较分析,才能得出具体答案。

综上所述,书目信息检索是从存储有标题项、作者项、出版项或文摘项的检索系统中获取有关的信息线索,如利用各种目录、题录和文摘检索系统或书目数据库。全文信息检索是从存储整篇论文、专利说明书乃至整本著作的检索系统中获取全文信息,如利用各种论文全文数据库、专利说明书数据库系统。数据信息检索是从存储有大量数据、图标的检索系统中取数值型信息,如利用各种手册、年鉴、图谱、表谱等检索系统。事实信息检索是从存储有大量知识信息、事实信息和数据信息的检索系统中获取某一事项的具体答案,如利用百科全书、年鉴和名录等工具检索。

四、信息检索系统

信息检索系统是指为满足信息用户的需要而建立的,存储有经过整理的信息集合,拥有一定存储、检索与传送技术设备,提供一定的存储与检索方法及检索服务功能的工作系统。简单地说,信息检索系统即信息存储和检索的系统。信息检索系统按检索手段可分为手工检索系统和计算机检索系统。

(一)手工检索系统

使用的主要是书本型、卡片式的信息系统,如书目、索引、文摘和各类工具书。检索过程是由人脑和手工操作的配合来完成的,用户的需求愿望和目录体系中概念的匹配通过人脑的思考、比较和选择来实现。具有方便、灵活、判断准确、可随时根据需求修改检索策略、检全率高的特点。但由于全凭人的手工操作,检索速度慢,效率低,不便于实现多元概念的检索。

当计算机的应用还没有普及之前,手工检索系统是信息检索的主要形式。目前,计算机检索已成为信息检索的主流,但在对一些特别文献信息的检索上,手工检索在信息检索中仍发挥着重要的作用。

(二)计算机检索系统

计算机信息检索系统又称现代化检索系统,是用计算机技术、电子技术、通信技术、光盘技术、网络技术等构成的存储和检索信息的检索系统。系统包含计算机设备、终端、通讯设施、数据库和检索应用软件等,信息检索的对象是数据库,信息检索过程由人、机协作完成。

计算机检索的主要特点有:检索速度快,能大大提高检索效率,节省人力和时间;采用灵活的逻辑运算和组配方式,便于进行多元概念的检索;能提供远程检索,不受时空、地点的限制。

计算机检索,又分为脱机检索系统、联机检索系统、光盘检索系统和网络检索系统四种。

1.脱机检索系统

20世纪50年代,脱机检索系统是一种通过磁带、以脱机批处理方式操作、以计算机为基础的检索系统。它是计算机信息检索的早期形式,适用于接受大量提问的检索服务。

2.联机检索系统

20世纪60年代以来,联机检索系统是一种把检索中心和检索终端用通信线路直接连接,由终端装置输入提问并直接获得答案的检索系统。例如DIALOG、MEDLARS、STN等联机检索系统。联机检索的特点就是可以不受地理位置影响,在检索过程中可以随时修改检索策略。检索结果可以有多种输出方式,但它也存在着费用昂贵、检索人员必须熟悉不同检索系统的检索语言等缺点。进入90年代后,国际互联网的发展使得联机信息检索向网络信息检索发展,网络信息检索服务已成为联机检索阶段的延伸。

3.光盘检索系统

20世纪70年代末以来,光盘检索系统是以光盘为存储介质、利用光盘驱动器和计算机实现对光盘数据库读取和检索的系统。光盘信息检索服务是利用光盘数据库开展的信息检索服务。光盘(Compact Disc,简称CD)是在激光视频录放技术基础上发展起来的光存储技术,具有信息密度高、成本低、容量大等特点。

4.网络检索系统

20世纪90年代以来,网络信息检索系统是通过现代通信网络、利用网络信息检索工具如网络信息浏览软件和搜索引擎来浏览和检索各种网络上分布的数据库等特定信息的系统。现在,以WWW为代表的网络信息检索系统正以其无可比拟的优越性成为功能最强、发展最快的一种现代信息检索系统,成为当今信息时代的一个重要标志。从广义上说,局域网内的光盘检索服务和现阶段的国际联机检索也都属于网络信息检索范畴。目前,由于局域网内光盘信息检索所存在的要求存储器越来越大的缺点,许多信息服务机构和出版商都提供了光盘检索数据库的网络版,读者可以通过网络直接在Web界面检索使用供应方服务器上的数据库。

五、信息检索工具

信息检索工具按照不同的标准可以划分为以下几种类型:

(一)按文献信息检索手段分

手工检索工具指各种印刷型检索工具;计算机检索工具指各种机读制品和缩微制品检索工具。

(二)按收录文献的范围分

1.综合性检索工具

它的特点是收录范围广,涉及多门学科。如美国的《工程索引》、英国的《科学文摘》等。

2.专业性检索工具

它的收录范围仅限于某一学科领域。例如国内的《铁道文摘》、《工程机械文摘》,美国的《化学文摘》、《金属文摘》等。综合性、专业性检索工具报道的文献类型常常是多样性的,如期刊论文、图书专著、会议文献、科技报告、专利文献等。

3.单一性检索工具

它只收录某一种类型的文献,学科范围可广可窄。如:期刊论文检索工具有国内的《全国报刊索引》;专利文献检索工具有英国的《世界专刊索引》等;另外还有查找会议文献、科技报告、技术标准、学位论文等的单一性检索工具。

(三)按载体形式划分

可分为书本式、卡片式、缩微制品、磁带和磁盘式、光盘制品等形式

(四)按对收录文献揭示方式分

可分为目录、题录、文摘和索引

1.目录

目录是揭示出版物外部特征的检索工具。即以“本”为单位报道文献,不涉及书中的具体章节或期刊中的具体文章。如:《全国总书目》、《全国新书目》、出版发行目录、图书馆馆藏目录、图书馆联合目录、专题文献目录等。

2.题录

题目是以单篇文献作为报道单位,揭示文献外部特征的检索工具。其出版周期短,著录比较简单,著录项目通常有文献号(题录号)、文献篇名、作者及工作单位、原文出处等。其主要功能特点是报道文献线索、揭示文献的深度比目录大。

3.文摘

文摘是描述文献外部特征和内容性的检索工具,由于具有题录和报道文献主要内容的双重功能,所以便于读者及时了解文献的基本内容,从而筛选所需文献。因此其检索功能强于题录,是检索工具的主体性类型。根据对文献内容的揭示和报道详细程度,文摘可分为指示性文摘和报道性文摘。指示性文摘,主要是对文献的题名作解释性说明,即对文献所探讨的范围和目的作简要介绍,为用户选择文献提供一定的参考,其字数一般在100字左右。报道性文摘,是对文献原文信息的主要内容进行浓缩,与指示性文摘相比,介绍文献信息的内容既高度概括,又更加有针对性,所以,有利于用户及时了解文献的主要内容,判断是否需要索取原文,提高文献阅读效率。

4.索引

索引是将文献中某些主要的、具有检索意义的内容特征标识或外部特征标识按某种顺序排列,并注明文献条目线索的检索工具。其款目有按主题词字顺排列的主题索引;按作者姓名字顺排列。其款目有按主题词字顺排列的主题索引;按作者姓名字顺排列的著者索引等。索引常附于检索工具的后部,是检索工具的主要组成部分,它为查找文献提供了多种检索途径。有的检索工具本身全由索引构成,如美国《科学引文索引》(SCI)等。

索引的组成主要有索引款目和参照系统两部分。索引款目是索引的主要部分,每条索引款目通常由文献特征标识、说明语、地址三项组成。标识是识别特定款目的主要标志,用户利用它可以迅速检索到有关款目,并可找到所需文献的线索。采用不同的标识,汇集与某标识有关的文献信息就构成了不同的索引。说明语用来细分同一标识下所汇集的不同文献的题名。地址则说明索引中所涉及的某篇文献的线索,如页码、题录或文摘的顺序号等。

参照系统主要包括各种参照和表示注释。

六、信息检索意义

信息,是与物质、能源并列的第三大能源,在现代社会,人们的生活、学习、工作、研究的各个方面,都与信息紧密相关,信息,已成为人类不可或缺的一种资源;另一方面,由于各种技术的发展,人类进入了一个信息爆炸的时代,面对各种垃圾信息、无效信息的干扰,如何快准全地检索到所需的信息,成为决定人、事成败的关键因素之一,对个人和社会都有着重要的意义。

(一)把握科研动态,避免无效劳动

随着科学技术的发展,各种新理论、新观点、新技术层出不穷。只有时时搜集研究相关文献信息,才能把握研究领域的学科前沿,才能避免重复别人的劳动或者走弯路。比如,我国某研究所用了约十年时间研制成功“以镁代银”新工艺,满怀信心地去申请专利,可是美国某公司早在20世纪20年代末就已经获得了这项工艺的专利,而该专利的说明书就收藏在当地的科技信息所。科学研究最忌讳重复,因为这是不必要的浪费。在研究工作中,任何一个课题从选题、试验直到出成果,每一个环节都离不开信息。研究人员在选题开始就必须进行信息检索,了解别人在该项目上已经做了哪些工作,哪些工作目前正在做,谁在做,进展情况如何等。这样,用户就可以在他人研究的基础上进行再创造,从而避免重复研究,少走或不走弯路。

(二)提高科研效率,节省研究时间

科学技术的迅猛发展加速了信息的增长,人类拥有的信息量以指数函数的速度急剧增加,倍增的时间周期越来越短的现象。信息爆炸的直接结果是其所产生的信息洪流以前所未有的力量冲击着社会的政治、经济和文化,改变着人类社会的结构和形态,并推动着信息社会的到来。而信息检索是研究工作的基础和必要环节,研究表明,科研工作中,检索文献信息的时间占整个科研时间的40%-50%。如何在信息海洋中又快又准又全地检索出所需要的信息,对节省科研时间,提高科研效率具有重要的意义。

(三)提高信息素养,改善知识结构

社会不断前进,知识日益更新。传统教育培养的知识型人才已满足不了信息时代的需求,新形势要求培养的是能力型和创造型人才,要提高人们的信息素养,改善知识结构。不仅要掌握知识,更要掌握方法;不仅要掌握信息,更要掌握信息检索的技术。

(四)掌握全面信息,增强决策科学

掌握一定量的必要信息,是进行研究、搞好工作的首要条件,也是进行科学决策的前提。科学的决策,源于对信息资料的充分了解与认识,信息检索是国家、部门、单位和个人等决策者获取信息的重要途径。因此,信息检索会使国家、部门、单位和个人的决策建立在科学基础之上,大大增加了决策的科学性,减少了决策的盲目性。

(五)提高信息水平,促进社会发展

社会的进步和经济的发展,推动了信息的产生、流通和使用;反过来,信息的生产:流通和使用方式的变革,又将促进社会和经济的进一步发展。 kHr2Z9sLsoD4cgKqImHkVNdZiUkUVop0SZEqErMI1EKe3Fe9l+Q+k1g+M0+VgkZs

点击中间区域
呼出菜单
上一章
目录
下一章
×