对于计算机信息检索数据库来说,一般由字段、记录、文档和辅助部分4项组成。下面以美国Ei Compendex数据库中的一个记录为例来说明计算机检索系统的结构。
文档(file)是书目数据库和文献检索系统中数据组成的基本形式,是由若干个逻辑记录构成的信息集合。从数据库的内部结构来看,通常一个数据库至少包括一个“顺排文档”和一个“倒排文档”。
(1)顺排文档(linear file):全部同类型文献记录的集合形成数据库。如果数据库的每一篇文献记录都是顺序地按线性结构排列的,则构成“线性文档”。线性文档中的文献记录是按其存取号大小的顺序排列的,故又称为“顺排文档”。
如果没有索引文档配合,要对顺排文档进行机检,计算机就要逐一扫描数据库中的每条记录。这样逐篇查阅这些顺排文档进行检索是很费时间的,检索效率太低。为了提高检索效率,就要建立索引文档,也称为“倒排文档”。
(2)倒排文档(inverted file):对数据库重新组织,将每个可检索字段中一切有意义的检索词(或代码)按一定顺序排列,即构成倒排文档。倒排文档又可分为基本索引倒排文档和辅助索引倒排文档。
基本索引倒排文档:从数据库全部记录的基本索引字段中,提取出所有的检索词,按字顺排列构成的集合,称为基本索引倒排文档,例如,主题词索引、分类号码索引等均是基本索引倒排文档。
辅助索引倒排文档:从数据库全部记录的辅助索引字段中,提出所有的检索词、数字,加上相应的前缀代码,按字母或数字顺序排列构成的集合,称为辅助索引倒排文档,例如,著者索引、号码索引等均是辅助倒排索引文档。
记录(record)是数据库文档的基本单元,是对某一实体属性进行描述的结果。一个数据库可能包含几千条甚至几十万条记录。在全文数据库中,一条记录相当于一篇完整的文献;在书目数据库中,一条记录相当于一条文摘或题录。
字段(field)是构成记录的最小信息单元。一条记录包含若干个字段。例如,原始文献的篇名、著者、文献出处、出版时间、文摘、主题词、语种等。数据库记录的著录项目(字段)往往比手工检索多得多,这就决定了计算机检索能够提供比手工检索更丰富的检索途径。字段可以分为3种类型。
① 存取号(Accession number,AN):是计算机为数据库的每篇记录给定的登记号。
② 基本索引字段(basic index):是记录中主要用来表达文献内容特征的字段。常见的有篇名、文摘、叙词、受控词、自由标引词、非控词等。
③ 辅助索引字段(additional index):主要是一些表达文献外表特征的字段。常见的有著者、期刊名称、出版年份、语种、出版物识别代码、国际标准刊号、文献类型、分类代码、机构名称等。
为了方便计算和检索,每个字段都有自己特定的标识符,如TI(Title,篇名)字段、AB(Abstract,文摘)字段、DE(Descriptor,叙词或者主题词表中的词)字段、ID(Identifier,自由标引词,非受控词表中的词,由标引人员根据文献内容确定)字段、AU(Author,著者)字段、CS(Corporate Source,著者所在单位)字段、SO(Source,文献出处,对于期刊文献包括期刊名称、卷、期、页等;对于会议文献包括会议名称、届次、时间、地点等)字段、PY(Publication Year,出版年代)字段、CO(CODEN,期刊代码)字段、SN(ISSN,国际连续出版物标准号)字段、LA(Language,原文语种)字段、DT(Document Type,文献类型)字段、TC(Treatment Code,处理码,表示论文研究的性质,A表示应用,X表示实验,T表示理论等)字段、CC(Classification Code,分类代码)字段等。
在计算机信息检索数据库中,帮助、指南及说明等信息大多可通过Help命令获得,或者单击F1功能键来显示。例如,美国Ei Compendex数据库记录格式如下:
Accession number:04498700490
Title:An anti-lock braking control system for a hybrid electromagnetic/electrohydraulic brake-by-wire system
Authors:Anwar,Sohel
First author affiliation:Chassis Advanced Technology Dept.,Visteon Corporation,Dearborn,MI 48126,United States
Serial title:Proceedings of the American Control Conference
Abbreviated serial title:Proc Am Control Conf
Volume:v 3
Monograph title:Proceedings of the 2004 American Control Conference(AAC)
Publication year:2004
Pages:p 2699-2704
Language:English
ISSN:0743-1619
CODEN:PRACEO
Document type:Conference article(CA)
Conference name:Proceedings of the 2004 American Control Conference(AAC)
Conference date:Jun 30-Jul 2 2004
Conference location:Boston,MA,United States
Conference code:63912
Sponsor:American Automatic Control Council;International Federation of Automation Control,IFAC
Publisher:Institute of Electrical and Electronics Engineers Inc.,Piscataway,NJ 08855-1331,United States
Abstract:This paper presents a nonlinear sliding mode type controller for slip regulation in a braking event for a hybrid electromagnetic-…
Number of references:13
Ei main heading:Brakes
Ei controlled terms:Electromagnetism|Sliding mode control|Eddy currents|Torque|Closed loop control systems|Actuators|Sensors|Algorithms
Uncontrolled terms:Electrohydraulic brake(EHB)systems|Eddy current brake(ECB)systems|Anti-lock brake systems(ABS)|Brake pedal sensors
Ei classification codes:602 Mechanical Drives and Transmissions|701 Electricity and Magnetism|731.1 Control Systems|701.1 Electricity:Basic Concepts&Phenomena|931.2 Physical Properties of Gases,Liquids&Solids|732.1 Control Equipment|732.2 Control Instrumentation|723 Computer Software,Data Handling and Applications
Treatment:Theoretical(THR)