购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第二节
信息检索语言

一、信息检索语言概念

信息检索语言又称为标引语言、索引语言、文献检索语言、信息存储与检索语言,是适应信息检索的需要,在加工、存储及检索信息时所共同使用的有规则的、能够反映出信息内容及特征的标识符号。这是一种双方约定的共同语言。标引人员根据信息的内容特征,依据检索语言的规则对信息进行标引,将其整理、加工、存储于检索系统中。检索人员根据需要检索的空息内容特征,依据检索语言从检索系统中获取所需信息。这种在信息检索中用来联系文献信息与用户需求的“语言”,就是信息检索语言。

二、检索语言的作用

检索语言在信息检索中起着极其重要的作用,它是沟通信息存储与信息检索两个过程的桥梁。在信息存储过程中,用它来描述信息的内容和外部特征,从而形成检索标识;在检索过程中,用它来描述检索提问,从而形成提问标识;当提问标识与检索标识完全匹配或部分匹配时,结果即为命中文献。

检索语言的主要作用:

①特征:标引文献信息内容及其外表特征,保证不同标引人员表征文献的一致性;

②相关性:对内容相同及相关的文献信息加以集中或揭示其相关性;

③有序化检:索使文献信息的存储集中化、系统化、组织化,便于检索者按照一定的排列次序进行有序化检索;

④一致性:便于将标引用语和检索用语进行相符性比较,保证不同检索人员表述相同文献内容的一致性,以及检索人员与标引人员对相同文献内容表述的一致性;

⑤最高全准率:保证检索者按不同需要检索文献时,都能获得最高查全率和查准率。检索语言的质量高低及其使用正确与否,对检索效率有重大影响。

三、检索语言的类型

各种检索语言的基本原理是一致的。但是,它们在表达各种概念及其相互关系和在解决对它们提出的那些基本要求时所采用的方法不同,因而形成了不同的类型和语种。

(一)按构成原理分

按构成原理分可分为表述文献外部特征语言和表述文献内容持征的语言。

1.表述文献外部特征的语言

包括题名语言、著者语言、代码语言。

①题名语言:按文献题名进行检索。

②著者语言:按著者姓名检索。

③代码语言:按文献代码,如专利号、标准号、报告号、ISl5N号等。代码语言是用代表文献某一方面特征的代码对相关文献进行标引与组织的捡索语言形式,如化合物的分子式、环状化合物的环结构等。代码语言提供用户从特定代码入手检索特定的文献。

2.表述文献内容特征语言

包括分类语言、主题语言、引文语言。

(1)分类检索语言

用分类号和分类名来表达文献主题概念,并将文献按学科件质分门别类地系统组织起来的一种检索语言为分类检索语言,是建立在对文献所属内容特征的基础之上的检索语言,分类法是它的检索标志体系,类目是它的基本语汇。分类检索语言分为体系分类语言、组配分类语言和混合分类语言,以体系分类语言最为常见。

(2)主题检索语言

主题是指文献具体论述的对象和研究的问题。主题语言是以代表文献内容特征和科学概念的词语作为检索标识,并按其字顺排列组织起来的一种检索语言。通常将指代特定概念与事物的语词称为主题词,按选词原则,主题语言又分为标题词语言、单元词语言、叙词言和关键词语言四种。

(3)引文语言

引文索引法是一种特殊的信息组织方法,主要利用文献与文献之间的相互引用关系来组织信息,即以一些文献作为标引词,来标引和检索另一些文献信息。引文语言,就是这种索引词的集合。引文索引语言是一个开放的、不断推陈出新的系统,其索引词直接来源于文献。

(二)按组配方式分

按照语言组配的先后分为先组式语言和后组式语言。

1.先组式语言

指在文献信息检索之前,表达文献信息内存的标识已经事先组配好的信息检索语言。这是一种在检索语言的词典(分类表、主题词表、代码表)中基本列出的检索语言。目前所用的大多数分类语言是先组式分类语言,如《中国图书馆图书分类法》等。主题语言中的标题语言也是先组式语言,如《美国国会图书馆标题表》等。先组式语言一般只能以先组方式在检索系统中使用。

2.后组式语言

指表达文献主题概念的标识,在编制检索语言词表和标引文献时,都不曾预先规定组配关系,而是在进行检索时,用户根据检索需要,按照组配规则临时组配起来的信息检索语言。后组式分类语言使用得不多。叙词语言是后组式的主题语言,如我国的《汉语主题词表》。

(三)按照规范化程度分

按照规范化程度分可分为规范化语言和自然语言。

1.规范化语言

又叫受控语言,是指人为地对标引词和检索词的词义进行控制和管理的语言。规范化语言是一种有主题词表或分类表控制的检索语言,包括主题语言中的叙词、标题词和分类语言。

2.自然语言

是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的自由词。如关键词语言。它除一般的事物名称、科学术语外,还包括俗名、商品型号和缩写等。它的特点是不用编制词表,能及时跟上事物发展,正确表达事物新概念,选词灵活方便,专指性强标引和检索速度快,很适宜于计算机检索。

(四)按其他标准划分

信息检索语言,还有很多种从不同角度进行划分的说法:

1.按照检索语言适用的地区范围可分为国际语言、国内通用语言。

2.按照检索语言所适用的学科范围可分为综合性语言、多科性语言、专业性语言。

3.按照检索语言适用的机构范围可分为各类文献信息机构通用的语言、某类文献信息机构专用的语言、某一文献信息机构专用的语言。

4.按照检索语言适用的文献信息类型可分为多类型文献信息适用的语言和某一类型文献信息专用的语言(如专利分类法)。

5.按照检索语言所适用的检索系统可分为手工检索工具适用的语言、计算机检索系统适用的语言。

在上述划分检索语言类型的角度中,按构成原理分是最基本的,按标识的组合使用方法分也很重要,这是决定检索语言性能的两个重要因素。

四、分类检索语言

(一)分类检索语言的基本原理

分类语言的具体表现形式主要是分类表(分类语言的词典),但规定分类标引规则的使用说明或手册也是一个必要的组成部分。由于用分类表和分类规则来标引、组织、检索文献信息的方法被称为分类法,所以习惯上将某种分类语言称为分类法。

目前使用最广泛的一般是先组式的分类法,称为体系分类法或等级列举式分类法。体系分类法是一种直接体现知识分类的等级制概念标识系统。它是对概括文献信息内容及某些外表特征的概念进行逻辑分类(划分与概括)和系统排列而构成的。体系分类法的主要特点是按学科、专业集中文献,并从知识分类角度揭示各类文献在内容上的区别和联系,提供学科分类检索文献信息的途径。

由于人们一般都是在某个专业范围内从事科研、生产、教学、管理等活动的,习惯于从学科、专业出发去获取知识和信息,而体系分类法对于有系统地掌握和利用一个学科或专业范围的知识和信息来说,是很方便和有效的,因此,它成为一种对文献信息进行系统化处理的重要方法,成为一种历史最久、使用最普遍的检索语言。

目前,国内外主要的分类法有《中国图书分类法》(简称《中图法》)、《中国科学院图书馆分类法》(简称《科图法》)、《杜威十进分类法》(DDC)、《美国国会图书馆图书分类法》(LC)和《国际专利分类表》(IPC)等。

(二)中国图书分类法

1.《中国图书馆分类法》

原称《中国图书馆图书分类法》,是我国建国后编制出版的一部具有代表性的大型综合性分类法,是当今国内图书馆使用最广泛的分类法体系,简称《中图法》。自1988年起,中国出版图书的标准书号中采用《中图法》的大类号。

《中图法》的类目表由基本大类、简表、评表和复分表组成,使用字母与数字相结合的混合号码,基本采用层累制编号法。

按知识门类,分“马列主义、毛泽东思想,哲学,社会科学,自然科学,综合性图书五大部类,22个基本大类,每一大类又分若干小类,如此层层细分下去。(如表2-1)

表2-1 《中国图书馆分类法》基本类目表

2.索取号

索取号一般是收藏单位赋予一个文献单位的存放位置号。其构成由文献收藏单位自定。我国大部分图书馆常见的索取号的基本结构由以下两种形式,前后再加上其他辅助成分构成。“分类号+文献次序号”、“分类号+著者号”。“文献次序号”是依据文献分类时的先后次序,按同类文献所给予的顺序号。“分类号+文献次序号”的作用是:以类集中文献。通过“分类号+文献次序号”可了解同类文献到馆的先后。“著者号”是依据一定的规则,为区分不同著者给出的区分号。“分类号+著者号”的作用是:在同类文献中进一步以作者姓氏集中文献。书库、阅览室的书一般按索书号排列,一种图书的“索书号”由分类号加“/”加“作者号”构成。

(二)国际图书分类法

目前,国际分类法中较为著名的、尚在使用或有很大影响的主要有五部,(见表2-2)。

表2-2 国际常用分类法

这些分类法从它们的体系结构,可以归纳为三种:

1.等级列举式:采用尽量列举所有类目形式,并将这些类目组成一个等级系统,故又称为体系分类法,如DC、IC属于这种类型。

2.分面组配式:CC即属于这种类型,采用简单概念组成复合的方式,在类表里只列出不同范畴概念,用组配方法来表达具体类目。

3.列举、组配复合体系:即在列举类表里大量运用了组配式的分配原则,是介于列举和组配之间的一种折中的形式,如UDC、BC都属于这种类型。

在上述几种分类法中,流行最广、影响最大的是DC,在科技情报界用户最多的是UDC,对当代分类法编制理论及技术影响最大的是CC。下面是以《杜威十进分类法》为例介绍等级列举式分类法的体例:

《杜威十进分类法》(DC)受培根知识分类的影响,将全表分为十大类,其基本大类如下:

000总论 500自然科学

100哲学 600技术科学

200宗教 700美术

300社会科学 800文学

400语言学 900史地

其类目展开情况如下(技术科学类类目):

600技术科学

620工和学

621机械工程

01工程热力学

1蒸汽工程

2水利工程

3电利工程

31电利的发生

DC的特点是:(1)在分类表上第一次用号码代表类目;(2)采用小数标记制使类目级纵向无限扩充;(3)首次运用组配的方法(复分表)。由于它具有以上特点,解决了排架和组织目录的次序问题。它在世界上已用30多个语种出版,被世界135个国家和地区的图书馆采用,已载人各国的机读目录、在版编目数据及印刷卡片之中。

(三)国际专利分类法(International Patent Classification,IPC)

国际专利分类法是一种国际统一化、标准化的专利分类方法。具有完整性、科学性、适用性的特点,为世界各国普遍采用。中国自1985年4月1日实行专利制度以来就采用了这种分类方法。《国际专利分类表》IPC(International Patent Classification)是“检索各国专利文献的一把共同的钥匙。”

《国际专利分类表》每5年进行一次修订,目前所使用的第十版于2012年1月1日生效,共包括八个部,约62000个细目。

各国在专利文献中均著录了该国际专利分类号,一般写成Int.CI×,其中的×为版次标志。例如Int.CI.3 A47C1/14,表示该分类号是按照第三版进行分类的。

1.IPC的体系结构

《国际专利分类法》采用等级分类结构,将所有技术领域按照六个等级—部、分部、大类、小类、组、小组逐级展开,组成一个完整的分类体系,国际专利分类法将不同的技术领域概括分成8个部,每一个部定为一个分册,用英文大写字母A—H表示。IPC分类体系是由高至低依次排列的等级式结构,是把与发明创造有关的全部技术领域按不同的技术范围设置成部、大类、小类、大组或小组,由大到小的递降次顺序排列。(见表2-3)

表2-3 IPC部类一览表

大类:每一个部按不同的技术领域分成若干个大类,每一大类的类名对它所包含的各个小类的技术主题作一个全面的说明,表明该大类所包括的主题内容。每一个大类的类号由部的类号和在其后加上两位数字组成。例如:A01农业;林业;畜牧业;狩猎;诱捕;捕鱼。

小类:每一个大类包括一个或多个小类。每一个小类类号由大类类号加上一个英文大写字母组成。例如:A01B农业或林业的整地;一般农业机械或农具的部件、零件或附件。

组:每一个小类细分成若干个大组或小组(大组和小组统称为组)

大组:大组的类号由小类类号加上一个一位到三位的数、斜线“/”及数字“00”组成,大组的类名明确表示分类、检索发明的技术主题范围。

例如:A01B 1/00 手动工具(草坪地修整机入A01G3/06)

B62K   19/00自行车架

C07C   203/00硝酸或亚硝酸酯

小组:小组是大组的细分,每一个小组的类号由小类类号加上一个一位至三位数,后面跟着斜线“/”符号,再加上一个除“00”以外的至少有两位的数组成。小组的类名明确表示可检索属于该大组范围之内的一个技术主题范围,小组的类名前加一个或几个圆点表示该小组的等级位置。

例如:A23L 1/325 ·水产食物制品;鱼类制品、鱼肉;鱼卵代用品

A23L 1/326 ··鱼肉或鱼粉;小颗粒、团块或片

小组间的等级结构是由圆点数来确定的,根据此等级原则,小组的技术主题范围是由它与它前面级别比它高的组共同确定的。

2.IPC的使用说明

一个完整的分类号由代表部、大类、小类、大组或小组的符号结合构成。例如:A66B 58/00,A66B 58/04。

IPC分类表中的类目名称(特别是小类以下的类名)往往采用定义式类名。例如,“活性碳”所在类的名称为“选择性吸收的固体”;“眼压计”所在的名称为“测试眼睛的设备”。主要是因为技术发明是层出不穷和难以预见的,而且立类原则又以功能分类为主,所以类名不随意使用现有的事物名称,而是尽量采用定义性文字,这样可以使类目具有更好的包容性和适应未来的发展。

小知识:古代经典分类法

古代经典分类法“经史子集”是我国古代读书人对经典的分类法。我国古代图书分为四部,即“经史子集”,四部的名称和顺序是是在《隋书·经籍志》中最后确定下来的。具体划分如下:

经部:指儒家学说,儒家经书开始有五部,即诗、书、易、礼、春秋,称为“五经”。从唐代到宋代,形成十三经,即易、书、诗、周礼、仪礼、礼纪、左传、公羊传、谷梁传、论语、孝经、尔雅、孟子。

史部:指记载历史兴衰治乱和各种人物以及制度沿革等的历史书。各种体裁的历史著作都属于这一类。“史”是各种体裁历史著作,分为正史、编年、纪事本末、别史杂史、诏令奏议、传记、史钞、载记、时令、地理、职官、政书、目录、史评十五类。司马迁的《史纪》为中国正史的开始,以后几乎每朝一史,共有二十四史(加清史稿计二十五史)。

子部:指记录诸子百家及其学说的书籍,分为儒家、兵家、法家、农家、医家、天文算法、术数、艺术。

集部:凡历代作家一人或多人的散文、骈文、诗、词、散曲等的集子和文学评论、戏曲等著作,分为楚辞、别集、诗文评、诗词五类。属于一人所有的称为别集,汇选若干人的作品称为总集,有关诗的集子称为诗集。

五、主题检索语言

(一)标题词语言

标题语言,又称标题法、标题词法、标题词语言、传统主题法。它是以受控的自然语言语词作标题(标题语言的标识),以先组方式直接表达文献主题或检索课题,用参照系统间接显示标题之间的关系,以事物为中心聚集文献信息,提供字顺检索途径的一种检索语言。

标题语言是主题语言中最早出现的一种语言,目前仍在一定范围内使用。例如,美国《国会图书馆标题表》(Library of Congress Subject Headings,简称LCSH)是国内用于组织西文图书的主题检索工具(系统),提供主题检索途径的一种著名标题语言;美国《化学文摘》(CA)的“索引指南”(Index Guide)是编制和检索CA的“化学物质索引”和“普遍主题索引”所依据的标题语言。

标题语言的主要优点是标识系统直观易懂,易扩充,表达主题直接性和专指性强,组配固定,可减少误差,能较好满足特性检索的要求,但也有系统性差、不便于族性检索、表达概念时缺乏灵活性、难以表达较深主题概念等问题。

1.标题表的结构

标题语言的具体表现形式主要是标题表。标题表是标题词的汇编,是对文献进行标题标引和主题检索的依据。一部标题表一般有下列三个组成部分:

(1)编制说明:包括标题表的编制经过、收录标题词的学科或专业范围、选词标准、规范化措施、标题形式、参照系统、词款目著录格式、各种符号的意义、标引规则、标题款目排列法等。

(2)主表:是标题表的正文,包括全部标题词和非标题词,并有参照和注释,按字顺排列。

(3)副表:相当于体系分类表中的各种复分表,可利用它们对标题进行细分,所以也叫标题细分表、细目表和子标题表。副表如分类表中的复分表那样,分为通用的和专用的。通用副表有地区细分表、时代细分表、文献类型细分表等。专用副表有地方标题细分表、人物标题细分表、机构标题细分表、著作标题细分表、产品标题细分表、人物标题细分表等。副表中的细目,一般只能作为副标题和标题限定词。地区副表中的国家细目,也可构成主标题。

2.标题词及其类型

标题(标题词)是作为主题标识的经过规范化的语词或事物的“名”,是指主题标识的具体字面。标题法是按事物集中有关文献的。在一个标题下,常常集中了关于一种事物的许多方面的资料,涉及到相当于分类法中的好多个类目的范围。例如,在“牛”这个标题下,就可能包括牛的生理、解剖、遗传、选种、育种、繁殖、饲养管理、育肥、饲料、放牧、疾病及其防治、用途以及畜牧经济等方面的资料。

为对同一标题下的内容加以细分,为了一些其他目的(如集中同族事物),在实践中采用了一些不同的方法,形成了标题的不同类型。

(1)单级标题。即一个标题仅由一个名词术语构成。它可以是一个单词,称单词标题或元词标题(如“肠”);也可以是一个词组,称词组标题或复词标题(如“肠梗阻”),但都只有一级,所以称为单级标题。

这种标题系统的优点是比较简单,缺点是专指性差,在一个标题下往往集中资料太多,不便检索。补救的办法是多用复词标题,以稍增专指度。

(2)带说明语的单级标题。例如,“液压传动,用于机床的”;“期刊,化学的”。这相当于一个复词标题。

这种标题系统的优点是用说明语表达复杂概念比较自由,既能表达事物的特称,也能表达事物的方面,可以达到较高的专指度;缺点是比较冗长,排列次序不够明确。

(3)多级标题。即在标题下再加标题。例如,“肿瘤—治疗”。横线后的标题称为子标题,用于表示该标题所表示事物的某一方面。子标题之下还可以有子标题,称为次子标题。次子标题下还可以有子标题,称为再次子标题。但一般来说,超过三级的标题形式是很少用的。各级子标题可统称副标题,第一级标题则称为主标题。子标题、次子标题都必须是规范化的语词,这是区别于说明语的地方。子标题、次子标题的形式比较简明,有明确的排列位置,使同一主标题下的资料比较有系统。

此外,还有倒置标题、带限定词的标题和混合标题等多种标题类型。

3.标题法的应用范围

(1)按标题字顺组织卡片式馆藏图书目录。这在国外曾经很普遍,但现在已逐渐被机读目录取代。我国一些图书馆20世纪50年代以前曾用LCSH组织西文图书主题目录,90年代以来,LCSH的使用重新受到重视。

(2)按标题字顺组织检索工具的正文,这种使用方式也很少。但美国的《工程索引》(Ei)1993年之前就是这样使用的,现在已改为按单个叙词(单词或词组)编排。

(3)用于编制检索工具的字顺主题索引。这曾是标题法使用比较多的一种方式,但现已用得不多。Ei以前的主题索引是用标题语言编制的;美国BA的概念索引实际上是标题索引,CA的“普通主题索引”和“化学物质索引”也是标题索引。

(4)构造计算机检索数据库中的主题字段,但其使用方式也趋向叙词语言化。

总之,标题语言在编制和使用上,一方面向叙词语言靠近,另一方面又可用叙词语言来代替(即用若干叙词组合成一个标题)。因此,真正意义上的标题已使用得不多。像《工程索引》的正文和主题索引均已改用叙词语言。

(二)关键词语言

1.关键词与非关键词表

关键词是指文献的题名、文摘和正文中出现的、能够表达文献信息内容的重要语词。用这些词来表达文献信息内容,并编成关键词索引,提供检索途径的方法称关键词法。

关键词法一般不编关键词表,而是相反,编制“非关键词表”或称“停用词表”。非关键词表是将没有检索价值的词,如介词、连词、冠词、代词、感叹词、某些副词、某些形容词、某些名词(如“理论”、“报告”等)、某些动词(联系动词、情态动词、助动词)等,收集起来编成的词表,它是供计算机据以自动排除题名、文摘中的非关键词,从而产生关键词。

2.关键词法的特点

关键词法的特点是:采用语词作概念标识,直接从文献题名或文摘、正文中抽取关键词;不编制受控词表,进行词汇控制,不显示词间关系;进行轮排,建立字顺排序体系。主要适用于电子计算机处理和自动标引。

关键词法主要优点是标引要求低,操作简单,比较容易实现;关键词是自然语言,表达文献主题较直观;参加轮排的每一关键词都是检索入口,可提供较多的检索途径;易于实现自动化,标引速度快。采用关键词法的检索系统是时差最短和最经济的检索系统。主要缺点是词汇质量较粗糙,影响文献检索的查全率和查准率。

3.关键词索引的类型

关键词法的原理得到了广泛的应用,出现了多种关键词索引形式,大体可分为两类:一类是带上下文的关键词索引,包括题内关键词索引、题外关键词索引、双重关键词索引;另一类是不带上下文的关键词索引,包括单纯关键词索引、词对式关键词索引和简单关键词索引。

(1)题内关键词索引

题内关键词索引也称上下文关键词索引。这是最早出现的一种利用电子计算机编排的索引,实现了索引工作自动化。这种关键词索引是将文献标题中的关键词和非关键词都保留,并保持标题原文的词序,使每个关键词都有一次机会轮流排到作为检索词的固定位置(中栏开头),将处于检索词地位的关键词按字顺排列起来,每条款目附文献地址(该文献在文献题录部分的地址)。这样的索引与文献题录结合起来便成为一种检索工具。比如美国《化学题录》索引。

有些题内关键词索引除文献标题外,还从文摘和正文中抽取关键词作为补充,一起参加轮排。比如美国《生物学文摘》的题内关键词索引。

(2)题外关键词索引

它与题内关键词索引的区别是将关键词的检索位置放在题名之外(左方或左上方)。

(3)词对式关键词索引

此索引是将关键词进行两个配对,一个作主标目,一个作副标目,可以相互交换位量。美国的《科学引文索引》的“轮排主题索引”就是词对式关键词索引。

(4)纯关键词索引

纯关键词索引是指索引标目中只有若干关键词,不保留非关键词的关键词索引。

(5)简单关键词索引

简单关键词索引是只用一个关键词作标目的关键词索引。如美国《化学文摘》的索引。

使用关键词检索与使用叙词进行检索的最大不同是检索词是检索者所想到的用来表达检索课题的任何词,而不必经过词表核实。因此,使用关键词进行检索的关键是检索者应该尽可能多地想出表达检索课题的词,并按字顺进行检索;查到某个关键词时,尽量准确判断包含该词的索引款目的含义与检索课题的相关性。

(三)叙词语言

叙词语言,又称叙词法、主题词法。它是20世纪50年代后期为适应计算机检索需要而发展起来的,在综合了其他多种检索语言原理方法的基础上,以后组式概念组配(不同于字面组配)为基本原理而创制的检索语言。它已成为当今检索语言的主流,许多检索系统(工具)采用的是叙词语言。

1.叙词语言的构成原理

叙词法利用了多种检索语言的原理和方法

(1)它保留了单元词法单词组配的基本原理。

(2)采用了组配分类法的概念组配来代替单元词法的字面组配,以及适当采用标题法的预先组配方法(即采用词组),以克服某些词分拆后再组配时产生意义失真的缺点。

(3)采用标题法对语词进行严格规范化的方法,以保证词与概念的一一对应。

(4)采用并进一步完善了标题法的参照系统,采用了体系分类法的基本原理编制叙词分类索引(范畴索引)和等级索引(词族索引),采用了与关键词法类似的方法编制叙词轮排索引,从多方面显示叙词间的相互关系,以保证准确、全面地选用叙词进行标引和检索。

叙词语言是多种检索语言的原理和方法的综合,集各法之长避各法之短,体现了检索语言的发展趋势。叙词语言按其基本性质,是一种采用表示单元概念的规范化语词的组配来对文献信息内容进行描述的后组式词汇型标识系统。

概念组配是叙词法的基本原理。在叙词法所采用的多种检索语言原理和方法中,概念组配是决定着它的特点的基本原理。

概念组配与字面组配在形式上有时相同,有时不同;而从性质上来说,两者区别甚大。字面组配,其实质是词的分拆与组合(拆词);概念组配,其实质是概念的分析与综合(拆义)。两者的检索效果有很大差异。(如表2-4)

表2-4

在以上三例中,第1例“脑”和“肿瘤”两词的组配,字面组配和概念组配结果都是“脑肿瘤”。“脑肿瘤”既是“脑”的下位概念(一个方面问题),也是“肿瘤”的下位概念(种概念)。所以,如果用单个词来检索的话,无论用“脑”,还是用“肿瘤”,“脑肿瘤”的文献都不会被漏检和误检。用两个词组配检索,也不会产生误差。

第2例“河北”和“梆子”两词的组配。单用“河北”一词检索,范围就太宽。用“河北地方剧”一词更符合概念组配原理,更切合族性检索要求。

第3例“香蕉”和“苹果”两词的组配。根据字面组配原理,“香蕉”和“苹果”的组配是“香蕉苹果”;而根据概念组配原理,这两个词的组配结果语义应为“一种香蕉和苹果的杂交品种”,而这样的品种是不存在的,即不符合概念逻辑。如果关于“香蕉苹果”的文献用这两个词来组配标引,则在用“香蕉”这个词单独进行检索时,就会产生误检,因为“香蕉苹果”并不是“香蕉”的一种;而如果用“香蕉”和“苹果”两个词组配,则又可能把兼论“香蕉”和“苹果”的文献检出,但该文献却没有论述“香蕉苹果”。所谓“香蕉苹果”实际上是一种“香蕉口味的苹果”,按照概念组配的原理,这个概念应当用“香蕉味食品”(或“香蕉味水果”)和“苹果”两个词来组配表达,才符合概念逻辑。无论用哪两个词来分别检索或是组配检索,都不会产生误差。

构词方法是多种多样的,许多词组是不可分拆或不可随便分拆,如果简单地拆开,往往有一方不能独立(不具备检索意义)或会失真。严格遵守概念组配原则,是使叙词法具有优异性能和高度质量的主要保证。

2.叙词表的结构

叙词表是提供用作标引和检索的叙词并显示其语义关系、族性关系和使用规则的词汇表,有时又称“主题词表”,是叙词法的具体体现和进行词汇管理的工具。第一部用于信息检索的叙词表是美国杜邦公司于1959年前后编制的。目前世界上有500多种叙词表,中国有60多种叙词表,比如《汉语主题词表》。

叙词表主要由编制使用说明、主表、附表、辅助索引等几个部分组成。

(1)叙词字顺表

叙词字顺表一般是叙词表的主表,它是将叙词和非叙词完全按字顺排列,并有标注事项和显示词间关系的参照系统。利用这种排列表可不考虑概念之间的隶属关系,而仅从表达概念的语词的字面形式出发,直接地找到相当的叙词;或再通过参照系统,从该词的上下左右间接地找到更恰当的叙词。

(2)附表

有的叙词表,如《汉语主题词表》,将一些专用叙词,如地理和区域名称、组织机构名称、人物名称等叙词款目独立按字顺编排,作为附表。其结构和功用与主表完全相同,都是标引和检索选择叙词的最终依据。

(3)辅助索引

为了查词方便,并以多种方式展开叙词之间的关系,叙词表一般都编有下列一种或几种辅助索引。

①叙词分类索引

也称分类表或范畴索引,是一种重要的辅助索引。它是将叙词按其概念所属学科或范畴分成若干大类,在大类之下再分成若干小类,在小类之下则将叙词按宇顺排列,形成一个类似体系分类表的概念分类系统。这种索引便于从学科或专业的角度来选用叙词,可使叙词法在某种程度上具有分类法的性质。

②叙词等级索引

也称族系表或词族索引。它是利用概念的等级关系(概念成族原理)将叙词汇集在一起成为一族,构成一个从泛指叙词到专指叙词的等级系统,可以从一族中外延最广的叙词(族首词)出发,找到一系列同族的叙词,并且可以明确它们之间的层层隶属关系。这种索引可弥补主表族性检索功能差的缺点。

③叙词轮排索引

又称轮排表。它是利用字面成族的原理,将有相同单词的词组叙词汇集在一起,排列在该单词之下,从而可以查出含有该单词的某一个或全部词组叙词。一个词组叙词由几个单词构成便可轮排几次,在几处都能查到它。这种索引的功能类似词典,查找比较方便。在某种程度上可以弥补叙词法族性检索功能差的缺点。

④叙词双语种对照索引。

它是将主表中词与其外语译名相对应,提供从外语词字顺查找主表叙词的一种索引。例如《汉语主题词表》的英汉对照索引。

⑤专有叙词索引

如地区索引、人物索引、机构索引、产品索引等。这些索引一般与主表不重复,实际上是主表的一个组成部分。将这些专有叙词单独编成索引,可避免主表庞大,方便查找。

此外,有些叙词表还有正式叙词索引和款目词索引、叙词关系图等辅助索引。

上述辅助索引并不是每种叙词表都具有。叙词表的结构体系随其学科或专业范围、所用自然语言的语种、收词数量等不同而变化。

3.叙词语言的应用范围

(1)我国的文献信息机构用来组织图书主题目录。这实际上是作为标题语言的代替品来使用。

(2)用于编排检索工具的正文。不常用,但现在的《工程索引》(Ei)正文编排是使用这种方式的典型。

(3)用于编制检索工具的辅助主题索引。

(4)在计算机检索的数据库记录中构成主题字段,提供主要检索途径。每个叙词都可以成为检索人口,表达同一主题的不同叙词之间可以响应这些叙词的不同组配方案的检索课题。这是越来越普遍的使用方式。

总之,叙格词法既适用于手工检索系统,又适用于计算机检索系统,是目前检索效率较高的情报检索语言。 9wCNNFu8Yb6nnQOTqNXrOzg4tqtMPxBZ25GXKcLe4b/HQV91tNGsR2kj0swFxtb8

点击中间区域
呼出菜单
上一章
目录
下一章
×