检索语言的基本成分是检索提问词。检索语言分为自然语言(natural language)和人工语言(artificial language)两类。自然语言采用的检索词是未加工整理和规范过的,即平常采用的关键词,这种语言称为关键词语言。人工语言采用经过规范化的词,规定一个词表示一种事物,例如标题词语言、叙词语言等。
检索语言的主要作用是对文献的外部特征和内容进行多层次描述,提供多种检索途径,以方便用户从不同角度检索查找。
检索语言有如下几种:
不同的检索语言构成不同的标识和索引系统,给用户提供不同的检索点和检索途径。
分类法语言是指以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。
以知识属性来描述和表达信息内容的信息处理方法称为分类法,著名的分类法有《国际十进分类法》、《美国国会图书馆图书分类法》、《国际专利分类表》、《中国图书馆分类法》等。
(1)分类法语言的特点
分类法语言体现了学科的系统性,便于从学科门类出发,进行族性检索,有利于查全一门学科中各种事物的所有文献。
分类法语言将概念逐级划分,具有等级结构,便于扩大和缩小检索范围。
分类法语言可用于图书资料分类排架、编制分类卡片,供图书馆读者查找图书资料使用。这是体系分类法语言具有的独特功能,任何其他检索语言都不具备这种功能。目前,我国的各家图书信息单位均采用《中国图书馆分类法》来排列图书。
分类法语言用分类号作为检索标识,不能直接表达概念,但不存在文种的限制。
分类法语言中的类目不能随时改变,因而分类法不能及时反映新的科学技术。如果遇到检索主题属于新兴学科的文献,就有可能找不到十分切题的类目和分类号。分类法语言中的类目,不可能无限地分下去。因此,用分类法的检索结果,专指度不高,查准率也不高。
分类法语言是按直线式序列设置类目的,对边缘学科课题,只能标引在一门学科的类目之下。例如,“激光焊接视网膜”课题,涉及物理、金属工艺和医学3门学科,检索时很可能漏检。
由于分类法语言中的大小类目已经在分类表中一一列举,不能变动,因此不可能按照检索课题的需要进行随机组配。
(2)分类法语言的组成
一部完整的分类法,由类目表、分类号码、说明与注释、类目索引4部分组成。
类目表:是分类法的主体,也是分类文献和检索文献的依据。类目表以科学分类为基础,运用概念划分的方法,把知识进行区分与类集,即把知识划分为若干个内涵更深、外延更窄的概念。因此,每划分一次,就会产生若干类目。逐级划分下去,就会产生许多不同等级的类目,在这些类目中,被划分的类目称为上位类目,由它划分出来的类目称为下位类目。分类的逐级展开、层层隶属的等级体系,这就是常说的分类法。
分类号码(或分类号):类目表中每个类目都有标记符号,称为分类号。分类号的主要作用就是简明、系统地表示每个类目在分类体系内的位置,以便组织分类目录或以类目来编排文摘正文。类号一般以纯数字或数符式为标识,其顺序取决于类号的大小,在配制上一般采用层累制,这样可以使等级概念更清楚。
说明和注释:整部分类法的绪论、各基本大类前面的类序,以及分类表内的注释均属分类法的说明和注释部分。
类目索引:类目索引按类名的字顺或音序排列起来。类目索引是分类者和检索者在分类和查找类目时的辅助依据。
(3)分类法举例
①《中国图书馆分类法》(原为《中国图书馆图书分类法》,简称为《中图法》)
《中图法》是我国目前通用的图书分类工具,读者掌握了有关知识,便能迅速、有效地查寻全国各图书馆的馆藏,如图1-1所示。
图1-1 中国图书馆分类法
《中图法》的基本结构如下。
基本部类:它是对全部知识最基本的区分,是以后划分类目的出发点,共分为马克思主义、列宁主义、毛泽东思想,哲学,社会科学,自然科学,综合性图书五大部类。
基本大类:共分为22个基本大类,构成分类表的第一级类目。
简表:由基本大类与由其直接展开的一、二类目所形成的类目表。
详表:由简表展开的各种不同登记的类目所组成的类目表,是文献分类的真正依据。
《中图法》的标记符号采用汉语拼音字母与阿拉伯数字相结合的混合号码,即用一个字母表示一个大类,以字母的顺序反映大类的序列。字母后用数字表示大类以下类目的划分。数字的编号使用小数制。
②《国际十进制分类法》(Universal Decimal Classification,UDC)
UDC为世界各国分类科技文献所通用,也是当今国外图书情报界流行或影响较大的分类法。它包罗万象,并且具有普遍适应性的分类体系,包括所有知识领域,是当前世界分类法中列类最为详细的一个分类体系。目前,UDC的各种版本已有21种语言文本,详表有15~21万类目,其中科技部分最详细,类目总数达11万之多,比较适应现代科技文献高度专门化的特点。
UDC把人类的全部知识划分为十大门类。在每一类下,按照从整体到部分、从一般到特殊的原则逐级细分为大纲、纲下划分为目、目下划分为分目。UDC采用阿拉伯数字为主表符号,同时也采用多种符号和数字组成复分号和辅助号。号码配制原则是,尽可能用号码的级位反映类目的隶属关系。一级类目为1位数字,二级类目为2位数字,三级类目为3位数字,其余类推,如图1-2所示。
图1-2 国际十进制分类法
③《美国国会图书馆分类法》(Library of Congress Classification,LCC)
该分类法是美国国会图书馆在馆长G.H.普特南主持下根据本馆藏书编制的一种综合性等级列举式分类法。1899年,参考C.A.卡特的《展开式分类法》拟订最早的大纲,然后按大类陆续编制并分册出版。1901年,发表分类大纲。1902年,出版“Z目录学”分册。至1985年,总共出版36个分册,总篇幅超过1万页。除了法律大类尚未全部编完外,其余各大类绝大部分在1901—1938年间出版。有的大类已修订出版三、四版。美国国会图书馆分类法是现在不少大学图书馆采用的图书分类法,具体分类如下:
主题法语言是指以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言。以主题法语言来描述和表达信息内容的信息处理方法称为主题法。主题语言又可分为标题词语言、单元词语言、叙词语言。
(1)标题词语言
标题词语言是主题法语言中最早出现的一种检索语言。标题词是指从自然语言中选取并经过规范化处理,表示事物概念的词、词组或短语。它通过主标题词和副标题词固定组配来构成检索标识,只能选用“定型”标题词进行标引和检索,反映文献主题概念必然受到限制,不适应时代发展的需要,目前已较少使用。
(2)单元词语言
单元词(uniterm)是能够用以描述信息所论及主题的最小、最基本的词汇单位。它是从文献内容中抽出的,再经过规范化,能表达一个独立的概念。单元词语言通过若干单元词的组配来表达复杂的主题概念的方法,适于用简单的标识和检索手段(如穿孔卡片等)来标识信息。
(3)叙词语言
叙词是指以概念为基础、经过规范化和优选处理的、具有组配功能并能显示词间语义关系的动态性的词或词组。一般来讲,叙词具有概念性、描述性、组配性。经过规范化处理后,叙词还具有语义的关联性、动态性、直观性。叙词语言综合了多种信息检索语言的原理和方法,具有多种优越性,适用于计算机和手工检索系统,是目前应用较广的一种语言。CA、Ei等著名检索工具都采用了叙词法进行编排。
概念组配是叙词语言的基本原理。概念组配与字面组配在形式上有时相同,有时不同。而从性质上来看,两者区别是很大的:字面组配是词的分析与组合(拆词),概念组配是概念的分析与综合(拆义)。例如:
在第①例中,无论字面组配还是概念组配,其结果都是“模拟控制”。在第②例中,根据字面组配原理,“香蕉”和“苹果”组配是“香蕉苹果”。而概念组配的结果应是指“一种香蕉和苹果杂交的品种”,这样的品种目前是不存在的。所谓“香蕉苹果”,只能是一种有香蕉味的苹果,因此,根据概念组配原理,这个概念应当用“香蕉味的食品”和“苹果”两个词组配,才符合概念逻辑。
叙词语言吸收了多种情报检索语言的原理和方法,包括: ● 它保留了单元词法组配的基本原理;
● 采用组配分类法的概念组配,以及适当采用标题词语言的预先组配方法; ● 采用标题词语言对语词进行严格规范化,以保证词与概念的一一对应;
● 采用并进一步完善了标题词语言的参照系统,采用了体系分类法的基本原理编制叙词范
畴索引和词族索引,采用叙词轮排索引,从多方面显示叙词的相关关系。下面是美国Ei Compendex所使用的叙词表,以此说明叙词的使用。
Information retrieval
Prior Terms:Information science--Information retrieval
Broader Terms:Information analysis
Related Terms:Data mining
Information retrieval systems
Intelligent agents
Query languages
Software agents
Thesauri
Narrower Terms:Image retrieval
Online searching
主题词:Information retrieval为主题词。
标题词:Prior Terms为标题词,以前Ei使用的是标题词语言。
上位词:Broader Term为Information retrieval的上位词,也是一个叙词。
相关词:Data mining、Information retrieval systems、Intelligent agents等都是Information retrieval的相关词,也都是叙词。
下位词:Image retrieval和Online searching都是Information retrieval的下位类词,也都是叙词。
自然语言检索用词是从信息内容本身抽取的,主要依赖于计算机自动抽词技术完成,加以人工自由标引,是非规范词(uncontrolled term)。
自然语言的标识包括:
关键词(keyword):指直接从文献的题目、摘要或正文中抽取出的代表文献主要内容的具有实质意义的词语。将文献中的一些主要关键词抽出作为检索标识,并以字顺排列而组成的查找文献用的语言,叫关键词语言。
题名:文献的名称,如论文篇名、图书书名、网站名称等。
全文:从文献的全部内容中自动抽取、查找,是目前网上各类搜索引擎使用最多的方法。
引文:将文献所引用的参考文献的作者、篇名、来源出版物抽取出来进行标引。