检索语言又称为标引语言、索引语言,是用于描述信息资源特征,进行信息检索系统存储和信息检索时使用的一种人工语言,以达到与信息检索系统中存储的信息保持一致性,提高信息检索的准确性和检索效率。与其他检索语言相比,其具有以下特点:(1)具有明确的语义和语法规则,准确匹配检索中的任何标引和提问的内容和主题;(2)具有表达概念的唯一性,对同一概念不会有多种表达方式;(3)具有检索标识和对提问特征进行比较和识别的便利性;(4)同时适用于手工检索系统和计算机检索系统。检索语言的主要功能是在信息存储和检索的全过程中,作为信息标引存储人员、检索人员和信息使用用户之间交流的媒介,保证在信息检索过程中检索的顺利完成。
目前,检索语言的类型有几千种,根据不同的划分方法有不同的类型。
首先,可以按照文献特征进行划分,又可分为两类:
第一,以文献外部特征为主的检索语言。描述文献外部特征的检索语言主要有文献题名(篇名、题目等)、作者姓名、出版者、专利号、报告号等,即将不同文献按照文献题名、作者姓名、出版者、专利号、报告号等字序或数序进行排列来满足用户需求的检索语言。
第二,以文献内容特征为主的检索语言。文献内容特征检索语言比文献外部特征检索语言更为复杂,是对文献内容更深层次的揭示,如文献内容所属的学科分类、主题、关键词等,描述文献内容特征的检索语言主要有分类语言和主题语言两大类。
其次,可以按照标识性质和构成原理进行划分,又可分为两类:
第一,分类语言,是按照学科范畴和体系来划分事物的检索语言,它是以数字、字母符号对类目进行标识的一种语言体系,也可称为分类法,还可分为体系分类语言和组配分类语言。
第二,主题语言,是将文献中的主题词作为标引对象,它是以主题词字的顺序列组织文献,也可称为主题法,又可分为标题词语言、单元词语言、叙词语言和关键词语言。
在文献信息存储和检索过程中,应用最广的是体系分类语言、关键词语言和叙词语言,下面将分条细述。
体系分类语言是以学科、专业为基础来组织文献,将知识门类从总到分、从上到下层层划分,逐级展开组成分类表,并以分类表标引文献信息。体系分类语言广泛应用于图书、文献资料的分类和检索中,是图书情报学领域普遍使用的一种分类语言。目前,国际上通用的体系分类表有“国际十进分类法”“杜威十进制分类法”“美国国会图书馆分类法”等,国内通用的体系分类表有“中国图书馆图书分类法”(简称中图法)、“中国科学院图书馆分类法”和“中国人民大学图书馆分类法”。
中图法是典型的体系分类语言,其基本类目表采用字母和阿拉伯数字相结合的方式,对类目表以混合号码制进行划分。中图法基本类目表由5个基本部类、22个大类,以及简表和详表构成。5个基本部类包括:A.马列、毛泽东思想、邓小平理论;B.哲学;C—K.社会科学;N—X.自然科学;Z.综合性图书。这5个基本部类对应22个基本大类(一级类):A.马列、毛泽东思想、邓小平理论;B.哲学;C.社会科学总论;D.政治、法律;E.军事;F.经济;G.文化、科学、教育、体育;H.语言、文字;I.文学;J.艺术;K.历史、地理;N.自然科学总论;O.数理科学和化学;P.天文学、地球科学;Q.生物科学;R.医药、卫生;S.农业科学;T.工业技术;U.交通运输;V航空、航天;X.环境科学;Z.综合性图书。每一个一级类对应简表中的若干二级类,即二级类是一级类的详细分类,每一个二级类又对应详表中的若干三级类,三级类又对应若干四级类。由以上各部类、一级类、二级类、三级类和四级类构成中图法的体系分类。
关键词语言中的“关键词”是指直接从文献标题(篇名、章节名等)、摘要、正文中抽提出来,对表征文献主题内容具有实际意义、未经规范化处理的词语,也就是指与文献主题内容密切相关的、重要的、关键性的词语。关键词对文献内容的表达须直接、准确,不受词表控制,能够及时反映新概念,但不能进行缩检和扩检,从而对提高检索效率具有一定限制性。为提高关键词语言的检索效率,在检索系统的索引编制中,采取了编制禁用词表和关键词表等方法来提高关键词提取的准确程度,例如,《化学文摘》(CA)中的“关键词索引”,能够使得关键词检索达到较高的准确性。
叙词语言是主题语言的高级形式,以叙词作为文献检索标识和检索依据,是经过规范化、具有组配功能,并且可以展示词与词之间关系的词或词组的一种检索语言。叙词语言具有多种优越性,具有单元词法词组组配的基本原理,标题词法对词语的严格规范和参照系统,以及分类法的分类原理,是目前主流的检索语言之一,《化学文摘》(CA)和美国《工程索引》(EI)检索系统都采用了叙词法进行编排。