检索的英文是retrieval或search,其含义是查找。将信息按一定的方式和规律排列存储,并针对用户特定需求查找出所需信息的过程,称为信息检索。信息检索的作用就是充当信息用户与信息源之间的媒介。
信息检索是指将信息按照一定方式收集、组织和存储起来,并根据信息用户的需求找出所需信息的过程。信息检索包括存储和检索两个方面。存储是指将大量无序的信息,根据信息源的外部特征和内容特征,经过分类、标引等处理,使其系统化、有序化,并按一定的技术要求编制检索工具或建立检索系统,供人们检索和利用;检索则指检索者根据文献信息需求,确定检索标识(如主题词、关键词、分类号、著者姓名等)或检索式,利用编制好的检索工具或检索系统查找所需的信息。
信息存储与信息检索是密不可分的两个过程,存储是为了检索,而检索必须先要存储。检索者在检索时,务必使自己的检索特征标识与检索系统中的文献特征标识达到一致或基本一致,方能检出所需要的文献(图1 1)。
图1 1 信息检索原理
信息检索的方法很多,分别适用于不同的检索目的和检索要求,常用的有直接法、追溯法和综合法。
直接法是指直接利用检索系统(工具)查找信息的方法,是最常用的一种检索方法。根据检索信息的时间顺序,又分为顺查法、倒查法和抽查法。
1.顺查法 这是一种根据检索课题的起始年代,利用选定的检索工具,按照从旧到新、由远到近、由过去到现在的顺序逐年查找,直到满足课题要求的检索方法,通过这种方法可以掌握某课题全面发展的情况。顺查法由于是逐年查找,漏检较少,查全率高,在检索过程中可不断筛选,剔除参考价值较小的文献。由于此方法的查全率高,适用于围绕某一主题检索一定时期内的全部文献信息,或者适用于那些主题较复杂、研究范围较大、研究时间较久的科研课题。
2.倒查法 与顺查法相反,倒查法是指利用检索工具,按照由新到旧、由近到远、由现在到过去的逆时序查找,直到满足课题要求的检索方法。这种方法多用于新课题、新观点、新理论、新技术的检索,查找的重点在近期信息上,目的在于获得某学科或研究课题最新或近期一定时间内发表的文献或研究进展情况。此方法省时,查得的信息新颖性高,但查全率不高,只需要查到基本满足检索者需求为止。
3.抽查法 这是一种针对某学科的发展特点,抓住该学科发展较快、文献信息发表较多的年代,拟出一定时间范围,进行重点抽查的检索方法。任何学科的发展都要经历高峰期和低谷期,高峰期所发表的文献数量远高于低谷期的文献数量,抽查法就是重点检索学科高峰期的文献。这种方法的检索效果较好、检索效率较高,但漏检的可能性也比较大,因此检索者必须熟悉某学科的发展轨迹。
追溯法又称回溯法、引文法、引证法,是指不利用检索工具,而是利用文献所列的参考文献为线索进行追溯查找的方法,也是扩大信息来源最简捷的方法。通过追溯法所获得的文献,有助于对课题的立题背景和立论依据等内容有更深的理解。追溯法的优点是简单方便,通过滚雪球式的追踪检索获取所需的信息;缺点是检索到的信息不够全面,查全率较低,且追溯的年代越远,所获得的信息越旧。一般是在缺少信息检索工具的情况下,作为一种辅助方法使用。
综合法又称循环法、交替法、分段法,它是把上述两种方法加以综合运用的方法。首先利用直接法检索出一批相关文献信息,然后精选出与检索课题针对性较强的文献,再利用文献后所附的参考文献进行追溯查找,扩大检索范围,获得更多的相关信息。如此循环使用直接法和追溯法,直到检索到的信息满足检索要求为止。综合法吸取了直接法和追溯法的优点,既可获得特定时期的文献,又可节约检索时间,检索效率较高,是实际检索中采用较多的方法。
总之,在实际检索中究竟采用哪种检索方法最合适,应根据检索要求和检索目的等因素确定。
检索语言是信息检索中用来描述文献特征和表达检索提问内容的一种人工语言。检索语言是文献标引者和文献检索者之间的纽带,检索语言的合理使用能尽量避免信息的误检和漏检,直接影响检索结果质量。
检索语言在信息检索中起着极其重要的作用,它是沟通信息存储与信息检索两个过程的桥梁。在信息存储过程中,用它来描述信息的内容和外部特征,从而形成检索标识;在信息检索过程中,用它来描述检索提问,从而形成提问标识。当检索标识与提问标识完全匹配或部分匹配时,结果即为命中文献。
检索语言的主要作用:①标引文献信息内容及其外表特征,保证不同标引人员表征文献的一致性;②对内容相同及相关的文献信息加以集中或揭示其相关性;③使文献信息的存储集中化、系统化、组织化,便于检索者按一定的排列次序进行有序化检索;④便于将标引用语和检索用语进行相符性比较,保证不同检索人员表述相同文献内容的一致性,以及检索人员与标引人员表述相同文献内容的一致性;⑤保证检索者按不同需要检索文献时,都能获得较高查全率和查准率。
检索语言依其划分方法的不同,其类型也不一样。它们各有利弊,又能取长补短,在实际应用中往往多种并用,相辅相成。
按规范化程度,可分为规范化语言(受控语言)和非规范化语言(自然语言)两类。规范化语言是指对文献检索用语的概念加以人工控制和规范,把检索语言中各种同义词、多义词、近义词、同形异义词等进行规范化处理,使每个检索词只能表达一个概念,如主题词语言;反之,没有进行人工控制和加工的语言则称为非规范语言,也称自然语言,如关键词语言。
按照描述文献的特征,可分为描述文献外部特征的检索语言和描述文献内容特征的检索语言。表达文献外部特征的检索语言主要是指依据文献的题名、著者、文献序号(如专利号、标准号、报告号等)等外表特征作为文献存储和检索标识而形成的语言;描述文献内容特征的检索语言主要是依据文献所属学科、论述的主题、观点等内容特征作为文献的存储和检索标识而形成的语言,主要有分类语言和主题语言两种(图1 2)。
图1 2 检索语言分类
1.分类语言 这是以学科的分类为基础,运用概念划分的方法,按知识门类的逻辑次序,从总到分、从一般到具体、从简单到复杂,进行层层划分,从而产生许多不同级别的类目,层层隶属,形成一个严格按学科门类划分和排列的等级制体系,广泛用于图书、资料的分类和检索,是普遍使用的一种检索语言。分类语言能较好地体现学科的系统性,反映事物之间的联系,把内容性质相近的事物聚集在一起,较好地满足了按学科检索的需要,检索文献具有较高的查全率,便于扩大和缩小检索范围。
(1)分类语言的优点:具有严密性和系统性,最适用于系统检索与浏览查询。
(2)分类语言的不足:不熟悉分类检索语言的人使用起来较为困难,可能会出现漏检;新学科、边缘学科等不能及时反映,不易反映学科交叉、渗透的情况,也不易准确标引或检索主题概念复杂的文献。
2.主题语言 这是直接运用词语作为表达主题概念的标识,并按字顺排列标识和参照系统等方法来间接表达各种概念之间相互关系的检索语言。以主题语言来描述和表达信息内容的处理方法称为主题法。主题语言又分为叙词语言、关键词语言、标题词语言和单元词语言,以下主要介绍叙词语言和关键词语言。
(1)叙词语言:叙词在我国习惯称为主题词,是以概念为基础,经过规范化处理,具有组配功能,显示词间语义关系和动态的词或词组。
一般来讲,叙词具有概念性、描述性、组配性。经过规范化处理后,还具有语义的关联性、动态性、直观性。叙词法综合了多种信息检索语言的原理和方法,具有多种优越性,适用于计算机和手工检索系统,是目前应用较广泛的一种语言。
叙词是以叙词表作为词汇规范化的工具。叙词表亦称主题词表,是按照主题词语义关系的规律排列而成的词典,为文献标引和检索提供规范化词语的词汇表,是主题法的具体表现形式。它从自然语言中选择、汇集了相关的、具有检索意义的词语,加以词类、词形、词义的规范,并显示其相互之间的语义关系,是文献标引、检索时进行主题词查询的工具。在医学文献检索领域,最具代表性的主题词表是美国国家医学图书馆(The United States National Library of Medicine,NLM)编制的《医学主题词表》(Medical Subject Headings,MeSH),以及中国中医科学院中医药信息研究所编制的《中国中医药学主题词表》。
(2)关键词语言:关键词是指出现在文献标题、文摘、正文中,对表征文献主题内容具有实质意义、揭示和描述文献主题内容关键性的词语。关键词法主要用于计算机信息加工抽词编制索引,因而称这种索引为关键词索引。
关键词语言的优点是易标引、快速、直观,缺点是词语不规范,误检率和漏检率都很高。因此,关键词语言适合于随意性较大的浏览性查找或是对查准率要求不高的检索。
分类检索语言能较好地体现学科的系统性,以学科、专业集中文献,从知识分类角度揭示文献在内容上的区别和联系,提供从学科为出发点的检索途径。比较有影响的分类法有《国际十进分类法》《杜威分类法》《中国图书馆分类法》等。
《中国图书馆分类法》(简称《中图法》)是以科学分类和知识分类为基础,并结合文献内容特点及形式特征进行逻辑划分和系统排列的类目表,是类分文献、组织文献分类排架、编制分类检索系统的工具。《中图法》初版于1975年,2010年出版了第5版,是目前我国影响最大、使用最广泛的一部综合性分类法,其结构由基本大类、简表、详表和复分表等组成。
1.基本大类 《中图法》首先以科学分类为基础,结合图书资料的内容和特点,将知识门类分为哲学、社会科学、自然科学三大部类;马克思主义、列宁主义、毛泽东思想、邓小平理论作为一个基本部类列于首位。此外,考虑到文献本身的特点,对于一些内容庞杂、类无专属,无法按某一学科内容性质分类的图书,概括为“综合性图书”,作为一个基本部类,置于最后。在五大部类的基础上,将社会科学和自然科学再进行扩展,共分为22个基本大类(一级类目)(表1 1),如“医药、卫生”类号标识为R。每个大类下面再加以细分。
表1 1 《中图法》一级类目表
《中图法》用分类号表示相应的学科类目,分类号采用字母与阿拉伯数字相结合的混合号码,用一个字母代表一个大类,以字母顺序反映大类的次序,在字母后用数字作标记。
2.简表 这是《中图法》中一级类目下进一步划分出来的二级类目,基本为独立科目。如“R医药、卫生”下设17个二级类目,其类号分别以R和阿拉伯数字组成,其中R2为中国医学的分类标识。
3.详表 由各级类目组成,是分类法的主体,也是文献标引和分类检索的依据。它是简表内容和结构的扩展,类目的排列严格按照概念之间逻辑隶属关系逐级展开,划分出更专指、更具体的类目。《中图法》整个类目表以基本大类为起点,依次逐级细分为二级、三级、四级……直到不宜再细分为止。如“R2中国医学”下设18个三级类目,“R24中医临床学”下设9个四级类目,“R241中医诊断学”下设9个五级类目,“R241.2四诊”下设4个六级类目(图1 3)。详表的类目之间呈现倒树状的线性排列,排列的原则是从整体到部分、从大概念到小概念、从抽象到具体、从上位到下位,层层划分到最小类目,各类目之间表示的是并列、属分或相关关系。
例如,“R241.25舌诊”的分类号从上而下的查找顺序是,R医药卫生→R2中国医学→R24中医临床学→R241中医诊断学→R241.2四诊→R241.25舌诊。
图1 3 《中图法》的分类体系
4.复分表 复分是增强类目的细分化程度,提高类目专指程度的分类措施,复分表是《中图法》的重要组成部分。《中图法》的复分表主要有通用复分表和专类复分表两种,这些复分表的号码不能单独使用,只能加在主分类号后面作为共性区分的标识。《中图法》复分表有8个,分别是总论复分表、世界地区表、中国地区表、国际时代表、中国时代表、世界种族与民族表、中国民族表、通用时间、地点表。其中,总论复分表中描述图书的外部特征如教材、工具书等的复分号如下。
43 教材、课本
44 习题、试题及解答
53 论文集
54 年鉴、年刊
55 连续性出版物
56 政府出版物、团体出版物
6 参考工具书
61 名词术语、词典、百科全书(类书)
62 手册、名录、指南、一览表、年表
629 年鉴
64 表解、图解、图册、谱录、数据、公式、地图
65 条例、规程、标准
66 统计资料
7 文献检索工具
1.主题词表概述 主题词表是信息检索中用以标引主题的检索工具,以利于人们对主题词的选用和查核。医学文献普遍使用的MeSH,具有概念性、规范化、组配性和动态性等特点。
(1)概念性:任何事物都具有一定的概念,概念是对事物本质属性的概括。文献的信息内容代表的也是概念,如中风、糖尿病等词汇,所表达的都是一些反映特定信息内容的概念,故主题语言首先必须具有概念性。
(2)规范化:自然语言中的词汇普遍存在多义、同义、同形异义、同义异形等情况,如先天性心脏病就包括先天性心脏病、先天性心脏缺损、心脏畸形、先天性心脏异常、异位心等多种表达,大大影响了文献标引的一致性,在检索时如只用一个词或其中若干词检索势必会造成大量的漏检,若所有的词都检索一遍,检索效率低下。因此,必须对自然词语进行规范,使同一概念的事物只能用一个规范词汇来表达,即产生了主题词。
(3)组配性:一篇文献往往涉及多个主题,因此对一篇文献的正确描述需要多个概念组配方能完成,这就是主题词与副主题词的组配。副主题词是用来修饰和限定主题词使用范围的规范化名词,使主题词具有更高的专指性和灵活性,如诊断、药物疗法、治疗应用等。副主题词本身无独立检索意义,通常用组配符“/”与主题词一起使用。如“红霉素治疗链球菌感染”的主题标引为“红霉素/治疗应用 链球菌感染/药物疗法”,其中“红霉素”“链球菌感染”是主题词,“治疗应用”“药物疗法”是副主题词。
(4)动态性:指主题词表的词是随着医学文献内容的变化而不断更新变化的,每年对词表内容进行更新,MeSH词表每年更新。
2.医学主题词表 MeSH是目前最权威、最常用的医学主题词表,MEDLINE/PubMed、中国生物医学文献服务系统(SinoMed)和很多医学图书情报单位用它编制馆藏图书和期刊的主题目录。该词表不仅收词丰富、注释详尽,而且动态性强,伴随生物医学的发展和进步,NLM每年都要对其进行增删修订。从2004年开始,NLM每年更新网络版MeSH Browser(《医学主题词表》浏览器),是因特网上利用电子版MeSH来确定主题词、副主题词,以便检索MEDLINE及其相关数据库的必备工具(图1 4),它包括注释字顺表、树形结构表、轮排表及补充的化学记录等内容。
(1)使用方法:MeSH Browser提供“输入检索词”(Enter Term or the Beginning of Any Root Fragments)与“树形结构表浏览”(Tree View)的方式来确定所需的主题词、副主题词。
图1 4 犕犲犛犎犅狉狅狑狊犲狉主页
1)输入检索词:在输入框中,输入检索词或词根,选择目标词类型,点击检索词与目标词匹配模式,选择排序方式和每页显示的条数,即可获得包括检索词在内的目标词列表。
2)目标词类型限制:所检索的目标词可在相应类型作选择。所有选项(All Terms)类型包括主题词[Main Headings(Descriptor)Terms]、副主题词(Qualifiers Terms)、补充概念词(Supplementary Concept Record Terms),主题词ID号(MeSH Unique ID)、在所有补充概念词字段检索(Search in all Supplementary Concepts Record Fields)、药理作用(Pharmacological Action)和相关注册表搜索(Related Registry Search)、化学物质登记号/酶学委员会编号/独特的成分标识符编码/NCBI分类ID编号搜索[Search Related Registry and CAS Registry/EC Number/UNII Code/NCBI Taxonomy ID Number(RN)]、在所有自由文本字段中搜索(Search in all Free Text Fields)。
3)检索词与目标词匹配模式:输入的检索词或词根与目标词之间有精确匹配(Exact Match)、全部检索词(All Fragments)或任一检索词(Any Fragment)三种匹配模式。其中,精确匹配要求检索到的目标词与输入的检索词之间完全一致,如输入检索词“Acupuncture”,限定“Exact Match”,只能检索到“Acupuncture”一个主题词。全部检索词会以任何特定顺序查找包含搜索字符串的所有片段的术语,检索到的目标词包括输入的全部检索词或词根的词,检索词或词根之间是逻辑“与”的关系。如输入检索词“Blood Pressure”,限定“Main Heading(Descriptor)Terms”,点击“All Fragments”,可以检索到包含“Blood Pressure”在内的所有主题词,如“Blood Pressure Determination”等共10条检索结果。任一检索词会查找包含搜索字符串的至少一个片段的术语,多数主题词由两个以上的词构成,只要输入的检索词或词根,无论其位置在开始或中间,都可以检索到,检索词或词根之间是逻辑“或”的关系。如输入检索词“Blood Pressure”,限定“Main Heading(Descriptor)Terms”,点击“Any Fragment”,可以检索到包含“Blood”或“Pressure”的所有主题词,共205条检索结果。
(2)主题词注释表:主题词注释表显示该主题词及其注释。通过注释、参照系统与树形结构号,表达主题词的历史变迁、主题词的族性类别、揭示主题词之间语义关系,其作用是选择规范化主题词和扩大检索范围。如输入检索词“Asthma”时显示该主题词的详细信息(图1 5)。
图1 5 主题词注释字顺表
(3)树形结构表:点击“Tree View”,就会显示树形结构表的16个一级类目(图1 6)。
图1 6 树形结构表
选择类目可以逐级浏览并选择所需主题词,若树形结构号后面有“+”,则表明该主题词还有下位主题词。树形结构表中主题词共分为16个类别,每一个大类用一个字母来表示,大类可分为若干个小类,以此类推,最多可细分成11级,树形结构号由代表该类的字母与数字组成,每级的数字以小数点隔开。如:
通过树形结构表可以了解主题词在主题词表中的位置及隶属关系,可以从学科体系中查找主题词。检索时若找不到适当的主题词,可根据检索课题的学科范围,在结构表中找到满意的主题词。在检索中如果需要扩大或缩小检索范围,可根据树形结构表中主题词的上下位等级关系选择主题词,需扩大检索范围时就选择其上位概念的主题词,需要缩小检索时则选择其下位概念的主题词。
(4)副主题词(subheading):这是限定主题概念的规范化词汇,对主题词起细分作用或揭示多个主题词之间的关系。副主题词单独检索无实际意义,其作用是对主题词进行限定,以提高主题词的专指度,从而提高查准率。在MeSH Browser主页,目标词类型选择“Qualifiers Terms”即可进行副主题词的查询,查询方法同主题词检索,如输入“diagnosis”,即可得到该副主题词的详细结果页面(图1 7)。
图1 7 副主题词检索结果页面
3.《中国中医药学主题词表》 这是将中医药学科领域自然语言转换成规范化中医药名词术语的一种术语控制工具,是由语义相关、族性相关的中医药学术语组成的规范化动态词典。1987年正式出版《中医药学主题词表》,1996年修订后更名为《中国中医药学主题词表》,2008年第三次修订,2015年网络版发布。《中国中医药学主题词表》能够完整表达中医药概念,且收录众多入口词,可为课题研究、数据库构建等工作中的术语规范、词典构建等提供数据来源。
(1)主题词检索:用户登录后,默认为主题词检索,检索入口处提供“主题词和入口词、注释、可组配副主题词”选项,可选择模糊或精确查询。如选择“主题词和入口词”,输入“肝经”,即可得在主题词或入口词中包含“肝经”一词的所有结果(图1 8)。
图1 8 《中国中医药学主题词表》主题词检索页面
查看主题词详细信息:在检索结果列表中,单击一条主题词,它的详细信息会在一个新的页面中显示,包括主题词的汉语拼音、英文主题词、入口词、树形结构号、标引注释、历史注释、检索注释和可组配的副主题词等,可同时打开多个主题词的详细信息页面。在主题词详细信息页面,相关主题词和主题词树都是超链接,单击可以打开相关主题词和主题树中主题词的详细信息页面。主题词可组配的副主题词中列举了本主题词可以组配的副主题词,单击副主题词蓝色的字母缩写,可显示副主题词的定义,以便于用户正确的使用副主题词(图1 9)。
图1 9 《中国中医药学主题词表》主题词详细信息页面
(2)主题词树浏览:此页面中的树形结构表又称范畴表,是将主题词按中医药学学科理论体系及学科范畴划分为15个子类及二级子类目,在子类下显示出隶属于该类目的主题词,按属分关系逐级展开呈树型结构,每个主题词均有字母数字标识以显示主题词的级别;范畴划分做到了与MeSH的范畴兼容。点击主题词树中主题词前的加号图标,可以将主题树逐级展开(目前只允许展开顶部两层主题词)。单击某个主题词,可以打开其详细信息页面(图1 10)。
图1 10 《中国中医药学主题词表》主题树浏览页面
(3)副主题词浏览:此页面可以查看到全部副主题词列表,一共有93个副主题。副主题词列表默认按副主题词的编码排序,也可以通过列表右上方的排序选项,使副主题词列表按中文名称或英文名称排序(图1 11)。副主题词浏览可以方便理解副主题词含义。
93个副主题词中包含了10个有关中医药副主题词。
1)中医药疗法:与疾病、症状、证候等主题词组配,是指以中医基础理论为指导,投予中药或正骨、刮搓、割治等治疗疾病。如系投予口服药物,可不加组配用法主题词,否则应组配投药途径,如外治法、熏洗疗法、投药、直肠(保留灌肠法)等。中西药合并治疗时,不用此副主题词,而用“中西医结合疗法”。以气功、推拿、按摩等非药物疗法治疗疾病时,用相应的副主题词。
2)中西医结合疗法:与疾病、症状与证候主题词组配,是指同时采用中西医两法或综合应用中西药物治疗疾病。
3)针灸疗法:与疾病、症状、证候主题词组配,是指按照中医理论及经络学说,用针刺、灸法(包括电针、耳针、头针、艾卷灸、艾炷灸等)治疗疾病。但穴位埋藏、激光、微波、穴位按压等非针的穴位疗法及药物穴位贴敷、穴位注射等,用“穴位疗法”。除了体针疗法外,其他需组配专指的针灸疗法主题。
图1 11 副主题词浏览页面
4)按摩疗法:与疾病、症状与证候主题词组配,是指用按摩、推拿、捏脊等手法治疗疾病。但穴位按压用“穴位疗法”。
5)穴位疗法:与疾病、症状与证候主题词组配,是指在穴位上施用各种刺激,如激光、红外线、指压或穴位敷药、穴位注射、穴位埋线、穴位埋药、穴位磁疗等的物理、化学刺激方法以治疗疾病。针刺及灸法用“针灸疗法”。
6)气功疗法:与疾病、症状与证候主题词组配,是指运用气功(如外气)或指导患者练功,以达到治疗疾病的目的。
7)气功效应:与器官、组织、内源性物质、生理或心理过程主题词组配,是指气功对其产生的效应。
8)针灸效应:与器官、组织、内源性物质、生理或心理过程主题词组配,是指针灸对其产生的效应。
9)中医病机:与脏腑、器官、疾病、症状及证候主题词组配,是指按照中医基础理论对疾病、脏腑、器官、组织、气血等病理生理过程及其机制的认识。
10)生产和设备:与中草药、中成药、剂型等主题词组配,是指其中药生产、加工、炮制与制备。如为中草药的炮制,应再组配主题词“炮制”。
检索者的检索需求不外乎两种:一是要根据已知文献外表特征查找指定的文献,如由题名、作者名等查找;二是要查出具有所需内容特征的文献,如根据学科或围绕某一课题收集有关资料。为了满足检索者这两种检索需求,大多数检索工具均提供了按照文献的外表特征和内容特征进行信息检索的两条途径(图1 12)。
检索途径是信息检索工具的检索入口,即信息检索工具提供的、用以查询获取资源的各种标识,在计算机检索中表现为字段检索。不同的信息检索工具,因编制方法不同,检索方法和检索途径也不尽相同,但各种检索工具都是根据信息的外部特征和内部特征来编排,形成了特定的检索途径。检索信息时,也要以这些特征或检索工具提供的检索标识作为检索入口。
图1 12 检索途径示意图
1.基于文献外表特征的检索途径 文献外部特征是文献检索对象外表标识上可见的特征,如题名、序号。它们直接来源于文献本身,与文献存在一一对应的关系,查准率高。
(1)题名途径:利用图书、期刊、论文等名称中的名词术语进行检索的途径,如书名、刊名、篇名,是信息检索中最常用的途径,题名途径多用于查找图书、期刊、单篇文献。由于文献题名一般能反映文献的主要内容,故利用题名中名词术语可以比较准确地查找到所需文献。
(2)著者途径:指根据已知文献的作者查找文献的途径。文献的作者包括作者、编者、译者、团体作者、专利人、学术会议主办单位等。著者途径可以查到同一著者的多种著作,能够比较全面地了解某一著者或团体的研究成果。外文检索工具中,一般采取个人著者姓用全称,名用缩写的格式。同时,要根据著者的专业及其他特征进一步鉴别,以免误检。由于专业研究人员一般各有所长,尤其是某些领域的知名学者、专家,他们发表的文献具有相当的水平或代表该领域发展的方向,通过著者检索,可以系统地发现和掌握他们研究的发展状况。
(3)序号途径:指利用文献特有的序号作为检索入口来检索信息的一种途径,如专利号、标准号、ISBN、ISSN、报告号等。序号途径最大的优点是它的检索方法以数字为准,具有明确、简短、唯一性的特点,不易错检或漏检,是一种很实用的信息检索途径,但必须以事先知道文献的序号为前提。
2.基于文献内容特征的检索途径 文献内容特征是指文献表达的主题概念、观点等,反映文献的实质内容,这些内容往往隐含在文献所记载的知识信息中。以文献的外部特征作为检索途径适用于查找已知文献题名、著者姓名或序号的文献,而以文献内容特征作为检索途径更适用于检索未知线索的信息,主要有分类途径、主题途径。
(1)分类途径:指按照信息内容在特定学科分类体系中的位置(类目名称或分类号)作为检索入口进行检索的途径,可满足从学科、专业等角度获取信息的需要。检索标识就是类目名称或分类号码。
(2)主题途径:指通过文献的主题内容进行检索的途径,主要有主题词途径和关键词途径。
1)主题词途径:指通过揭示文献内容、经过规范化处理的主题词进行检索的途径。主题词途径可以将分散在各个学科中的有关文献集中于同一主题之下,便于分析选择。利用主题词途径进行信息检索,必须准确选择主题词和副主题词的合理组配,如果主题词选择不准或组配不当,检索效果就会大大下降。
2)关键词途径:指以文献的篇名、文摘或全文中抽出来的能表达文献实质内容、起关键作用的名词术语作为检索标识进行信息检索的途径。关键词与主题词不同,它不需要经过规范化处理,完全取自原文。优点在于简单、方便,一些新兴的名词术语,即使未经过规范化处理,也能及时进入检索系统。但由于关键词没有经过规范处理,同一概念可能用不同的关键词来表述,不易控制,检索时必须充分考虑与使用的关键词内容相关的同义词、近义词,否则容易造成漏检。
信息检索系统是指根据特定的信息需求而建立的一种有关信息收集、加工和传送的技术设备,以及提供一定的存储技术、检索方法与检索服务功能的程序化系统。信息的存储是检索的基础,检索则是存储的目的,两者有机结合,构成一个完整的信息检索系统。信息检索系统既是一类基于计算机和网络的人机交互信息系统,又是连接信息用户和信息资源的必要中介。因此,信息技术的每次更新与变革,都会有力地推动信息检索方式的改变,有利于信息检索系统的发展与完善。随着科技的发展、文献量的激增、用户需求的增长,信息检索系统越来越复杂,功能越来越强大。
信息检索系统种类繁多,根据不同的标准,可以划分为许多不同的类型,目前常用的类型有手工检索系统和计算机检索系统。
1.手工检索系统 这是以手工方式存储和检索信息的系统。检索时,使用各种纸质检索工具,用人工来处理和查找所需信息,全凭手工操作,依靠检索者手翻、眼看、大脑判断进行。手工检索的优点是直观、方便、灵活,可随时修改检索策略,查准率较高;缺点是检索入口少、速度慢、效率较低、不便于进行复杂概念课题的检索。手工检索是计算机应用还没普及之前信息检索的主要形式,现已很少用了,但有时也是对计算机检索的有益补充。
2.计算机检索系统 这是20世纪50年代以后发展起来的。它是一个在计算机网络的工作环境下,为实现信息检索目标而建立的,拥有一定的检索设备,存储经过加工的各种信息资源,并能提供检索服务的工作系统;借助计算机技术、数据库技术和通信技术,通过人机对话的方式从主机上获取所需信息。检索时可以同时进行多途径的复合检索,可以同时对多种数据库进行操作,并能提供远程检索。其优点是检索灵活、检索入口多、速度快且效率高。随着计算机网络的迅速发展,计算机检索系统已经成为人们在工作、生活、学习中获取信息的主要手段。
计算机检索系统的发展经历了脱机检索系统、联机检索系统、光盘检索系统和网络检索系统四个阶段。
(1)脱机检索系统(1954—1964年):最早的脱机检索系统是1954年美国海军兵器中心图书馆建成的。用户不直接与计算机对话,而是将检索需求交给信息检索人员,由检索人员将检索提问集中起来,定期、成批上机检索,然后集中将检索结果提供给用户,又称脱机成批检索。第一台计算机诞生于1946年美国的宾夕法尼亚州。
(2)联机检索系统(1965—1972年):1963—1964年,美国洛克德导弹与空间公司的情报实验室建立了“人机对话”的联机情报检索系统(DIALOG系统的前身),20世纪60年代末到70年代初,联机检索系统得以快速发展,国际著名的DIALOG系统、ORBIT系统、MEDLINE系统都是这个时期发展起来的。联机检索系统是指通过通信网络连接远程多个计算机终端的联机信息检索系统,因此多个远程终端用户能同时与主机进行“对话”,并进行实时联机检索。由于这个阶段的计算机网络主要通过电话线连接,联机检索受到地区限制。
(3)光盘检索系统(1985年—20世纪90年代):这是利用光盘数据库作为信息资源数据建立起来的计算机检索系统,分为单机版和网络版。光盘是用激光束把信息记录在光介质上并能读出信息的一种高密度存储载体,根据存取信息方式的不同,可分为只读型光盘、一次写入光盘、可擦重写型光盘。光盘具有存储密度高、容量大、易保存、读取迅速、操作简便、成本低等优点。光盘检索提高了检索效率,降低了检索费用。
(4)网络检索系统(20世纪90年代至今):这是指将物理位置相对分散的计算机及其外围设备利用通信媒介互联起来,在网络软件的支持下,构成资源共享和数据交互的检索系统。网络检索系统的特点是信息资料丰富、检索方便、不受时空限制、费用低廉,是目前发展最快、最受欢迎的信息检索系统。
信息检索评价就是利用检索工具(或系统)开展检索服务时,对检索的效果进行评价。衡量检索结果对用户需求的满足程度,是检索系统性能的直接反映。
对传统的信息检索系统进行评价时,主要的性能评价指标通常以查全率和查准率这两个指标来衡量。
1.查全率(recall ratio,R) 这是系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度,反映该系统中实有的相关文献量在多大程度上被检索出来。可用下面的公式表示:
查全率R=(检出的相关文献量/系统文献库中相关文献总量)×100%=a/(a+c)×100%
式中,a代表检出的相关文献量,c代表未检出的相关文献量。
例如,利用某个检索系统进行检索,假设在该检索系统中共有相关文献为100篇,而只检索出来80篇,那么查全率就只有80%。
在查全率的基础上,又衍生了一个指标,即漏检率,是指没有被检出的相关文献数量与系统文献库中相关文献总量的比率,漏检率与查全率是一对互逆的检索指标,查全率高,漏检率必然低。
2.查准率(precision ratio,P) 这是检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的,反映了检索的准确性,有人也称查准率为“相关率”。可用下面的公式表示:
查准率P=(检出的相关文献数量/检出的文献总量)×100%=a/(a+b)×100%
式中,a代表检出的相关文献量,b代表检出的不相关文献量。
例如,检出的文献总篇数为100篇,经分析确定其中相关的只有80篇,另外20篇与该课题无关。那么,这次检索的查准率就只有80%。
在查准率的基础上,又衍生了一个指标,即误检率,是指检出的不相关文献数量与检出的文献总量的比率,误检率与查准率是一对互逆的检索指标,查准率高,误检率必然低。
查全率反映所需文献被检出的程度,查准率则反映系统拒绝非相关文献的能力,两者结合起来反映检索系统的检索效果。查全率和查准率之间存在着相互制约的现象,在一个特定的检索系统中,在查全率不断提高的同时,查准率就会降低;反之,在查准率提高的同时,查全率又会降低。查全率和查准率这种互逆的关系,使得在检索中很难实现查全率和查准率均逼近100%。因此,在实际检索过程中,必须同时兼顾查全和查准,不可片面追求某一方面,要根据课题的实际需求,确定是以查准为主还是以查全为主,或是寻求查准与查全之间的平衡。
现实中影响检索效果的因素有很多,如检索系统(或工具)的收录范围、标引质量、检索人员的自身素质以及所制定的检索策略,都与查全率、查准率存在非常密切的关系。要达到最佳的检索效果,一方面,应当深入了解各种检索工具的覆盖面、索引方式、标引质量,从中选择最恰当的高质量检索工具,必要时可综合使用多种检索工具;另一方面,应当结合各种信息检索技术,灵活运用各种检索方法,优化检索策略,从而最大限度地发挥检索系统的功能。
在网络环境下,信息检索的评价指标体系主要包括对数据库自有的评价、信息检索数据库的评价、信息检索结果的评价、检索功能的评价和用户负担的评价。
1.数据库自有的评价指标 目前大多数的数据库可以通过自有的检索功能或指标帮助检索者对检索结果进行质量评价,可通过来源出版物是否被权威数据库收录、期刊影响因子与分区、是否是核心期刊等信息的呈现对检索结果进行质量评价;通过将检索结果按被引频次的高低进行排序,筛选出高被引的文献;通过聚类分析对某一主题中领先的机构、作者以及资助基金的级别等进行筛选,找出某一主题中权威机构、专家、高基金级别的检索结果。
2.信息检索数据库的评价指标 主要包括对数据库收录范围、更新频率、更新周期、权威性的评价。收录范围是评价一个数据库(检索工具)的最基本的指标,在传统的计算机信息检索系统中,数据库的覆盖率是影响其检索性能的重要指标,它直接影响系统的查全率。更新频率是网络信息检索性能评价的另一个重要指标,在不考虑成本的情况下,检索工具数据更新频率当然是越快越好。如果更新频率太慢,跟不上网上信息的更新速度,就会出现死链。更新周期是指网络信息源的更新频度、时效性,一个好的信息检索工具,除了内容丰富、查找迅速外,还应该对数据库中已有内容进行审核、更新,及时删除死链接、坏链接。权威性主要体现在出版者、审查制度和收录文献三个方面,主要是指数据库中包含的出版物的学术情况,用于评估数据库的学术性、科学性和可靠性。但数据库内容的权威性,是一个有争议的指标。
3.信息检索结果的评价指标 主要包括查全率、查准率、响应时间、链接可靠性的评价。查全率和查准率前文已叙述。响应时间是指从发出检索指令到检索结果返回需要的时间。在网络信息检索中,响应时间在相当大的程度上取决于用户使用的通信设备和网络的拥挤程度等外部因素。链接的可靠性是网络信息检索性能评价特有的评价指标,与数据更新频率有关。显而易见,如果链接的可靠性很差,断链、死链太多,就会出现找不到原始文献的情况,那么命中记录再多也没有用。
4.信息检索功能的评价指标 包括基本检索和高级检索。基本检索功能包含布尔检索、截词检索、邻近检索和字段检索等,高级检索由加权检索、精确和模糊检索、相关信息反馈检索、概念检索、自然语言检索等组成,目前采用的一些检索功能主要有以下10种。①布尔逻辑检索,有的用AND,OR,NOT(或者小写),有的以符号(*,+,-)代替,还有的直接把布尔逻辑算符隐含在菜单中;②短语检索,又称精确检索,检索出与“”内形式完全相同的短语;③截词检索,允许在检索标识中保留相同的部分,用相应的截词代替可变化部分,以扩大检索范围;④邻近检索,又称位置检索,用一些特定的位置算符表达检索词与检索词之间的位置关系;⑤区分大小写检索;⑥全文检索,对网页全文中的每个词进行检索;⑦模糊检索,又称概念检索,检索系统不仅反馈包含了关键词的信息,而且也发来与关键词意义相近的内容;⑧自然语言检索,又称智能检索,直接采用自然语言中的字、词、句作提问式检索;⑨多语种检索,提供多种语言的检索环境供用户选择,系统按用户选定的语种进行检索并反馈结果;⑩限制检索,使用户在某一范围中进行检索,包括类别范围、地域范围、时间范围、语言范围、网站类型、文件类型、域名、位置等。限制检索实现的方法各不相同,有些是通过在关键词后加特殊的字符,有些是通过下拉菜单。
以上检索功能并不是要求每个检索系统都必须同时具备上述功能,但至少应该支持布尔逻辑等基本检索,而大型的网络信息检索系统则功能更多些。
5.用户负担的评价指标 主要包括输出格式的灵活性、显示的内容、显示数量、检索结果的排序、对检索结果的处理、检索结果输出等。