信息检索技术是指利用信息检索系统或者信息检索工具检索有关信息而采用的一系列技术。由于计算机检索系统的普及和手工检索系统的边缘化,现在的信息检索技术主要是指基于计算机检索系统的检索技术。计算机检索技术是用户信息需求和文献信息集合之间的匹配比较技术。而在信息检索过程中,为了保证检索结果的快、全、准,仅靠一个检索词组成的检索式进行检索,难以满足检索的需要,有时需要用各种运算符将若干个检索词(关键词、主题词)组成检索表达式进行检索。所以,检索式就是用户需求与信息集合之间匹配的依据,信息检索技术的实质就是检索式的构造技术。
根据信息的内容不同,信息检索技术可以分为文本检索技术、图像检索技术、音频检索技术、视频检索技术等。其中,文本检索技术是目前比较成熟、广泛使用的技术,包括布尔逻辑检索、截词检索、限制检索、位置检索、加权检索、聚类检索、精确检索与模糊检索、全文检索、向量空间检索、基于概率检索、基于逻辑模型检索等,本节主要介绍前五种检索技术。
布尔逻辑检索(Boolean searching)是一种比较成熟的、较为流行的检索技术,被很多搜索引擎和数据库采用。检索信息时,利用布尔逻辑算符进行检索词的逻辑组配,是常用的一种检索技术,由英国数学家布尔(George Boole,1815—1864年)提出,故称布尔逻辑算符。在实际检索中,检索提问涉及的概念往往不止一个,而同一个概念又往往涉及多个同义词或相关词。为了正确地表达检索提问,采用布尔逻辑算符将不同的检索词组配起来,把一些具有简单概念的检索单元组配成一个具有复杂概念的检索式,更加准确地表达用户的信息需求。基本的布尔逻辑有逻辑与、逻辑或、逻辑非三种。它们的用法和意义可用示意图表示(图1 13)。
图1 13 布尔逻辑组配示意图
1.逻辑与 这是反映概念之间交叉和限定关系的一种组配,常用AND或“*”来表示。A AND B或A*B,表示一篇文献中A、B必须同时包含。其作用是缩小检索的范围,提高查准率。如查找有关“青蒿素治疗疟疾”方面的文献,布尔逻辑表达式为:青蒿素AND疟疾,检索结果:内容中既含有检索词“青蒿素”又含有检索词“疟疾”的文献,为命中记录。
2.逻辑或 这是反映概念之间并列关系的一种组配,常用“OR”或“+”表示。A OR B或A+B,表示一篇文献中A、B两者有一即可,也包括两者同时存在。其作用是扩大检索范围,提高查全率。通常可以运用在以下两个方面:第一,查找多个方面的文献,如查找“甲型肝炎或乙型肝炎”方面的文献,布尔逻辑表达式为:甲型肝炎OR乙型肝炎,检索结果:内容中含有检索词“甲型肝炎”或含有检索词“乙型肝炎”以及两词都包含的文献,为命中记录。第二,考虑检索词的同义词、近义词,如查找有关“糖尿病”的文献,由于消渴、糖尿病两者是同一种病中医和西医的不同名称,属于并列关系,为防止漏检,布尔逻辑表达式应为:消渴OR糖尿病。
3.逻辑非 这是表示不含某种概念关系的一种组配,即从检出的文献中剔除部分文献。常用“NOT”或“-”表示。A NOT B或A-B,表示一篇文献中包含A但不包含B。逻辑非也是一种缩小检索范围的概念组配,用来增强专指性,或减少文献数量。逻辑非运算是一种排除性运算,用来排除指定的某类信息,以提高查准率,但使用时要谨慎,否则会造成漏检。如查找“哮喘”但不包含“小儿”的文献,布尔逻辑表达式为:哮喘NOT小儿,检索结果:内容中含有检索词“哮喘”而不含有检索词“小儿”的文献,为命中记录。
对于同一个逻辑,检索系统的处理是从左至右,现行所有检索系统在这一点上基本是一致的。而当多个布尔逻辑算符在一个检索式中出现时,它们的运算“级别”是不同的,且在各个检索系统中也可能不一致,通常在检索系统的帮助文件中都会有说明。在一个检索式中,如果含有两个以上的布尔逻辑符,大部分系统的运算次序是:“NOT”优先级最高,“AND”次之,“OR”最低。在有括号的情况下,先执行括号内的逻辑运算;有多层括号时,先执行最内层括号中的运算,即:()>NOT>AND>OR。如检索中药或饮食疗法治疗高血压的文献,但不要实验研究方面的文献,检索式可表达为:
[(中药疗法OR饮食疗法)AND高血压]NOT实验
使用布尔逻辑算符的各种组合虽能满足用户多样化的检索需求,但要灵活运用。当检索结果太多,超过数百篇时,不太可能一一阅读,这时可以用AND增加一些检索词,或者用NOT去除一些不相关的概念;当检索结果太少或者为0时,可能是检索式不太正确,可以用OR增加一些同义词、近义词。此外,在不同的检索系统中,对布尔逻辑算符的写法有具体的规定,在检索前需要细读规则。例如,使用搜索引擎检索“青蒿素疟疾”,中间的空格就是系统默认执行了AND(逻辑与)的运算。
利用检索词的词干或不完整词形进行查找的过程称为截词检索。截词检索可以扩大检索范围,提高查全率,减少检索词的输入量,节省检索时间。尤其在英文检索系统中检索时,若遇到名词的单复数形式、词的不同拼写法、词的后缀变化时,均可采用此方法。
不同的检索系统所用的截词符可能不同,常用的有?、$、*、%等。截词检索按截断的位置分,有前截断、中截断和后截断三种;按截断的字符数量分,有无限截断和有限截断两种,两者的区别在于对被截断部分的字符是否有限制。无限截断通常用“*”表示,即一个截词符可代表0~无限个字符;有限截断通常用“?”表示,即一个截词符只代表一个字符,N个截词符代表截断0~N个字符。
前截断即截去某个词的前部,使词的后方一致,也称后方一致检索。例如,输入*magnetic,能够检出含有magnetic、electromagnetic、paramagnetic、thermomagnetic等词的记录。
中截断即截去某个词的中间部分,使词的两边一致,也称两边一致检索。例如,输入organi?ation,可以检出organisation、organization。其中,截词符“?”既表示中截断,又是有限截词符。
后截断即截去某个词的尾部,使词的前方一致,也称前方一致检索。例如,输入biolog*,将会把含有biological、biologic、biologist、biologize、biology等词的记录检索出来。其中,截词符“*”既表示后截断,又是无限截词符。
任何一种截词检索,都隐含着布尔逻辑检索的“或”运算。采用截词检索时,既要灵活,又要谨慎,截词的部位要恰当,截词符前面的词干不能太短,否则可能造成大量误检。另外,不同检索系统使用的截词符可能不同,在实际检索中应加以注意。
在检索系统中,限制检索是计算机数据库系统中最常用的检索方法,为了提高或保证检索的准确率,常常提供一些缩小或约束检索结果的检索技术,称为限制检索,主要包括限定字段检索和二次检索。
最主要的限制检索技术是通过限制检索词在命中记录中的出现位置(主要指文本数据库记录的不同字段位置)来实现,这种限制检索也称限定字段检索,是指限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索方法。数据库的每条记录通常由多个代表不同信息内容的字段组成,检索字段又称检索入口,包括基本检索字段和辅助检索字段。基本检索字段是反映信息内容特征的字段,如题名、摘要、关键词、主题等;辅助检索字段是指反映信息外部特征的字段,如来源出版物、出版年、出版地等(表1 2)。一般情况下,系统在默认的若干基本字段或全部字段中检索,检索含有这些检索词的信息记录。几乎所有数据库检索系统中均设置了限定字段检索功能。使用限定字段检索可以缩减检索结果,提高信息检索的查准率和检索效率。
表1 2 常用的中英文检索字段
上述DOI全称为Digital Objects Identifier,即数字对象标识符,是由一系列数字、字母或其他符号组成的字符串,目前被广泛应用在数字资源的标识。DOI号由前缀和后缀两部分组成,之间用“/”分开,并且前缀以“.”再分为两部分。目前,世界上很多知名学术出版机构都使用DOI作为数字资源的标识符,并通过DOI相关系统提交出版刊物的元数据、下载链接、文摘信息等,DOI官网链接为https://www.doi.org/。因此,用户借助DOI可以获取该文献对应的元数据、下载链接,进而获取文摘信息、全文。例如,已知文献的DOI号是10.3390/s20082176,进入官网输入DOI号进行查找,很快就可检索出文献题名为“Coherent Integration Method Based on Radon-NUFFT for Moving Target Detection Using Frequency Agile Radar”的原文链接。
1.限定字段检索方式 限定字段检索的方式有两种。
(1)检索命令方式:命令方式使用系统规定的字段检索符号及字段代码,如“AU=Smith”,表示检索词“Smith”限定在作者字段;如“题名:白血病”,表示检索词“白血病”限定在题名字段。又如在PubMed数据库中查找题名含有“hypertension”的文献,可在检索框中输入检索提问表达式:hypertension[TI]或hypertension[title]。
(2)菜单选择方式:这是在检索界面字段列表的下拉菜单中进行选择。大多数的数据库都会使用下拉菜单的方式将检索字段提供给检索者选择,而检索界面上默认的检索字段一般是篇关摘、主题或者全字段,目的是为了保证查全率。
2.使用字段检索的注意事项
(1)检索时,为达到较好的检索效果,一般综合多个字段进行。如同时限定检索“主题”字段、“出版年”字段、“来源出版物”字段、“作者单位”字段等。
(2)在使用“全文”和“所有字段”这两个字段进行检索时要慎重,检索出来的结果较为分散,不利于专题研究。
(3)不同的检索系统会根据其特点增加一些特殊的检索字段,如Web of Science核心合集中的入藏号(WOS),入藏号是与WOS产品中每条记录相关联的唯一标识号,是该数据库特有的字段。
除了限定字段检索外,进行限制检索的另一种常见形式是“二次检索”,即在提供给检索者的检索结果中进行再次检索。二次检索是在一次检索的检索结果中运用“与、或、非”进行再限制检索,以得到理想的检索结果,“在结果中检索”即为二次检索。不管是快速检索还是高级检索界面,只要检索结果的篇数允许,就可以反复进行二次检索,直到满足检索要求为止。二次检索可以减少重复输入,节省检索时间。
位置检索反映两个检索词在文献中的位置邻近关系,又称邻近检索,是逻辑算符“AND”的延伸,适用于两个检索词在同一篇文献中需要指定间隔距离或出现顺序的检索表达式。常用的位置逻辑运算符有(W)与(nW)、(N)与(nN)等。
W是with的缩写,两词之间使用(W),表示其相邻关系,即词与词之间不允许有其他词或字母插入,但允许有一空格或标点符号,且词序不能颠倒。使用(W)运算符连接的检索词,已构成一个固定的词组,显然(W)运算符具有较强的严密性。例如,“Gas(W)Chromatograph”表示检索结果包含Gas Chromatograph和Gas-Chromatograph形式的词才为命中记录。(nW)是由(W)衍生而来的,如在两词之间使用(nW),表示两词之间可插入n(n=1,2,3…)个词,但词序不能颠倒。它与(W)的唯一区别是,允许在两词之间插入n个词,因而严密性略逊于(W)。例如,“Laser(1W)Printer”表示检索结果包含“Laser Colour Printer”和“Laser and Printer”形式的词均为命中记录。
N是near的缩写,表示该算符两侧的检索词同时出现在记录中,两词次序可以颠倒,两词之间不允许有任何字母或词语。例如,“traditional (N)chinese”表示检索结果为“traditional chinese”和“chinese traditional”均为命中记录。(nN)除了具备(N)运算符的功能外,还允许两词之间插入0~n个词,且不论次序。例如,cancer(2N)cells,表示检索结果包含“cancer cells”“cells of cancer”“cells of lung cancer”形式的词均为命中记录。
S是sub-field的缩写,(S)算符用于限定算符两侧的检索词必须出现在记录的同一个句子中,两个检索词之间间隔的单词数不限,词序不限。例如,“hypertension(S)diagnosis”在摘要中进行检索,表示只要在摘要中的同一个句子中检索出含有“hypertension”和“diagnosis”的均为命中记录。
F是field的缩写,(F)算符用于限定两个检索词出现在数据库记录中的同一个字段,具体字段不限,词序不限。例如,“hypertension(F)diagnosis”表示hypertension和diagnosis这两个检索词必须出现在命中记录的同一字段中。
使用位置检索时应注意,当检索式中同时出现布尔逻辑算符和位置算符时,系统会先执行位置算符,可以通过括号来改变检索的优先顺序;在不同的检索系统中,位置检索的语法命令不尽相同,在使用之前务必先查阅使用规则。
加权检索是某些检索系统中提供的一种定量检索技术,根据检索词对检索课题的重要程度,事先指定不同的权值。数据库对每个检索词赋予一个数值表示其重要程度,这个数值就是“权”。权值的大小可以表示为被检出文献的切题程度,权值越大,检出的文献命中程度越高。运用加权检索可以命中核心概念文献,因此它是一种缩小检索范围而提高检准率的有效方法。例如,在中国生物医学文献数据库(China Biology Medicine,CBM)中,对某个主题词进行加权检索,就表示只检索把该主题词作为主要主题词的文献。应该注意,并不是所有系统都能提供加权检索这种检索技术,而能提供加权检索的系统,在权的定义、加权方式、权值计算和检索结果的判定等方面又有不同的技术规范。