现代信息检索最新章节_胡爱民著

第三节
信息检索技术

一、布尔逻辑检索

利用布尔逻辑算符进行检索词的逻辑组配，是现代大多数信息检索系统都支持的一种检索语法。常用的布尔逻辑算符有3种：逻辑与、逻辑或和逻辑非。许多计算机检索系统，包括绝大部分搜索引擎，允许用户利用这些逻辑算符组配检索词形成检索提问式，用户输入提问式后，系统将它与自己存储的记录进行匹配，当两者相符时该记录即为命中结果。也就是说，布尔逻辑算符的作用是将代表单一概念的检索词组配在一起，以充分表达信息需求。进行必要的逻辑运算可以确保系统输出的检索结果更为准确。

（一）逻辑与“AND”

逻辑与（AND或“*”）是反映概念之间交叉和限定关系的一种组配方式，用以缩小检索范围，减少输出结果，提高查准率。（如图2-2）

图2-2

A AND B表示同时含有A、B两检索项的为检索结果。如电脑AND因特网，表示查找既含有“电脑”又含有“因特网”的文献信息。又如car AND CAD用于查找关于“车辆的计算机辅助设计”方面的文献。

（二）逻辑或“OR”

逻辑或（OR或“＋”）是反映概念之间并列关系的一种组配方式，使用它相当于增加检索词主题的同义词与近义词，可扩大检索范围、增加输出结果，提高查全率。（如图2-3）

图2-3

A OR B——表示文献信息中凡含有检索词A或者检索词B或者同时含有检索词A和B的即为命中结果。如电脑OR因特网，表示查找含有“电脑”或含有“因特网”，或两词都包含的文献信息。

注意：有些检索词表达的概念，存在整体与部分的关系。在检索中，这类关系如果处理不好，就不能得到满意的检索效果。对此，一般原则是，如果检索词涉及表达整体的概念，就要针对具体情况分别列出每一个表达部分概念的检索词，否则将出现漏检。如检索关于欧洲能源问题的文献，检索逻辑式可表达为EUROPE AND ENERGY，如果用这个提问式去检索。显然会出现相关文献大量漏检。因为，在地理上，当人们提到欧洲时，它包括英国、法国、意大利、西班牙等具体国家，然而在检索式中，“欧洲”作为一个检索词，只代表它本身，无法代表英国、法国、意大利、西班牙等。因此，如果要查全该课题的相关文献，检索式应改为：（EUROPE OR BRITAIN OR FRANCF.）AND（ENERGY OR COAL OR PETROLEUM.）

（三）逻辑非“NOT”

逻辑非（NOT或“-”）可以用来排除不希望出现的检索词，它与逻辑与“AND”的作用类似，能够缩小命中信息的范围，提高检索的查准率。（如图2-4）

图2-4

A NOT B——用于从包含A的文献信息范围中减去含有B的内容。如信息检索NOT手工检索，表示查找含有“信息检索中”而不含“手工检索”的文献信息。

注意：在检索逻辑中使用NOT，能排除含有由NOT指定的检索词的文献，协助检索出更准确的文献。但是，使用NOT必须慎重。因为，如果两个关系紧密的检索词同在一个检索逻辑中，对其中一个使用NOT逻辑会导致含另一个词的文献也被排除。例如，检索（COMPUTER AND SOFTWARE）NOT HARDWARE，在这个例子中，检索计算机软件方面的文献是检索的主要目的，但由于使用了NOT逻辑，将同时包含软件、硬件的相关文献给排除了。

用布尔逻辑算符表达检索要求，既要考虑要检索的课题，也要熟悉算符本身的特点，而且要注意，不同的运算次序会产生不同的检索结果。这些逻辑算符在运算中的优先次序一般为非（NOT）、与（AND）、或（OR）。可以用括号“（）”改变它们之间的运算顺序。例如，（A OR B）AND C，根据优先次序，AND运算应当先进行，但用括号将“A OR B”括起后，就应先处理“A OR B”，再将该次检索结果与C作逻辑与运算。

在网络信息检索中，几乎所有的搜索引擎都会提供一定的逻辑运算功能，不过运算符以及空格的使用有很大的不同，使用时一定要多加注意才能起到应有的作用。比如“逻辑与”一般表示为“and”、“＆”、“＋”，“逻辑或”往往用“or”或空格来表示，逻辑非功能的表示方法为“not”、“＋”、“-”等，也有一些系统不提供逻辑非功能。另外，各系统默认的组配方式也不相同，有的是“逻辑或”，有的是“逻辑与”。

二、截词检索

截词检索主要是利用检索词的词干或不完整的词形进行非精确匹配检索，凡含有词的这一部分的所有字符或字符串的文献信息，均被认为是命中结果。截词方法可单独使用，也可与其他方法配合使用。

截词检索是计算机检索系统中应用非常普遍的一种技术。由于西文的构词特性，在检索中经常会遇到名词的单复数形式不一致；同一个意思的词，英、美拼法不一致；词于加上不同性质的前缀和后缀就可以派生出许多意义相近的词等。为了保证查全，就需要在检索式中加上这些具有各种变化形式的相关意义的检索词，这样就会出现检索式过于冗长，输入检索词的时间太久等问题。截词检索就是为了解决这个问题而设计的，它既可保证不漏检，又可节约输入检索式的时间。所谓截词，就是指在检索词的适当位置截断，保留相同的部分，用相应的截词符代替可变化部分，计算机会将所有含有相同字符部分词的记录全部检出。不同的检索系统其截词符的表示形式和截词检索的方式不同。

（一）按截断字符数量分

截词可分为无限截词和有限截词

（1）无限截词。常用表示符号为“*”、“＄”，一个无限截词符可代表多个字符，表示在检索词的词干后可加任意个字符或不加字符。常用于检索同一类词，如使用“employ*”，可检索到employ、employer、employers、employment等词。

（2）有限截词。一个有限截词符只代表一个字符。常用符号“？”表示，代表这个单词中的某个字母可以任意变化，在检索词词于后可加一个或一个以上的有限截词符，一般有限截词符的数量有限制，其数目表示在词干后最多允许变化的字符个数。如“solut？？？”可检索到包含solution、solute和soluting等词在内的信息。

有时可以混用两种截词方式，以取得所要的检索结果，如使用“psych！！！！ ist？”，可以检索到诸如psychologist、psychologists、psychiatrist、psychiatrists等词。

（二）按截断的位置分

按截断位置，分为后截词、前截词和中截词

1.后截词

后截词最常用，即将截词放在一个字符串之后，用以表示后面有限或无限个字符，不影响其前面检索字符串的检索结果。如physic*，可检出的词汇有：physic、physical、physician、physicist、physics等。

不难看出，截词检索具有隐含的OR运算特性。

归纳起来，后截词主要使用在如下4个方面。

①词的单复数，如book？、potato？？。

②年代，如198？（80年代）、19？？（20世纪）。

③作者，如用Lancaster*可检出所有姓Lancaster的作者。

④同根词，如用biolog*，可检出biological、biologist、biology等同根词。

2.前截词

前截词将截词符号置于一个字符串的前方，以表示其前方有限或无限个字符，不会影响后面检索字符串的检索结果。

3.中截词

又称中间屏蔽，指将检索字符置于一个检索词中间，不影响前后字符串的检索结果。具体地说，就是在一串字符中插入一个或几个屏蔽符号“？”或“！”，表示在问号的相应位置上可转换数目相当的字符。

对于一些单、复数变化异常的词和英、美拼法不同的词，利用中截词可进行一次性选词，提高检索效率。如wom？n，可一次性检出包含women和woman的文献信息。

任何一种截词检索，都隐含布尔逻辑检索中的“或”运算。截词部分要适当，如截得太短，将增加检索噪声，影响查准率。不同的数据库和联机检索系统中，对截词的使用设置不同，注意加以区分。

三、限制检索

（一）检索系统中的限制检索

在检索系统中，使用缩小和限定检索范围的方法称为限制检索。限制检索条件多种多样，主要和常用的是字段限制。它是制定检索词必须在数据库记录中规定的字段范围内出现的信息方为命中信息的一种检索方法。通常数据库中可供检索的字段分为主题字段和非主题字段。其中，主题字段如题名（Title）、叙词（Descriptor）、标识词（Identifier）、文摘（Abstract）等，非主题字段如作者（Author）、文献类型（Document Type）、语种（Language）、出版年份（Publication Year）等。

字段检索时，可以利用后缀符对主题字段进行限制，利用前缀符对非主题字段加以限制。如查找2000年出版的关于小型机或个人机的英文文献，并要求“小型机”一词在命中文献的叙词字段出现，“个人机”一词在命中文献的标识词字段出现。则检索提问式如下：

（minicomputer/DE，TI OR personal computer/ID）AND PY一2000 AND LA—English。

注意，各个检索系统所设立的字段是互不相同的，即使使用同一字段，也可能采用不同的字段代码，因此，在进行字段检索时，应事先参阅系统及有关数据库说明。

（二）搜索引擎中的限制检索

搜索引擎中的字段检索多表现为前缀符限制形式，其中，表示内容特征的主题字段有Title、Keywords、Subject、Summary等，表示外部特征的非主题字段限制有image、text、applet等。此外，搜索引擎还提供了带有典型网络检索特征的字段限制类型，如主机名限制（host）、URL限制（url）、E-mail限制（from）、域名限制（domain）、新闻组限制（newsgroups）、link限制（1ink）、网址限制（site）等。这些字段限定了检索词在记录中出现的位置，用来控制检索结果的相关性。

四、位置检索

布尔逻辑算符只是规定几个检索词是否需要出现在同一记录中，不能确定几个词在同一记录中的相对位置，所以单靠布尔逻辑算符往往不足以表达复杂的概念。当需要确定检索词的相隔距离时，可以使用位置算符。

位置算符用于表示词与词之问的相互关系和前后的次序，通过对检索词之间位置关系的限定，进一步增强选词指令的灵活性，提高检索的查全率与查准率。常见的有：

（1）W算符（with）。通常写作A（nW）B，表示词A与词B之间至多可以插入行个其他的词（往往包括系统禁用词），同时A、B保持前后顺序不变。其中（w），也可写作（），表示A、B必须相邻，中间不可有其他词或字母，但有些系统允许有空格、标点符号。如CD（W）ROM，表示CD（）RM或CD-ROM等。而用control（1w）system，则可检出含有control system、control of system、control in system等内容的文献信息。

（2）N算符（Near）。通常写作A（nN）B，表示A与B之间至多可以插入；N个其他的词，同时A、B不必保持前后顺序。如control（1n）system，除可得到control system、control of system等外，还可得到system of control等结果。

（3）F算符（Field）。通常写作A（F）B，表示A、B必须同时出现在记录的同一字段中，如出现在篇名字段中，两词次序、A与B间加词个数不限。如digital（F）library /TI、AB，表示两词同时出现在题名和文摘字段中的均为命中文献。

（4）S算符（Subfield）。通常写作A（S）B，表示A与B必须同时在一个句子中或同一子字段内出现，但次序可随意变化，且各词问可加任意个词。例如用computer（S）design检索，可得到computer design、computer aided design等结果。

常用的位置算符不下10种，不同的检索系统对其所采用的位置算符有其自己的规定，应注意参看检索系统的使用说明。

五、多媒体检索

随着多媒体计算技术的迅猛发展，各种音频、图像、视频信息开始层出不穷，人们已不再满足于传统的文字检索，提出了对多媒体信息的检索需求，因此，基于内容的多媒体信息检索应运而生。

基于内容的检索是指根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索。它的研究目标是提供在没有人类参与的情况下能自动识别或理解声音、图像、视频重要特征的算法。

基于内容的声频检索包括以语音为中心，采用语音识别技术的语音检索；以音乐为内容的音乐检索系统主要研究音高、音长、音强等音乐特征的提取、识别和检索。包括音乐特征的规范化和提取、用户输入识别及特征提取、音乐特征的匹配检索及输出、相关反馈等。

基于内容的图像信息检索的主要在识别和描述图像的颜色、纹理、形状、空间关系上，对于视频数据，还有视频分割、关键帧提取、场景变换探测以及故事情节重构等问题。这是一门涉及面很广的交叉学科，需要利用图像处理、模式识别、计算机视觉、图像理解等领域的知识作为基础，还需从认知科学、人工智能、数据库管理系统、人机交互、信息检索等领域引入新的媒体数据表示和数据模型，从而设计出可靠、有效的检索算法、系统结构以及友好的人机界面。

基于内容的多媒体检索技术的日益成熟不仅将创造出巨大的社会价值，而且将改变人们的生活方式。因为它与传统数据库技术相结合，可以方便地实现海量多媒体数据的存储和管理；与传统Web搜索引擎技术相结合，可以用来检索HTML网页中丰富的多媒体信息。

六、超文本检索

超文本是一种信息的组织方法，它把不定长的基本信息单元存放在节点上，这些基本信息单元可以是单个字、句子、章节、文献。甚至是图像、音乐或录像，节点以链路方式链接，链路可以分为层次链、交叉引用链、索引链等，构成网状层次结构。超文本的特点是以联想式的、非线性的链路的网状层次关系，允许用户在阅渎过程中从其认为有意义的地方入口，直接快速地检索到所需要的目标信息。

超文本检索时其内容排列是非线性的，按照知识（信息）单元及其关系建立起知识结构网络，操作时用鼠标去单击相关的知识单元，检索便可追踪下去，进入下面各层菜单。这种检索方式常用在多媒体电子出版物中，这类出版物不仅采用超文本，而且常采用超媒体，提供文本和图形接口，Internet上的Web便是典型的例子。

习题与思考：

1.查找关于NBA林书豪的信息其检索表达式是？

2.查找中国长征三号乙火箭的相关信息但检索结果里不能出现有关NBA火箭队的信息。则检索表达式是？

3.检索表达式　（战斗机or轰炸机）and SU-34表示？

4.检索表达式　姜文near5让子弹飞表示？

5.检索表达式　“海豚and海狮”和“海豚with海狮”有什么区别？

第三节 信息检索技术