



文献检索是一个集信息搜集、组织和储存于一体的过程,旨在满足用户的信息查询需求。是学术研究中不可或缺的一部分,其价值在于帮助研究人员、学生、专业人士等快速准确地找到所需资料。从信息组织的视角来说,文献检索主要可分成信息的存储和信息的调用(信息查询)两个过程。
换言之,文献检索不只是单纯的信息查询,还涉及将大量的信息通过一定的方式加以组织使之变为有序的数据库或检索系统。信息存储指的是通过一定的方式或技术将这些信息转化为一个有组织的数据库,而信息检索则指在该数据库中根据用户需求查找具体信息的过程。从广义上讲,文献检索显示了其操作的多样化和复杂性,强调了用户为提高检索效果,根据自己的需求选择适当的检索策略和检索工具的重要性。而从狭义上看,文献检索特指用户在一个已有检索功能的信息集合中进行文献查询的过程。
文献检索涵盖了文献的储存和查询两个主要环节。为了高效地利用大量文献资源,让用户能够在这些信息中迅速且准确地找到所需文献,必须对散乱的文献进行收集、加工、标引和有序存储,从而建立起功能各异的检索工具。文献的组织和存储基于其内容和特性,形成了可供检索的数据库或目录。使用检索工具或系统,用户可以根据特定的检索词或查询条件从这些数据库中检索到符合要求的文献记录或完整文献。在储存阶段,重心在于使用一致的检索语言和标准化标签,使用户的查询与检索系统中的标签尽可能匹配,从而提升检索效果。储存和检索是密切相关的两个环节,前者为后者提供了必要的基础,后者是前者的目的与追求。
文献检索在学术研究和专业信息检索领域中发挥着至关重要的作用,根据不同标准可以被划分为不同的类型。
1.根据检索内容划分 文献检索可以分为线索检索和事实检索。
(1)线索检索 线索检索是基于特定线索(如作者名、标题、出版日期等)来查找文献的方法。这种检索通常关注文献的元数据而非其内容本身。线索检索便于快速定位特定文献或特定作者的作品,对研究者跟踪特定领域的文献发展趋势尤为重要。
(2)事实检索 事实检索指寻找具体事实或数据信息的过程。它通常涉及对文献内容的深入分析,以提取具体的信息或数据。这种检索类型要求对文献的内容有更深入的理解和分析,适用于科学研究、市场分析、技术调研等领域,因为这些领域需要准确的数据和事实作为决策或研究的基础。
2.按检索方式划分 文献检索通常被划分为手工检索和计算机检索。
(1)手工检索 手工检索指的是使用传统的、非自动化的方法来寻找信息的过程。在数字化和计算机技术普及之前,这是获取信息的主要方式。手工检索通常涉及实体文献,如纸质书籍、期刊、档案和索引卡。尽管比较耗时且效率不高,但对于某些特定类型的历史或档案资料,仍然是不可替代的检索手段。
(2)计算机检索 计算机检索是指利用计算机和相关软件来查询、获取信息的过程,包括在线数据库检索、数字图书馆和互联网搜索等。这种方式显著提高了信息检索的速度和效率,支持复杂的检索策略。它能够在几秒钟内从海量数据中找到所需文献,而且用户还可以轻松访问全球的数据库和信息资源。在当代,计算机检索已经在学术研究、商业情报收集、公共信息服务等领域广泛应用。
文献检索的类型多样,每种类型都有其独特的方法、特点和应用场景。了解和掌握这些不同的检索类型对于有效地获取和利用信息至关重要。线索检索和事实检索反映了对信息的不同需求和处理方式,而手工检索和计算机检索则展示了从传统到现代的技术演进。随着信息技术的不断发展,文献检索方法也在不断地进化和完善,为不同领域的研究者和信息专业人士提供了更多的选择和可能性。
1.检索语言的含义 检索语言是在文献存储和检索活动中使用的一种特定的语言,用于准确描述信息的特性和应对用户查询。检索语言是文献检索的核心组成部分,它在很大程度上决定了检索效率。检索语言的设计质量以及用户对其的正确运用都直接影响着检索的准确性和效率。因此,检索者需要掌握检索语言的主要规则和基本原理,以减少信息的漏检和误检,并提高检索效率。为了方便计算机处理以及信息的交流和共享,各种信息检索系统中的信息都需要以一定的方式进行处理,如标引、编码等。通过这种方式,检索系统中的检索语言不仅有助于文献存储者和检索者之间达成共识,还实现了存储和检索过程的统一。这样,检索语言成为连接文献有序存储、描述数据特征、满足用户查询需求的桥梁,确保了检索系统能够理解并响应用户的搜索需求,从而实现有效的检索匹配。
2.检索语言的分类 从文献检索的语言特征进行分类,可分为外部属性和内部属性。外部属性通常关注文献的基本标识,如标题、作者名、出版机构、出版日期等,这些元素被直接且精确地抽取出来,用于创建检索路径。内部属性着重对文献中的核心主题、讨论对象和关键思想等进行概述和标记,常通过规范化的词汇或符号来实现。基于内部属性的检索语言,根据构建原理,可细分为分类检索语言、主题检索语言等。
考虑到文献检索时标识的规范化程度,我们还可以将信息检索语言划分为自然语言和规范化语言(又称人工语言)两大类。自然语言是指在文献的描述和检索中直接运用日常书面或口语交流中的语言。这类语言的运用范围广泛,包括关键词、自然出现的词汇以及文献标题、摘要、正文或引用中的有意义词语。在以“以用户为中心”的网络环境中,自然语言检索更加符合人们的习惯和需求,且易于学习。其检索效果依赖于计算机系统处理自然语言的能力,特别是从文本中提取出精确且能够代表文档价值的关键词汇,实现自动化的标引。而规范化语言是一种经过人为规定和控制的人工语言,亦称为受控语言。它基于自然语言,根据信息描述和检索的需求,从自然语言中筛选出特定词汇或设计一套符号来表达信息主题的概念,经过规范化处理后纳入检索系统。规范化语言通常由某权威机构或检索系统进行设定、管理和控制。
《中国图书馆分类法》(以下简称《中图法》)是一套在中国广泛应用的综合性文献分类系统,是一种分类检索语言。其首版由科学技术文献出版社于1975年10月出版,到2010年9月,国家图书馆出版社已经推出了该体系的第五版最新版本。
《中图法》采取的是一种分层次的系统分类方法,这种方法根据文献所包含的学科内容、专业特点以及独特属性进行分类。它利用从概括到详细、从全局到局部的逐层细化方式,确保了文献在系统中的逻辑性和条理性,从而实现对广泛文献资源的有效管理。此外,《中图法》因其全面的类别描述和详细的注解而能够适应不同图书馆和信息中心的分类需求。它已成为中国图书馆界和信息部门普遍采用的主要分类工具,其影响力和应用范围覆盖了国内外各种数据库和网络平台。我国的数据库或检索系统多利用《中图法》对文档进行归类,提供以《中图法》为基础的导航和检索服务,使之成为国内文献分类和检索的标准之一。
《中图法》主要由基本大类、简表、主表及通用复分表等构成。
1.基本大类 在《中图法》中,首先根据文献的学科属性和内容特性,划分出哲学、社会科学、自然科学等几个主要部类。其中,马克思主义、列宁主义、毛泽东思想、邓小平理论由于其理论指导地位的重要性,被特别设为一个独立的部类放在开头。在最后的部分,为了包容跨学科和广泛主题的图书,增设了“综合性图书”类别,作为分类体系的一个重要组成部分。这两大部类同前文提到的哲学、社会科学、自然科学一起共形成五大部类。这五大部类进一步被细分为22个基本大类,通常被称作一级类目,每个大类都有其独特的字母作为分类标识。这22大类分别为A马克思主义、列宁主义、毛泽东思想、邓小平理论;B哲学、宗教;C社会科学总论;D政治、法律;E军事;F经济;G文化、科学、教育、体育;H语言、文字;I文学;J艺术;K历史、地理;N自然科学总论;O数理科学和化学;P天文学、地球科学;Q生物科学;R医药、卫生;S农业科学;T工业技术;U交通运输;V航空、航天;X环境科学、安全科学;Z综合性图书。
2.简表 《中图法》一级类目下各种学科可以进一步划分为二级类目,这些二级类目通常对应独立的学科领域,读者可以快速查找到相关的学科类目。在“R医药、卫生”这个一级类目下,划分了17个二级类目,每个类目都有相应的分类标识,所有的二级类目及之下的类型均与阿拉伯数字组合进行进一步细分,如中国医学被标记为“R2”。另外,由于“T工业技术”类门类较多且内容复杂,所以又设计了在字母T后添加另一位字母形成双字母的二级类目,例如“TQ”代表化学工业、“TM”代表电工技术等。
3.主表 主表是《中图法》中的核心部分,由不同层级的类目组成,它由简表进一步逐级展开划分。在详表中,类目严格遵循逻辑和层级关系展开排列,使得分类更加具体和专业化,从而为文献的标引和检索提供了精确的依据。
以中国医学类为例来看,一级类目“R医药、卫生”,这个大类覆盖了所有医学相关的领域,包括中医学、西医学、药学、公共卫生等。在此大类下,二级类目“R2中国医学”专门针对中医学领域。这个分类涵盖了中医学的各个方面,从基础理论到临床实践。在其之下,进一步细分为多个三级类目,例如,“R24中医临床学”,涉及R241中医诊断学,R242中医治疗学,R243中草药治疗学(八法论治),R244外治法,R245针灸学、针灸疗法,R246针灸疗法临床应用,R247其他疗法,R248中医护理学和R249医案、医话(临床经验)(图2-1)。
图2-1 《中图法》主分表举例
通过这样的层级和细分,《中图法》能够详尽地覆盖中医学领域的广泛知识和细节。这种结构不仅有助于专业人员和学者在图书馆和数据库中有效地检索和定位中医学相关的资源,也有助于对中医学文献进行系统的组织和管理。
4.通用复分表 《中图法》的通用复分表是一套辅助性的分类编码体系,包含一系列特定的标记和符号,用于补充和细化主表的分类。它允许对书籍或文献进行更为具体的分类,涉及地理位置、时间段、文献类型、形式或特定人群等方面。通用复分表包括主表中的专类复分表和附于主表后的通用复分表。如通用复分表中的“-61”代表“名词术语、词典、百科全书(类书)”,那么代表中国医学类的主分号“R2”与其结合后的“R2-61”就为中医类相关词典的分类号。
《医学主题词表》(medical subject headings,MeSH),由美国国立医学图书馆(National Library of Medicine,NLM)编辑出版。《医学主题词表》具有动态性,1960年第一版包含4400个主题词,1963年第二版的《医学主题标题》包含5700个主题词,首次印刷了术语分类表,13个主要类别和58个子类别,2024年MeSH有30000多个主题词。《医学主题词表》对医学文献中的自然语言进行了规范,使概念与主题词单一对应,保证文献的标引者和检索者之间在用词上的一致。可进行主题词、副主题词组配,提高主题标引或检索的专指度。
MeSH主要由字顺表、树状结构表和副主题词表三部分组成。
1.字顺表 字顺表(alphabetic list)是医学主题词表的主表,由主题词、款目词和副主题词按英文字顺排列组成。
(1)字顺表中的词汇类型 字顺表中的词汇类型有主要叙词、次要叙词、款目词和副主题词。自1991年起,字顺表中有主题词(主要叙词)、款目词和副主题词,不再有次要叙词。
主题词(subject headings),也称叙词(descriptors),是用来揭示文献主题内容,经过规范化和优选处理的词和词组。主题词是标引文献和检索文献的一种信息检索语言词汇。
款目词(entry term),MeSH表收入一部分不用作主题词的同义词和近义词,称为款目词,字顺表中用“see”参照指导用户使用正式主题词。
副主题词(subheading),也称限定词(qualifiers),用于指明主题词表达重要内容的自然范畴或者某一方面,对主题概念起限定作用提高其专指度。MeSH在副主题词表中对每一个副主题词的使用范围作了详细注释。副主题词前加“/”符号表达和主题词的组配。
(2)字顺表中的参照系统 参照系统显示各主题词之间的相互关系。
1)用代参照:用“see”和“X”表示,由款目词(也叫入口词)参见正式主题词。这种参照使具有等同关系、近义关系的大量自然语言词汇得到了人为的控制,使该表成为一种规范化的文献检索语言。
2)相关参照:用“see related”和“XR”表示。相关参照处理两个或两个以上主题词在概念上彼此之间有某种联系或依赖的相关关系,其作用是扩大检索范围,达到全面检索的目的。相关参照有两种,包括单向相关参照和双向相关参照。
3)属分参照:用“see under”和“XU”表示。属分参照表示上下位词之间的包含与被包含、属与种、整体与部分的等级关系。自1991年词表中的所有次要叙词升级为主题词,属分参照不再使用。但是,1991年前的“属分参照”作为历史注释在被升级的主要叙词下反映。
4)也须考虑参照(consider also terms at):提示在用该主题词检索时,从语言学角度还应该考虑其他以不同词干为首的一组主题词与这个词有关。这种注释所建议的词一般是该概念以希腊或拉丁词根为首的主题词,其作用是将同一概念的文献查全,例如,Eye Consider also terms at OCUL—,OPHTHAL—,OPT—,and VIS—。
(3)字顺表中的注释 各种注释只出现在主题词下,在次要叙词和款目词下没有任何注释。
1)树状结构号注释:所有主题词下边都有树状结构号注释。树状结构号反映该词在学科体系中的位置,表示主题词间的族性关系。每个词最少有一个,有些词具有多重属性,对应的有多个树状结构号。
2)历史注释:注明某一具体主题词的使用年代及其具体变化,帮助检索者准确选择主题词。主题词的历史注释在树状结构号下。
2.树状结构表
(1)树状结构表的等级结构关系 树状结构表(tree structure)又称分类表。是字顺表的辅助索引,帮助了解每一个主题词在医学分类体系中的位置。将字顺表中所有的主题词按其学科性质、词义范围的上下隶属关系,分别归属在16个大类下,16个大类依次用A—N、V、Z代表。大类再细分为128个一级类目,各子类目下层层划分逐级展开,最多可达11级。在每一个大类中主题词逐级排列,按等级从上位词到下位词,用逐级缩排方式表达等级隶属关系,同一级的词按字顺排。一般来讲,一个词归入一个类给一个树状结构号,也有些主题词具有两个或两个以上的学科属性,这些词可能同时属于两个或多个类目,在其他类目也有相应的树状结构号,从而可以查出该词在其他类目中的位置。树状结构表的等级关系见下例。
Diseases[C]
Neoplasms[C04]
Neoplasms by Site[C04.588]
Digestive System Neoplasms[C04.588.274]
Gastrointestinal Neoplasms[C04.588.274.476]
[C06.301.371]
[C06.405.249]
Intestinal Neoplasms[C04.588.274.476.411]
Colorectal Neoplasms[C04.588.274.476.411.307]Colorectal Neoplasms,Hereditary Nonpolyposis [C04.588.274.476.411.307.190]
(2)树状结构表的作用 树状结构表是按学科体系编排的术语表,清晰表达主题词间的等级关系。
1)方便查找主题词:主题词的学科归属、词义范畴,方便从族系内查找准确主题词,并可以使用树状结构号进行族性检索。
2)帮助扩检和缩检:在检索过程中如需要扩大或缩小检索范围,可根据树状结构表中主题词的上下位等级关系选择主题词。扩大检索范围时选择其上位概念主题词;缩小检索范围时选择其下位概念主题词。
3.副主题词表(subheadings) 《医学主题词表》专门列有与主题词配合使用的副主题词表。副主题词目前共有83个。
副主题词的重要作用之一是对主题词起进一步的限定作用,通过这种限定把同一主题不同研究方面的文献分别集中,使主题词具有更高的专指性。同时让检索词的表达更加具体,对标引文献和检索文献更加准确。
每一个副主题词具有一定的专指性,其使用范围仅限于它后边括号内的类目。副主题词的使用范围及适应类目见下例。
therapy(C,F3)—Used with diseases for therapeutic interventions except drug therapy,diet therapy,radiotherapy,and surgery,for which specific subheadings exist.The concept is also used for articles and books dealing with multiple therapies
副主题词表具有动态性特点,随着主表的修订会有修改变化,增加一些新词或删掉旧词,或者对某一副主题词的适用范围作一定修改和调整。副主题词不能单独用作检索,只能和主题词配合使用。用户使用时,形式为主题词/副主题词。
1.使用字顺表查找主题词
(1)使用see参照找到规范的检索词 即将自然语言(关键词)转换成检索语言(主题词)。如要检索“cancer”的相关文献,先在字顺表找到该词,参照系统显示“see neoplasms”找到规范的检索词“neoplasms”。
(2)注意复合主题词的倒置形式 当一组主题词具有某些相同的概念时,采用倒置的主题词形式把同一概念的词排列在前,起修饰、限定作用的形容词放在后面,并用“,”隔开,方便族性检索,示例如下。
Anemia,Aplastic
Anemia,Hemolytic
Anemia,Hemolytic,Autoimmune
Anemia,Hemolytic,Congenital
(3)优先使用MeSH最专指的主题词 检索某一专指概念的文章,应首先考虑用专指主题词,不能用综合概念主题词。像Acne(痤疮),应选用主题词Acne,而不要用Skin Diseases。
(4)要优先选择先组主题词 先组主题词应优先于主题词和副主题词的组配。如眼畸形,用Eye Abnormalities,而不用Eye abnormalities。
(5)组配应优先于两个主题词的组配 即当没有适当先组主题词时,主题词和副主题词的组配应优先于两个主题词的组配。如要检索肝脏中的滞留物质,用liver metabolism而不用liver and metabolism。
(6)要用新的主题词 注意主题词历史注释中在不同时期的不同用词,选择新词表内的主题词。
2.字顺表与树状结构表配合使用 字顺表与树状结构表功能各异。字顺表按主题词字顺排列,便于读者按字顺查找主题词,在查到主题词后,利用其下边的树状结构号,在树状结构表中根据其上下位主题词选择准确的主题词。树状结构表按树状结构号(学科体系)排列,便于从学科体系查找和确定主题词,在确定主题词后,再按字顺在字顺表中找到该主题词,通过它的各种注释准确使用该主题词。两表排列体系不同,但以树状结构号作桥梁和纽带,在检索时将自顺表和树状结构表配合使用,既可发挥主题词专指、灵活、方便、直接检索的特点,又可发挥分类系统稳定、方便扩检和缩检成为可能的优点。
3.重视副主题词的使用 副主题词是对主题词概念的进一步限定和划分,主题词/副主题词的组配能够表达一个更专指的概念。检索时,可以只用一个或者一个以上甚至全部副主题词,若检索该主题词的一般性、总论性的文献也可以不使用副主题词直接检索。
《中国中医药学主题词表》(以下简称《词表》)是由中国中医科学院中医药信息研究所研制的应用于中医药领域的术语标准化工具,是数据库建设和文献标引、检索的重要支撑,具有科学性、实用性及与《医学主题词表》(MeSH词表)的兼容性。它是将中医药文献标引人员或用户的自然语言转换成规范化中医药名词术语的一种术语控制工具,是概括了中医药学科领域,并由语义相关、族性相关的中医药学术语组成的规范化动态词典。它在形式上借鉴了MeSH词表的传统结构与体例,由前言、使用说明、字顺表、树形结构表、副主题词表、出版类型表、附表和索引表等构成,其中核心内容为字顺表、树状结构表和副主题词表。
字顺表,亦称为主表,是词表的核心部分。其结构与MeSH(医学主题词表)类似,涵盖所有官方认定的主题词和入口词。在排列上,主题词和入口词按照汉语拼音的字母顺序进行排序。对同音不同字的情形,则根据字形进行归类。当两个词的首字母相同时,按照第二个字的拼音进行排序,以此类推。主题词的条目结构包括汉语拼音、主题词的英文译名、树形结构编号、主题词的注释以及相关的参考项等。示例如下。
Cang zhu
苍术
Rhizoma Atractylodis
TB06.025.005.015.845.035.005
TD27.005.065.025
属苍术属;属利水渗湿药
药材为双子叶植物菊科植物茅苍术或北苍术的干燥根茎;具有燥湿健脾、祛风散寒、明目的功效;临床用于治疗脘腹胀满,泄泻,水肿,脚气痿躄,风湿痹痛,风寒感冒,夜盲。
1987
D茅术
树形结构表以中医药学的学科体系为基础,并考虑到专业特性和术语分类的需求,将所有主题词根据学科类别划分为相应的类别和子类别,并尽可能与MeSH的分类相兼容,分类号、大类号与MeSH相同。在每个类别下,列出了属于该类别的所有主题词,并根据这些主题词的从属关系,形成了一个逐级展开的树状结构,全面地展现了各主题词之间的相互关系。这种方法不仅使得主题词的组织更加清晰,而且有助于用户更有效地进行信息检索。
在树形结构表中,每个类目的符号是由两个字母构成,其中首字母统一为“T”,第二个字母则取自MeSH中相应范畴的首字母。在树形结构逐层展开时,它以类目符号开头,其后接由数字构成的序列,这些数字通过级别划分并用“.”进行分隔,最多可分为九个层级。树形结构编号的第一级是子类目,由类目符号和两位数字组成,而第二级及以下的每一级都用三位阿拉伯数字表示,若某一级别的数字不足规定的位数,则用0来填充。如果某个主题词下还有更具体的词汇,则在该主题词的树形结构编号后面加上“+”号。示例如下。
治疗 TE02+
中医药疗法 TE02.015+
治法 TE02.015.005+
针灸疗法 TE02.015.005.085+
针刺疗法 TE02.015.005.085.030+
温针疗法 TE02.015.005.085.030.095
副主题词表包括专题副主题词表和编目副主题词表。专题副主题词表涵盖了中医药学和医学领域的相关副主题词,这些副主题词在文献标引和检索过程中用以细化和专门化主题词的概念,从而使得主题的定义更加具体和明确。而编目副主题词表仅可用于医学文献的主题编目。副主题词常见有中药疗法、中西医结合疗法、中医疗法、按摩疗法、穴位疗法、针灸疗法、气功疗法、针灸效应、气功效应、中医病机、生产与制备。
布尔逻辑检索也称作布尔逻辑搜索,是指利用布尔逻辑运算符连接各个检索词,然后由计算机进行相应逻辑运算,以找出所需信息的方法。它使用面最广、使用频率最高。
常用的布尔逻辑运算符有“AND”“OR”“NOT”,也即“逻辑与”“逻辑或”“逻辑非”三种。
1.“逻辑与”的作用是缩小检索范围,检索包含有检索词A,同时又包含检索词B的信息,提高查准率。构建逻辑表达式“A AND B”(图2-2)。
2.“逻辑或”的作用是扩大检索范围,检索包含有检索词A或者检索词B的所有信息。构建逻辑表达式“A OR B”(图2-3)。
3.“逻辑非”的作用是缩小检索范围,检索包含检索词A,但同时又不包含检索词B的信息。构建逻辑表达式“A NOT B”(图2-4)。
图2-2 “逻辑与”
图2-3 “逻辑或”
图2-4 “逻辑非”
此外,还可以通过添加括号构造复杂的检索式,如“A AND(B OR C)”。检索系统一般从左至右处理检索式,如果检索式带括号,系统一般优先处理括号内的运算;如果不带括号,大部分系统优先处理“NOT”,其次为“AND”,最后处理“OR”。不同的文献信息检索系统,其逻辑运算符号及运算顺序不完全相同。
截词检索又称通配符检索,利用截词检索能够检索出具有相同词根、不同词尾变化或者单复数形式变化的信息,从而扩大检索范围,提高查全率。在西方语言中,词干与不同的前缀或后缀可派生出一系列词汇,这些不同的词汇含义相似,词性或语法意义不同。西方语言的这一特点,在自然语言检索时易因词汇书写形式有变化造成漏检。截词检索可以有效防止漏检。不同检索系统的截词符和用法不同,常用的截词符有“?”“*”等。“?”常用作有限截词符,用以代表0个或1个字符;“*”常用作无限截词符,可以代表0至n个字符。
截词符可以放在检索词的右侧、左侧或者中间。截词符放在词的右侧(尾部),称之为右截断,也称前方一致检索;截词符放在词的左侧(前部),称之为左截断,也称后方一致检索;截词符放在词的中间,称之为中间截断,也称两边一致检索;同时采用两种以上的截断方式,称为复合截断。可以看出,任何一种截断方式,均隐含着“逻辑或”的运算。
位置检索是通过检索式中的位置运算符来规定检索词在结果中的相对位置,位置关系包括词序和词距两个方面。词序是指检索词的先后顺序,词距是指检索词与检索词之间的距离。两个检索词在一篇文章中的相邻程度,有时可以反映出它们之间语义关系的紧密程度。位置检索使用位置运算符(又称邻近运算符)规定检索词与检索词在信息记录中的相邻位置关系,可以提高查准率。常用的关系符号是(W)、(N)、(F)、(S),主要用于词语和短语检索。
1.(W)含义为“With” 表示这个运算符两侧的检索词必须在同一字段中,词序不限(有的系统要求词序不能颠倒)。(nW)表示两词之间允许插入最多为n个其他词。
2.(N)含义为“Near” 表示这个运算符两侧的检索词必须在同一句子中,两词的词序可以颠倒。( n N)表示两词之间允许插入最多为n个其他词。
3.(F)运算符含义为“Field” 表示其两端的检索词必须在同一字段中出现,两词的词序可以颠倒。
4.(S)运算符含义为“Sentence” 这个运算符表示其两侧的检索词必须在同一句子中出现,两词的词序可以颠倒。
不同的检索系统可能采用不同层次的限制,相同的层次也可能会出现不同形式的位置运算符号。因此应该先了解所使用数据库的检索规则,然后再使用这些位置算符。
在大多数检索系统中都有一些缩小或精炼检索结果的方法,最常用的是对特定字段的限定检索。在文献记录中,同样的一个词出现在不同的字段里,对表达文献主题概念所起的作用是不一样的。同样的人名,出现在作者署名位置是作者姓名,出现在文摘或全文中则可能是文章叙述或评价的对象。字段限定符包括“IN”和“=”,将检索词限定在指定字段中进行检索。“IN”是对某一指定字段进行模糊检索,“=”是对某一指定字段进行精确检索。
加权检索是某些检索系统中提供的一种定量检索技术,“权”是对参加组配检索的各个主题词,依据检索要求分别给予不同重要程度的数值。加权检索同布尔逻辑检索、截词检索等一样,是文献检索的一个基本检索手段,但与它们不同的是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在、与别的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。运用加权检索可以命中心概念文献,因此它是一种缩小检索范围提高查准率的有效方法。
短语检索是将一个短语或词组作为一个独立运算单元进行匹配,以提高检索精确度的方法和技术,也称为精确检索。检索时把一个词组或短语用双引号将其括起来实现精确检索的目的。