文献信息检索:利用检索工具或检索系统,通过文献内外特征的标识(途径),把符合特定需要的文献信息线索或知识从著录的一条条描述记录中查找出来。
我们可将文献信息检索理解为:文献信息检索是检索者将检索提问与存储在检索工具或检索系统中的文献特征进行“匹配”,把符合特定需要的文献找出来的过程。检索基本原理见图2-1。
图2-1 文献信息检索原理示意图
数据库(database)是数据的有序集合,是按照数据结构来组织、存储和管理数据的仓库。
数据库的结构可分为三个层次:
文档:文档(file)是数据库中一部分记录的集合。一般指大型数据库的子数据库或专辑。为了便于使用,大型的数据库会按学科或年代划分成若干个文档。如中国生物医学文献数据库(CBM)是按年代来划分的;中国学术期刊网络出版总库(CAJD)按学科划分为工程科技、农业科技、医药卫生科技等多个专辑。
记录:记录(record)是构成数据库的基本信息单元,由若干字段组成,每条记录都描述了原始信息的外表特征和内容特征。一条记录代表一条原始信息,或者是一篇文献的信息。数据库的记录数越多,数据库的容量就越大。
字段:字段(field)是组成记录的数据项,用来描述文献的特征,如标题(title)、著者(author)、地址(address,author affiliation)、刊名(journal name)、出版者(publish er)、主题词(subject headings)、关键词(keywords)等。字段的数量越多,说明记录包含的信息就越多,该数据库就越加完备。
数据库类型的划分有多种标准,按照数据库中存储信息的内容可分为文献型数据库、事实型数据库、数据型数据库、多媒体型数据库。
1.文献型数据库(literature database)
(1)书目型数据库(bibliographic database)存储二次文献,包括题录数据库、文摘数据库、索引数据库。如MEDLINE数据库、中国生物医学文献数据库、中国药学文摘数据库等。
(2)全文型数据库(full text database)存储一次文献,即原始文献全文,提供对文献章、节、段内容的检索,如中国期刊全文数据库、中文科技期刊全文数据库等。
2.事实型数据库(fact database)
存储经过加工的三次文献的信息,如美国国家癌症研究所建立的Physician Data Query(http://www.cancer.gov/cancertopics/pdq),它能提供由各科肿瘤专家综述的上千种治疗癌症的详细方案、从事癌症研究的医生和保健机构等信息。它还有大量电子版词典、百科全书、手册、年鉴、指南,如《不列颠百科全书》(Encyclopedia Britannica)被认为是当今世界上最知名也是最权威的百科全书,推出网络版(http://www.britannica.com/)后世界各地的用户都可通过网络查询《不列颠百科全书》的全文。
3.数据型数据库(data database)
存储原始文献中以数值形式表示的数据,常见的有实验数据、统计数据、技术参数等,如美国GENBANK数据库(http://www.ncbi.nlm.gov/genbank)。
4.多媒体型数据库(multimedia database)
存储图像、视频、音频、动画等多媒体信息。如美国国家医学图书馆(NLM)的The Visible Human Project(可视人计划)等。
文献信息检索语言是保证其存储和检索一致规范化的人工语言,它把文献信息的存储和检索联系起来,使文献信息的标引者和检索者达成共识,从而实现检索。它是沟通信息存储和信息检索的约定语言,是文献存储成检索工具时使用的语言,也是检索提问时用的语言。
1.检索语言种类
按照描述文献信息内外部特征的不同,我们可将文献检索语言分为两大类型。描述文献外部特征的语言:名称语言(书或刊名,著者或团体著者,出版事项),代码或序号语言(专利号、标准号、ISSN、化学物质登记号等);描述文献内容特征的语言:分类语言(《中国图书馆图书分类法》《国际十进分类法》),主题语言(关键词语言、单元词语言、标题词语言、叙词语言)。
文献的外部特征语言是文献上标明的、显而易见的特征,作为检索工具存储和检索的标识依据,如题名、著者、文献序号、专利号等。
文献的内容特征语言比文献的外部特征语言复杂,它以对文献内容更深层次的揭示为标识依据。分类文献内容特征的语言一般有两大类:①分类检索语言:是用分类号来表达各种文献内容特征的概念,以科学分类为基础,按知识门类的逻辑次序从总到分,从一般到具体层层划分形成的一个等级结构体系。在国内,目前主要使用的分类语言主要是《中国图书馆图书分类法》(如图2-2所示)等;国外常用的分类语言有《杜威十进制分类法》《国际十进分类法》。②主题检索语言:是一种用自然(规范化)的词语来表达文献内容的主题概念的直接性检索语言。把这些规范化的名词术语按某种便于检索的字顺排列起来就形成了主题词表。主题语言还可以进一步细分为关键词语言、单元词语言、叙词语言、标题词语言,其中关键词语言是目前国际互联网上许多搜索引使用的检索语言。
图2-2 《中图法》结构示意图
2.布尔逻辑语言
布尔逻辑语言的运用是计算机文献信息检索过程中不可忽视的方面,它关系到最终检索结果与检索需求的匹配程度。常用的布尔逻辑运算符有三种,如图2-3所示:
第一种是逻辑“与”(AND或*):是指两个概念的交集。A AND B表示命中的文献中既包含A概念,又包含B概念。如“内分泌疾病”可以表述成疾病AND内分泌系统,以缩小检索范围,提高检索的专指性。
第二种是逻辑“或”(OR或+):是指两个概念的并集。A OR B表示命中文献可以包含A概念或者B概念。如“高血压”这个概念可以由原发性高血压OR继发性高血压表达,其作用是扩大检索范围,提高查全率。
第三种是逻辑“非”(NOT或-):表示从两个交叉的概念中除去交叉的部分,A NOT B即A概念中不包括B概念部分。如“国外的行政诉讼”概念可以用行政诉讼NOT中国法律进行表述,目的是缩小检索结果,但有相关文献可能被排除掉。
布尔逻辑运算符的运算优先级是:NOT、AND、OR。“()”可以改变运算顺序,例如,查找“三七或银杏素对脑血管循环的影响”,检索式为:(三七OR银杏素)AND脑血管循环。
图2-3 逻辑运算符示意图
3.截词检索
截词,是以符号取代检索词中的部分字母从而检出相同词干的词,截词检索主要用于同根词、单复数词、词性变异和拼法变异词的检索,以提高查全率。
截词检索(truncation search,wildcard search)是计算机信息检索系统中应用非常普遍的一种技术。由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一个意思的词,英美拼法不一致;词干加上不同性质的前缀和后缀就可派生出许多意义相近的词等。为了保证查全,就得在检索式中加上这些具有各种变化形式的相关意义的检索词,这样就会出现检索式过于冗长,需要很多输入时间。截词检索就是为了解决这个问题而设计的,它既可避免漏检,又可节约输入检索词的时间。
截词符号有多种,如“?”“#”“$”等。不同的信息检索系统其截词符的表示不同。
4.字段限定检索
数据库中的记录是由字段构成的。字段限定检索(limit field search)是通过字段限制符把检索词限制在指定字段中的检索,几乎所有的计算机信息检索系统都支持字段限定检索。
4.1精确限制符“=”在DIALOG检索系统中称为附加索引检索符,适用于非主题性字段(描述文献内容特征的字段)。
例如,AU = Smith J,DT = Reviews,PY = 1998,DC = 242.3。
4.2模糊限制符“in”“[]”“/”在DIALOG检索系统中成为基本索引检索符,适用于主题性字段(描述文献内容特征的字段)。
5.词组检索
词组检索(phrase search)限定输入的两个以上单词为词组时,可使用双引号引用,否则系统会将其分割后按逻辑与(或)关系运算。该检索主要用于固定短语或专有名词的检索。如“acute appendicitis”在短语前后加双引号,系统将其按词组对待,不再将其分割按单词检索。
1.文献信息检索的类型:按不同的检索目的,文献信息检索的类型一般可以分为以下多种类型,你可以根据自己的需求进行选择。
1.1书目检索
关于文献线索和文献主要特征的查找。按揭示文献信息的对象不同,书目分为出版发行目录、图书馆馆藏目录、联合目录等。它检索的是诸如“关于某一类的疾病有哪些文献”等问题。
1.2数据或数值检索
它是文献中有关数据资料的查找。如统计数据类、调查数据类、实验数据类、标准数据类等查找。它检索的是诸如“这类疾病的发病率、死亡率有多高”等问题。
1.3事实或事项检索
它是有关个别知识或信息的查找,提问具体、狭小、明确、专指性强。如时间类、人物类、机构类、典章制度等。它检索的是诸如“内分泌疾病是什么疾病”或“这类疾病是如何发生发展的”等问题。
1.4全文检索
它是为方便人们快速获得原始文献信息而产生的。检索诸如“关于这类疾病的研究或介绍的具体文章”等问题。
2.文献信息检索的方式:目前是传统阅读方式和计算机阅读方式并存,手工检索和计算机检索都是文献信息检索的重要方式。
2.1手工检索
它是利用印刷型的检索工具与参考工具来查找文献线索和文献信息的方式。这种检索方式的优点是不用设备,简单灵活,有广泛的适应性和方便性;费用低,可以同时用多种检索工具;可以随时修正检索策略。其缺点是费时、费力、效率低、查全率低。
2.2计算机检索
它是利用计算机检索系统检索文献信息,包括联机检索、光盘检索、网上信息资源检索等。这类检索方式的优点是效率高、速度快、范围广、准确性强。但它的缺点是需要利用设备条件,对检索人员及工作环境、业务能力也有一定的要求,要求检索者要熟悉检索方法,懂得信息检索语言等。
在目前发展条件下,手工检索和计算机检索两种方式各有优缺点,具体使用哪种方式,要根据检索的内容和要求,以及检索者面临的条件,以更为便捷为首选,切不可偏颇或刻意追求,如果能很容易取到印刷型检索工具书,翻一翻就能找到更权威更准确答案,手工检索是不错的选择。一般来说,检索量大的课题用机检方式省时省力,有时同时使用两种方式,有互补的作用,对于检索提高查全率和查准率极为有利。
1.分析课题、明确需求
在信息检索之前,我们应对课题进行深入分析,明确以下几个方面:
①课题所属学科范围、主题范畴。
②检索时间范围(根据课题研究的起始年代和研究的高峰期确定)。
③检索目的(需要查找的是文献、数值、还是事实?提供题录、文摘还是原始文献)。
④文献信息来源(期刊、学位论文、会议文献、专利、科技报告、技术标准等)。
⑤检索评价要求(查全、查准、查新)。
3.选择信息检索系统(数据库)
数据库选择的正确与否直接影响检索效果,即使再完美的检索策略,如果数据库选择不当,同样会导致检索失败。因此,检索前我们必须对所选数据库的学科覆盖范围、收录文献类型、数据库起止年限、检索方法等有所了解。选择数据库应遵循以下原则:
(1)根据检索目的选择数据库类型。如需要统计数据,应选择数值型数据库;需要疾病的分类标准,应选择指南型数据库;只需要文摘,可检索文摘型数据库;若需要全文,则须检索全文型数据库。
(2)根据课题的专业范围选择数据库。专业性强的课题,可选择专业数据库或大型数据库中的专业文档。如检索交叉学科或多学科综合课题,可同时选择多个不同的数据库。同是药物数据库,国际药学文摘(International Pharmaceutical Abstracts)数据库不具备环系代码检索功能,而德温特药学文摘(Derwent Drug File)数据库则具备这一检索功能。
(3)根据数据库中信息的来源选择数据库。如数据库中信息的来源有期刊、报纸、会议资料、学位论文、科技报告、专利文献等。
(4)根据数据库的标引质量、检索功能、收录范围、更新速度选择数据库。当几个数据库内容交叉、重复率较高时,应首选标引质量高、检索功能强、收录范围广、更新速度快的数据库。
3.确定检索词,构建检索式
首先对课题进行主题分析,提炼出主要概念、上位概念、下位概念、隐含概念。通过词表将概念转换为规范词,以保证概念表达的准确性、唯一性、专指性。如果必须用自由词,应找全其可能的表达形式,以避免漏检。
检索式是检索策略的具体表述,是通过逻辑算符、位置算符、截词符、字段限制符等把检索词组配起来,既能表达信息需求,又能为信息检索系统识别和执行的命令形式。检索式编写是否恰当对检索效果的好坏起着关键作用。
为方便编写检索式,可将其过程总结为“5步法”:
①切分,分解到最小的检索点;
②删除,排除检索意义不大而且比较泛指的概念;
③定词,选择有检索意义的概念,去除重复概念,增加隐含概念;
④组合,确定检索词并用逻辑运算符连接;
⑤限定,特殊的条件。
4.根据结果反馈调整检索策略
当检索结果与检索期望存在差距时,需要对检索策略进行调整。认真检查所确定的检索方法、信息检索系统、检索途径是否对口,是否符合课题的要求。合理调整检索策略,修改检索提问式,是确保文献信息检索质量的重要环节。
检出的文献太多,缩小检索范围的方法:①增加用“AND”连接的检索词,或用“二次检索”;②用特定的副主题词进行限定;③用字段限定检索,如标题词字段检索;④使用主要主题词进行加权检索,下位主题词检索,不扩展检索,以及文献类型、语种、重要核心期刊、年分等限定检索;⑤用逻辑非NOT来排除无关检索词。
检出文献太少,扩大检索范围的方法:①删除某些用“AND”连接的不重要的检索词;②增加用“OR”连接的检索词;③位置运算符放宽,检索词后用截词符;④多用几个副主题词,甚至选用全部副主题词;⑤选用上位主题词扩检,或选用扩展全部树检索,同时用主题词和自由词检索,用“OR”连接;⑥从在某个学科范围中输词检索改为在所有学科中输词检索;⑦多用几种信息检索系统进行检索。
5.获取原始文献
获取原始文献是文献信息检索的最终目的,其基本原则是由近而远。常用的获取方法:
①利用所在单位馆藏目录,了解文献收藏情况(纸质资源和电子资源),就地借阅、复制或下载。
②对本馆缺藏文献,利用区域性或全国性联合目录了解其他馆收藏情况,并作馆际借阅或复制。
③利用信息检索系统的全文库下载所需原始文献。
④利用Internet上的相关网站收费订购或免费获取原始文献。
⑤其他途径,如向文献著者直接索取、论坛求助等。
检索效果是指利用信息检索系统实施检索的有效程度,包括技术效果和经济效果。计算机检索效果如何,直接反映出检索系统的性能和检索实践的优劣。根据Lancaster FW的阐述,判定一个检索系统的优劣,主要从质量、费用和时间三个方面衡量,因此,对计算机信息检索的效果评价也应该从这三个方面进行,质量标准主要通过查全率和查准率进行评价;费用标准即检索费用,是指用户为检索课题所投入的费用;时间标准是指花费的时间,包括检索准备时间、检索过程时间、获取文献时间等。衡量检索效果的两个最重要的指标是查全率和查准率。
1.查全率和查准率的概念
1.1查全率
查全率(recall ratio)是指系统在进行检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索了出来。
查全率=[检出的相关文献总量/文献库内相关文献总量]× 100%
例如,利用某个信息检索系统检索某课题的文献,假设在该系统文献库中共有相关文献100篇,而只检出60篇,查全率为60%。
1.2查准率
查准率(precision ratio)是指在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库实际检出的全部文献中有多少是相关的。
查准率=[检出相关文献量/检出文献总量]× 100%
例如,检出文献总篇数为80篇,其中与课题相关的只有50篇,另外30篇与课题无关。本次检索的查准率为62.5%。
2.影响检索结果的因素
查全率与查准率是评价检索效果的两项重要指标,这两项指标直接受信息检索系统和检索技术两方面因素的影响。
2.1影响查全率的因素
从信息检索系统来看,主要有:文献库收录文献不全;索引词缺乏控制和规范;词表结构不完整;词间关系模糊或不正确;标引不详、前后不一致、遗漏了原文的重要概念或用词不当等。
从检索技术来看,主要有:选用检索词及其逻辑组配不当;检索途径和方法太少;信息检索系统缺乏截词功能和扩展检索功能;未能全面描述检索要求等。
2.2影响查准率的因素
从信息检索系统来看,主要有:信息检索系统不具备逻辑非功能;截词部位不当;使用的逻辑不当等。
从检索技术来看,主要有:索引词不能准确描述文献主题和检索要求;组配有误;检索面宽于检索要求;选用词语及词间关系不正确;检索词或检索式专指度不够。
查全率和查准率之间存在着互相制约的关系,当查全率提高的同时,查准率就会降低。而当查准率提高的同时,查全率又会降低。任何一个信息检索系统要求查全率和查准率都达到100%是不可能的。但是值得注意的是,当查全率和查准率都很低的时候,可以通过检索策略的调整来使两者都得到一定的提高。一般来说,查全率控制在60%~ 70%,查准率控制在40%~ 50%就是较好的检索结果。我们在信息检索时往往很难同时兼顾查全率和查准率,因此应当根据具体的需要,合理调整查全率和查准率。不同的课题检索目的各不相同,对查全率和查准率的要求也不相同,可根据课题具体要求来满足查全率和查准率的要求。