购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第一节
穿过概念丛林

· 我们一直在搜索的是哪些信息?

· 搜索有范围吗?

· 纸质资源与数字资源的对比

在开始破案之前,我们需要了解一些关于信息检索的基础知识,包括信息检索的定义、“信息、情报、知识与文献”的关系以及信息资源的各种分类等,我把这些与文献线索一起称为“破案的最小单元”。这个时候,我只能请大家皱着眉头,领受一点信息检索的枯燥了。

一、“存进去”和“取出来”

信息检索不像信息素养,它的定义一直没什么变化。因为信息检索虽然也包含思维、情感、认知、方法和工具,但它有固定的工作原理。从普通人的角度看,就是将知识先存后取。存储的时候要辛勤地收集、选择、分析、标引,检索的时候要准确地提问、表达、筛选。只有这样宝藏才能展现在你的眼前。

信息检索的定义如下

信息检索(Information Retrieval)是查找信息的方法和手段。从广义上讲,信息检索包括存储和检索两个过程。存储是指将信息按一定的方式进行加工、整理、组织,使其系统化、有序化并按一定要求建成具有检索功能的工具或检索系统;检索是根据信息需求,采用一定的方法和策略,借助检索工具,从信息集合中找出所需要信息的查找过程(见图2-1)。从狭义上讲信息检索只包括检索的过程。

图2-1 信息存储与检索的工作原理图

二、柏拉图与鸡毛信

古往今来,我们一直在搜索的是哪些信息?为什么技术越发达,人类反而越来越在信息中迷失?

遥远年代的烽火、驿站、鸡毛信等等,传递的是一种被称为“情报”的信息,这种信息难以获得,被政治、军事、商业机构争夺,成为被激活了的“信息”。而世界上大多数人需要利用和可以利用的,是一种被称为“知识”的信息。关于知识的定义,不同领域有不同解释。有一个经典的定义来自柏拉图:“一条信息能称得上是知识必须满足三个条件,它一定是被验证过的,正确的,而且是被人们相信的。” 知识是人类社会实践的总结,是文明的发展方向,也是我们需要搜索的主要信息。

人类特别聪明,知道好的东西要先存起来,所以会将知识先存后取。而文献则是最重要的存储模式。文献一词最早见于《论语·八佾》:“夏礼吾能言之,杞不足徵也;殷礼吾能言之,宋不足徵也。文献不足故也。”国家标准《文献著录 第1部分 总则》(GB/T 3792.1-2009)将文献解释为:“记录有知识的一切载体。” 石头、陶片、甲骨、竹简、绢帛及至现代社会的胶片、磁带、光盘、数据库都成为文献的物理形态和呈现方式。

情报、知识和文献都是信息的组成部分。情报是特殊时空对特殊人群有用的“激活信息”,在普通人的生活中比较少见;知识是系统化了的、有价值的信息,是我们生活和学习中利用的主要部分;文献是知识的载体,从古到今经历了诸多物理形态的变化,但知识的内核始终如一。让我们迷失的,其实只是虚假或者无用的信息。

三、请苏东坡出场

纷繁复杂的信息资源存在一个分类丛林,比如按加工程度、载体类型、检索方式、出版类型等等分类。我们采取快刀斩乱麻的方式,斩断一些无关紧要的分类荆棘,留下对搜索最重要的两种分类。

第一种分类是按信息资源的加工程度,将信息分为一次信息、二次信息、三次信息。

此时,我们请出苏东坡同学。假设我们需要完成一篇综述论文《苏东坡民本思想研究成果综述》,需要去寻找某一段时间之内关于研究苏东坡民本思想的大量原始信息,并对其进行归纳、整理、提炼,这一步叫做“综”。

搜索到的这些原始信息、第一手资料,比如图书、期刊论文、会议论文、科技报告、专利文献等,这些就是一次信息。(当然,研究苏东坡不需要科技报告和专利文献。)

那么,怎样才能查到这些一次信息呢?就得通过信息线索,比如目录、题录、文摘、索引等,这些就是二次信息。它们是把大量分散无序的一次信息按一定的方法和原则进行加工提炼、浓缩而成的信息,它们存在的目的就是有效地管理和利用一次信息,所以二次信息也叫检索工具(如各种国内外著名的文摘、索引数据库)。二次信息还有一个重要特征,就是其来源是经过筛选的。比如学术期刊是否被权威的文摘索引数据库收录是评价其重要性的指标之一。具体到苏东坡民本思想研究,如果希望查到国内核心期刊的研究成果,就可以先抛开知网这种以全取胜的全文数据库,直接查找中文社会科学引文索引(CSSCI),根据它所提供的高质量二次信息去获取原文(一次信息)。

最后是把我们找到的所有一次信息进行整合、分析,阐述自己的观点,这一步叫做“述”。我们此时创作出的这个作品便叫作“三次信息”。三次信息的一个关键特点是围绕一个特定主题获取大量一次信息,对其内容进行深度加工而成。综述是比较典型的三次信息,其他形式的三次信息还有百科全书、年鉴、指南、述评、进展报告以及指引利用二次信息的书目和文献指南(如《高影响力国际学术期刊投稿指南系统》等)。此外,在信息资源和需求越来越多样化的今天,三次信息还可以帮助我们找到各种“事实信息”和“数据”。

一次信息、二次信息、三次信息,构成了整个信息利用生命周期。它让信息变得有序,仿佛带领我们走进摆满抽屉的中药铺,一个抽屉装一种药,一张处方治一样病,方便又安心。

第二种分类基于信息资源的出版类型。这是基于互联网普及之前印刷型信息(文献)的一种分类方式。主要包括图书、期刊、报纸、学位论文、会议论文、科技报告、专利文献、标准文献、法律法条、百科全书、档案、地方志、预印本等,也是信息检索最常见的一种分类方式。

如今这些印刷型信息资源大多已经数字化,数字化信息极大地方便了搜索,但也让读者失去了许多闻到书香和认真思考的机会。所幸搜索还一直保留着老祖宗留下的纸本资源的分类体系,保留着目录、题录、文摘、索引这种卡片时代的信息线索,且在很长时间内不会变化。尤其是处于信息源顶端的学术数据库,其存储和检索方式依然以“检索即匹配”为底层逻辑,字段、算符、检索词依然是关键。纵然以ChatGPT为代表的人工智能工具可以解决大部分技术问题,但知识产权依然是目前无法穿透的壁垒。

为了清晰地表达信息资源在数字化时代的形态变化,也为了能在搜索中更好地利用多种文献,我提供了下面的表格(见表2-1)。在实际搜索中,我们也可以经常性地做这种文献类型与信息源对应的游戏。

表2-1 印刷型与数字型信息资源对比

体会一下,我们是否已经穿过概念丛林,一步步接近了“破案”的最小单元。 wabFPBgWs+Oy9Hm/psfi2zmBvXKxwQsi7lO+J2xnWp2vrLDmY8+tYlWGtpbQ4I6p

点击中间区域
呼出菜单
上一章
目录
下一章
×