· 学会提取有效线索
· 探索发现宝藏信息源
· 灵活变换检索词
当具备了基本的流程化搜索能力之后,我们还需要融入复杂的场景中去。
在课程期末选题报告中,有一种报告类型叫“破案式检索”,学生们都特别愿意做,因为比专业检索报告有趣。要求是自定一个检索选题,比如寻找一张图、一句名言、一张照片、一个模型等等的出处。评判标准为是否能足够体现信息获取、甄别及分析能力,是否具备多维视角,是否采用了多种信息源等。学生们应该思考以下几个问题:要找什么(分析选题及线索)、到哪里去找(确定信息源及甄别信息)、有什么收获(得出结论)。
下面是某一学期学生的“破案式”检索报告选题:
小组的一位成员在写人文导引论文的时候,需要引用一句著名的“马克思名言”:如果有10%的利润,资本就会保证到处被使用;有20%的利润,资本就能活跃起来;有50%的利润,资本就会铤而走险;为了100%的利润,资本就敢践踏一切人间法律;有300%以上的利润,资本就敢犯任何罪行,甚至去冒绞首的危险。
但是几经查找,都没有找到这句话的出处。这句话流传甚广,大家只知道这句话是“马克思”说的,但是不知道具体的出处。
所以我们决定将检索这句话的出处作为结课报告选题,从中却得出了一些出人意料的结论。
通过分析选题,我们明确知道需要查找的是图中这段话的作者及出处。进一步分析可以得到两条线索:第一,假设这句话确实是马克思的名言,则从作者途径进行搜索;第二,在不确定作者的前提下,从全文途径进行搜索。根据五步搜索法中用最优款目入手查找的原则,显然应该选择第二种途径。
确定了搜索途径后,第二步就应该解决最关键的问题,到哪里去找?
根据五步搜索法中确定信息源的效率原则,首先应该选择学术数据库。这一点学生们掌握得很好,他们并没有去搜索引擎浪费时间,而是直接选择了中国知网数据库,用全文字段检索自然语言“如果没有10%的利润”,查找到两篇文章中截然不同的结果:第一篇认为这句话是英国经济学家托·约·登宁说的,第二篇则在注释里明确标注是引自《马克思恩格斯文集》(见图2-9)。
这里有一个小小的选择,是先找托·约·登宁,还是先找《马克思恩格斯文集》?
图2-9 中国知网搜索“如果有10%的利润”结果
应该先找《马克思恩格斯文集》,因为明显这条线索规范很多,书名、出版社、页码一应俱全。
又到确定信息源的时候了,流程真是无处不在。我们的脑海中需要迅速反应出符合此时需求的信息源,推荐大家先分大类,比如学术数据库、纸本资源、网络免费资源(开放获取、门户网站、搜索引擎、个人博客),然后分小类,比如学术数据库中有没有专门的马克思主义理论数据库,纸本资源以自己的条件是否方便获取,网络免费资源出处是否靠谱等为标准进行判断,并根据效率原则排出先后次序。案例中此时的需求是“到哪里去找《马克思恩格斯文集》”,可以不看下面的图,自己先思考一下。
图2-10 《马克思恩格斯文集》信息源
最终确定先到“马克思主义文库(Marxists.org)”中寻找《马克思恩格斯文集》第5卷871页的注释(见图2-11)。
图2-11 《马克思恩格斯文集》第5卷871页的注释
学生们如愿找到了原文注释,注释中说明这句话来源于托·约·登宁《工联和罢工》1860年伦敦版第35、36页。下一步就是去找《工联和罢工》了。
但这时却有一个新的发现,在他们要查找的这段话前面,多了一句“资本逃避动乱和纷争,它的本性是胆怯的。这是真的,但还不是全部真理。资本害怕没有利润或利润太少,就像自然界害怕真空一样。一旦有适当的利润,资本就胆大起来”。注释里同时又出现了一个出处:《评论家季刊》。那么,这句写在前面的话来源于何处?它跟我们要查的那句话都是托·约·登宁说的吗?还是托·约·登宁引用了一整段《评论家季刊》里面的话?
为了验证是否翻译错误,学生们又查找了英文版和德文版,发现所提到的内容与中文库内容一致(见图2-12、图2-13)。
图2-12 《马克思恩格斯文集》第5卷871页的注释(英文版)
图2-13 《马克思恩格斯文集》第5卷871页的注释(德文版)
事情仿佛变得越来越复杂。
现在又面临第二个选择,是选择继续查《工联和罢工》,还是选择查《评论家季刊》?
很显然,应该查前者,原因依然是挑选最优线索。
到哪里去找呢?
学生们选择了免费资源HathiTrust数字图书馆(美国高校图书馆提供的数字图书馆项目),这得益于平时的积累。我经常也会从学生那里得到一些信息源,积水成渊,聚沙成塔,这是搜索时的自觉。
在HathiTrust数字图书馆找到了《工联与罢工》第35、36页托·约·登宁的原文。请注意此时使用的是作者检索字段(见图2-14、图2-15)。
图2-14 HathiTrust数字图书馆《工联与罢工》中托·约·登宁的论文线索
图2-15 HathiTrust数字图书馆《工联与罢工》中托·约·登宁的原文
找到现在,看似已经解决问题了。但转念一想,如果这句话整段都是托·约·登宁说的,《马克思恩格斯文集》为什么还注释了《评论家季刊》呢?
也许还应该追根溯源,继续找找《评论家季刊》,信息源依然选择HathiTrust数字图书馆,注意这里的检索方法,题名字段选择“Quarterly Reviewer(评论家季刊)”,全文字段选择“turbulence and strife(动乱和纷争)”,时间限定在1860年之前(想想这样搜索的原因,还有别的搜索方法吗?)。这一找,还真又发现了问题(见图2-16、图2-17):
图2-16 HathiTrust数字图书馆用刊名及全文字段搜索
找到的期刊刊名是 The Quarterly Review (《评论季刊》),而不是《马克思恩格斯文集》中写到的 Quarterly Reviewer (《评论家季刊》)(见图2-18)。
图2-17 HathiTrust数字图书馆 The Quarterly Review (《评论季刊》)
进一步验看《评论季刊》中的两条记录,学生们很快找到了《马克思恩格斯文集》中开头的那句话(见图2-18)。
图2-18 The Quarterly Review (《评论季刊》)中的原文
搜索到这里,案情逐步明朗,让我们来清晰地梳理一遍。
先重温一下这段话(见图2-19)。
图2-19 纸本《马克思恩格斯文集》中的注释原文
通过前文的检索,可以得出如下结论:
第一,《马克思恩格斯文集》中的这句话误传很广,很多人认为是马克思说的,实际上是英国经济学家托·约·登宁在《工联与罢工(1860年伦敦版)》上说的。这句话只是《马克思恩格斯文集》中的一个脚注;第二,就整段脚注来说,又存在两处错误:①引号其实应该只引住第一句话:“资本逃避动乱和纷争,它的本性是胆怯的。”这句话是《评论季刊》中的原文;接下来是登宁在发表自己的看法,《马克思恩格斯文集》中引号引住整段话会让人误以为登宁引用了《评论季刊》的一整段话;②并没有《评论家季刊( Quarterly Reviewer )》,正确的名字是《评论季刊( The Quarterly Review )》。
《马克思恩格斯文集》脚注中这段话表述方式的前后对比见表2-7:
表2-7 《马克思恩格斯文集》脚注中这段话表述方式的前后对比
全程需要用到的工具和知识有:
(1)从选题中提取线索的能力。
(2)确定信息源的知识。
(3)外文数据库中变换各种检索字段的能力。
(4)翻阅纸本《马克思恩格斯文集》的耐心。
(5)对各种信息不盲从的态度。
一位院系老师发来求助问题:“龚老师,想查查这张图(见图2-20)的作者及原始出处。”
图2-20 院系老师提供的原始图片
这是一张分辨率不高的黑白图片。需要查找的信息是图片的作者及原始出处。而线索的析出,则不像上一个案例那么直接,需要先用排除法进行初检。
虽然知道这位老师可能用过百度识图,但我还是不死心地再次试了一下,果然铩羽而归,连相似的图片信息都没有。
于是我的脑海里开始快速扫描自己所知道的图片信息源,Google识图、搜狗识图、必应可视化搜索、SauceNAO,还有老牌的识图搜索软件TinEye,我甚至还用到了俄罗斯搜索引擎Yandex、法国的搜索引擎QWANT,但我仍然一无所获。
在以图识图的排除法后,我们开始从图片中提取检索词。
首先最显眼的肯定是数字“8”,还有呢?
图片中有一栋显眼的建筑,它是什么?直觉告诉我这是鸟巢。但大家要记住,检索中无论多确定的信息都需要证据,不能想当然,某一个环节的误判都有可能让检索陷入误区,这与破案异曲同工。于是我分别考证了建筑的外观、其南侧的水域(鸟巢南侧的人工河)以及东侧的高楼(盘古大观),证明它确实是鸟巢。
最后还有一个关键问题,“鸟巢夜空的数字8”会是什么呢?烟花或者是无人机灯光秀?于是我用以下两个检索式在搜索引擎中进行检索,以确定图中到底是烟花还是灯光秀。
烟花 and 鸟巢 and 数字
灯光秀 and 鸟巢 and 数字
检索结果显示,这张图片中的数字8应该是烟花。
现在我们提取的检索词是:8;鸟巢;焰火/烟火/烟花。
案例中图片的信息源并不那么好确定,因为初检的时候我们已经查过了很多图片网站。于是我只能用检索词在搜索引擎中继续查找,试图寻找一些灵感。搜索引擎给我推送了很多关于烟花制作和燃放技术的信息,绝大多数都提到了“电脑模拟、3D模拟、仿真”等字样(见图2-21),这显然是专业领域的词汇,这让我想到,这幅图会不会是某篇学术论文或者学术专著里面的插图呢?确定信息源的优先原则不是学术数据库吗?看来搜索的流程真是应该刻在心里才行。
图2-21 搜索引擎推送的结果
有了新的方向,又面临一个小小的选择,是先查论文还是先查图书?很显然,应该先查篇幅短小电子资源相对容易获取的论文。
打开中国知网,基于之前提取的检索词,“8;鸟巢;焰火/烟火/烟花;模拟;仿真”,我用了一个比较专业的检索式,不着急,要想很熟练地写出这样的专业检索式其实不难,在后面的章节中我会详细介绍。
检索式:SU %=(烟花+烟火)*(8字+字+8)*(模拟+仿真)
检索结果如下(见图2-22、图2-23):
图2-22 中国知网检索结果
这里又存在一个小小的选择,先看硕士论文还是先看期刊论文?先看2011年的文献还是先看2010年的文献?很显然,两个问题都应该选择后者,而第二篇文献完全符合要求。
图2-23 中国知网收录的原文
至此,我完成了整个搜索任务。这幅图片的最早出处是一篇期刊论文:《基于粒子系统的8字动态烟花仿真》,2010年发表于《计算机仿真》期刊,作者为汪继文,胡文平,金余峰。文章具体阐述了用粒子系统仿真方法在Vc++和OpenGL开发工具上用纹理映射、色彩混合等技术,设计并对8字动态烟花进行成功仿真的过程。
全程需要用到的工具和知识有:
(1)以图识图的诸多网站。
(2)鸟巢及周围建筑的基本知识或搜索能力。
(3)从图片提取检索词以及构建专业检索式的能力。
(4)搜索中此路不通时寻找另一条路的灵感积累。
又有一位院系老师发来求助:“龚老师好,因为正在撰写一篇关于传统书信发展变迁的综述论文,不知您能否帮忙查到民国时期(特别是抗战期间)国内信件收发的数据,最好是人均数据。”
从案例中我们得知,要找的是民国时期国内信件收发的人均数据。通过初步分析,可以理出如下基本线索:
(1)检索年代:1912—1949年(民国元年至民国三十八年),重点检索1937—1945年(抗战期间)。
(2)信息类型:统计数据。
(3)信息范畴:通讯、交通运输、信息技术、第三产业等。
(4)初检检索式:
(信件 OR 邮件 OR 书信)AND 民国
(信件 OR 邮件 OR 书信)AND 1912≥PY≤1949
(5)信息源:统计数据库、政府网站、图书、年鉴等。
纵然已经身处大数据时代,我还是直觉这不是一个容易完成的任务。第一,年代比较久远,民国时期经历了北洋政府和国民政府,国家长时间处在战乱之中,地方政府各自为政,统计部门和统计数据极端不全面不准确;第二,书信收发数据不像人口、经济等数据比较常见。
既然是查数据,那肯定先查统计数据库。根据信息源的优选原则,第一要想到学术数据库。我筛选了中国知网的“统计数据”和年鉴、EPS全球统计数据/分析平台,心想说不定能一击而中呢!当我看到两个数据库的结果推送中诸多的“信件、邮件”字样时,我不禁欣喜万分,以为自己找到了答案。
先看知网,还没输入检索词,就一眼可见统计数据的最早年代是1949年,于是我默默关掉页面转而开始搜索知网的年鉴。检索词选择“信件 OR 邮件 OR 书信”,年份选择1915—1949(1915年是知网年鉴的最早时间),结果是这样的(见图2-24):
图2-24 中国知网年鉴数据库初检结果
31条记录中,除了少数单独标有“信件、邮件”的地方志以外,其他都是关于邮件业务的通知、消息、章程等,没有我要找的全国信件数据。倒是从这些年鉴中发现了一些关于民国时期邮政通讯的有趣史料。比如:1905年12月16日《津沪间开办邮件快递业务》,这一条目记载:“组织专门人员投递,尽量缩短邮寄时间”,感觉与现在的快递业务基本相同(见图2-25)。
图2-25 中国知网年鉴史料
EPS数据平台是国内知名的多学科综合性信息服务与数据分析平台。通过查询,EPS全球数据里倒是有规范的全国和各省市信件(邮件)的投递数据,不过非常遗憾,全国的数据只有2000—2020年。但我从中获得了一些扩展的线索:第一,查信件数据还可以用上位检索词“邮政”;第二,信件往来不仅应该归类到通讯,广义上更可以归类到经济类。
图2-26 EPS全球统计数据/分析平台初检结果
既然邮件(信件)数据可以归入经济类,依据排除法,我又浏览了一遍图书馆主页上所有经济数据类的数据库指南,如中经网统计数据库、搜数网、中国咨询行等,但从这些数据库收录资源的起始年代就可以发现不符合案例要求。
学术数据库里没有,那第二步就查政府网站。因为统计数据的另一个重要信息源就是政府网站。在国家统计局官网,我首先查数据资源,但很遗憾,和学术数据库一样,没有1949年以前的信件数据。现在问题好像发生了转移,难点从“哪里查信件数据”转移到了“民国时期的信件数据到底有没有”。于是我用检索式:“民国”AND(邮件 OR 邮政 OR 信件 OR 书信)搜索,看是否能查到记载民国信件的有关资料,从资料中找突破口。
资料中有线索!我找到了一篇莫日达撰写的《中华民国统计史》 ,作者曾是中国统计出版社副总编。这篇文章详细介绍了中华民国的统计组织与法规以及关于民国时期人口、农工商业、交通运输、生活消费、教育社会卫生等统计情况。在“交通运输统计”中我看到了这样的一段话(见图2-27):
图2-27 国家统计局网站“中华民国统计史”(摘选)
也就是说,从民国元年(1912)年开始,虽然编撰体例不同,但均有关于邮政、电政的统计数据。
这一发现让我精神大振。
根据《中华民国统计史》的记载,基本应该确定在年报、提要、汇编、年鉴中寻找,于是我把目光转向了图书数据库。
在读秀学术搜索平台,用“书名”字段,检索词选择“民国、邮件”。我查到了如下三本书,第一本应该就是上文中提到的从民国十七年开始的交通年报,但在读秀中只有它提供电子书阅读,其他两本均只能试读,并且找不到纸本馆藏地,也不提供文献传递。
[1]交通部邮政总局编.中华民国十七年邮政事务年报 第25版[M].交通部邮政总局驻沪办事处.
[2]国民政府主计处统计局编.中华民国统计提要[M].商务印书馆.1936.
[3]孙燕京,张研主编.民国史料丛刊续编 644 经济 工业[M].郑州:大象出版社.2012.
我开始艰难地翻阅这些断断续续的陈旧历史,在第一本书中查到民国十四年至民国十七年(1925—1928)每年的普通信件、挂号信件、快递、保险信函以及保险箱匣的统计数据。请看图2-28中方框处,我特别留意了民国十七年(1928年)收寄邮件总数为636 546 340件,为什么特别关注民国十七年的数据呢?请允许我卖个关子,容后再叙。
图2-28 《中华民国十七年邮政事务年报》中的邮件数据
而在第二本只提供试读的《中华民国统计提要》的第九页,查到了民国二十一至二十二年的邮件统计数据。
在国家图书馆官网,我又查到了两本邮政事务年报,分别是民国二十五年度和民国二十八、二十九年度 ,均提供在线阅读(需要先注册),记录了民国二十二至二十九年(1933—1940年)的邮件统计数据(见图2-29)。
图2-29 国家图书馆官网“邮政事务年报”
也就是说,我们现在拥有了民国十四至十七年,二十二至二十九年这十三年的邮件统计数据。但对照那位老师的需求,我们还差比较关键的民国三十年至三十五年(1941—1946)的数据,可是我已经查不到其他的年报或者年鉴中有我想要的数据了,再者我对于这种散乱各处的数据并不是特别满意,因为它来自不同统计部门且实在看得人头晕脑涨。
搜索一度陷入了僵局。
我决定重新寻找更好的信息源,还是要从文献出发,所以我继续在知网和万方数据库中搜索,试图在文献中寻找灵感。这次将检索词换成了全文字段的“信 OR 信件”,以及篇名字段的“年鉴”,理由是提到邮政或者邮件的年鉴应该很多,我已经找过了,但提到信或者信件的年鉴应该不多吧,是否可以去淘一淘呢?
事实证明我的推理是有道理的。我找到了图2-30的这篇文章,作者是清华大学图书馆的郭依群老师。
图2-30 中国知网“《联合国统计年鉴》带你回望全球70年”一文
按照文章中的指引,我顺利找到了《联合国统计年鉴》( UN Statistical Yearbook )的电子版,发现年鉴是从1948年开始出版,除个别年份是两年一版或三年一版,绝大多数年份都是一年一版。英法文对照。目前已经有电子版本64卷(2021年)。联合国统计年鉴包括280多个国家、地区以及区域性国际组织的人口、工农业、制造业、财政、贸易、社会、文教等信息,真是名副其实的大数据(见图2-31)。
图2-31 《联合国统计年鉴》电子版
阅读中我还特别注意到这样的一句话:“每年提供的统计数字会回溯几年甚至十几年”,这不就意味着1948年的第一卷中肯定会有民国34年(抗战胜利)以后的数据吗?运气好的话,说不定前面十几年的数据都可以一网打尽。
《联合国统计年鉴》所有年份的PDF文档都是可以下载的,1948年第一卷的PDF文档我下载得很顺利,但要在一册数据量巨大的统计年鉴中找到信件的人均数量依然是不容易的事情,阅读和甄别信息的功夫并不比搜索轻松。所以我总会强调一个宗旨:任何工具和技巧都不能代替你看文献。
可以先了解目次页。目次页分世界和地区摘要、人口和社会统计、经济活动、国际经济关系四个部分。随后我在PDF文档中试着搜索“letter”,一共有12条结果,第一条结果出现在目次页,它清晰地告诉我,这册年鉴中有1928年到1947年二十年的“Letter mail,number of letters sent or received(信件收发)”数据,归类到“communication(通讯)类”。同时归于此类的还有电报收发、电话使用号码、广播发射台的数量(见图2-32)。
图2-32 《联合国统计年鉴》目录
让我们仔细看看寻找多时的成果吧(见图2-33、图2-34):
图2-33 《联合国统计年鉴》1948年以前中国“信件收发”数据
图2-34 《联合国统计年鉴》1948年以前中国人口数据
我特意把1928年的数据圈了出来,如图2-33所示方框中内容。还记得前文中(图2-28)搜索出来的《中华民国十七年邮政事务年报》中1928年的数据吗?——636 546 340,当时卖的关子现在来解,我们把两种渠道搜索的数据对比一下 ,发现四舍五入后基本没有误差。“五步搜索法”中要求信息相互验证,这也是“搜索破案”时重要的逻辑链条,前面走的复杂的弯路,看似无用,实际无论对于信息源的排除法和信息的相互验证都不可或缺。
信件总数解决了,人均怎么办?好说,找人口数量。
宝藏就是宝藏,人口总数这里也有,我们先看看1937年的中国人口数据,果然是四万万五千万同胞(见图2-34)。
仔细看China下面的Formosa又是哪儿?两个标注又有哪些补充信息?郭依群老师的文章告诉我们,她借助《麦克米伦百科全书》( The Macmillan Encyclopedia )查询后,得知Formosa就是当时的中国台湾省。
而两个标注(图2-35)的信息分别是:41 统计数据里包括二战之后回归中国的台湾和澎湖列岛的人口,但不包括外蒙古,单独显示在后面;42 台湾的统计数据里包括澎湖列岛。
图2-35 标注信息
最后我以1937年为代表,粗略地算了一下国内人均信件收发的数据:
882 000 000/452 460 000≈1.949(件)
在那个“烽火连三月,家书抵万金”的年代,唯有书信是黑暗中的一点微光,冷雨里的一丝温暖。
我在做这个案例时还偷偷干了不少“私活”,在BiliBili网站搜出过央视的纪录片《书简阅中国》,花了半天时间追完六集。看到鲁迅和许广平的《两地书》,顶着寒风去图书馆借了来看。只为那句:“我寄你的信,总要送往邮局,不喜欢放在街边的绿色邮筒中,我总疑心那里会慢一点。”
图2-36 鲁迅、许广平著《两地书》节选
鲁迅自己评价《两地书》说:“这一本书,其中既没有死呀活呀的热情,也没有花呀月呀的佳句;如果定要恭维这一本书的特色,那么,我想,恐怕是因为他的平凡罢。”
也许,书信对于我们的意义,连我们自己都没有意识到,它是一种延时的温暖和关怀,唯有这份从前慢的“延时用心”,让人倍感珍惜。于是,我把这次的搜索命名为“最温暖的大数据”。
全程需要用的知识和工具有:
(1)基本的统计数据信息源。
(2)年鉴的有关知识。
(3)在“民国、信件、书信、邮政、邮件、交通、通讯”等检索词之间锲而不舍进行排列组合的耐心。
(4)在文献中发现宝藏信息源的观察力。
(5)小学六年级的加减乘除能力。
(6)对书信这种传递信息方式的认可与热爱。