Bhattacharya认为数字信息资源是指用数字形式保存的信息,这些信息的特点是:读写由机器驱动;不可触摸;大多数情况下支持多用户同时访问;有时只有信息的镜像形式能被访问;可以分散于世界的不同位置等
。作者对数字信息资源进行了分类,如图2-1所示:
图2-1 数字信息资源分类
数字信息资源的最主要特征就是数字化也就是其最底层编码为0和1,以方便计算机存储、传输、加工以及检索等,数字信息资源可以通过bit来计量其所占存储空间的大小。从来源上来看,数字资源主要来自两方面:一方面,对非数字信息资源的数字化,通过信息技术使信息资源转化为数字化形态,如对文献资源、缩微胶片等资源的数字化等;另一方面,主要是直接产生的数字信息资源,如直接通过网络出版的E-book以及E-journal等。现实世界存在的各种各样的信息资源都可以被数字化,具体如图2-2所示。
文献型数字资源指以文字方式表达的数字资源,比较常见的形式有电子书、电子期刊论文等。图形图像型数字资源主要指的是通过二维或三维图形、图像记录信息的数字资源,常见的图形图像型数字资源有彩色或黑白图片、3D数字模型等。音频数字资源是指通过声音记录信息的数字资源,例如网络上的音乐、录音等。多媒体数字资源,指利用两种及以上方式记录信息的数字资源,如视频(包括图像、声音或文字)数字资源、图文数字资源(比如网络上由文字和图片构成的博客、微博等)。按照资源的记录方式对数字资源进行分类具有十分重要的意义,数字资源记录方式在很大程度上决定着资源的组织方式。
图2-2 不同类型信息资源的数字化
按照记录方式数字资源又可以进行如下分类:1)文献型数字资源;2)图形、图像数字资源;3)音频数字资源;4)多媒体数字资源。具体如图2-3所示:
图2-3 按记录形式的数字资源分类
数字信息资源是计算机与网络技术发展的必然产物,也是人类走向信息文明的客观基础。作为与社会步伐相适应的资源形态,数字信息资源与其他信息资源相比具有如下特征:
第一,数字信息资源打破传统资源的时空限制。无论何种形式的数字资源其底层编码都是便于计算机处理的0和1,因此用户能够利用计算机随时随地获取网络上公开的数字信息资源。资源的数字化特征打破了传统资源的时空限制便于存储、传播、加工、获取等,极大地促进了人类的信息平等。
第二,数字信息资源具有良好的可操作性。用户可以方便地利用相应的程序处理、加工数字信息资源,例如通过Word编辑文本型信息资源,通过Photoshop处理图形图像型信息资源等。由于用户具有了更多的参与性以及自媒体技术的不断发展,网络上的数字信息资源变得越来越丰富。
第三,数字信息资源具有极好的可链接性。非数字信息资源一般按照树形结构进行分类组织,如图书馆常用的各种分类方法(中图法、人大法、南大法等)基本上都是树形的资源组织方式,这种方式具有很多弊端,无法真正揭示资源之间的深层关系。而数字信息资源可以通过超链接的方式建立资源间的网状关系,突破原有树形结构的局限,使资源间深层的关系能够被更好地揭示,以形成庞大的数字资源网。
第四,数字信息资源具有共享性。数字信息资源可以被无限复制,因此数字信息资源具有很好的共享性,不同用户使用同一资源时彼此不受任何影响。另外,数字信息资源因为其具有无限的可复制性以及易操作性等特点使得相关的知识产权问题备受关注。由于数字信息资源易于获取以及篡改,从某种程度上说,数字信息资源具有一定的不安全性等弊端。
世界上很多著名的图书馆已经体现出LAM数字化服务融合的趋势,如美国国会图书馆、波士顿公共图书馆等,但是图书馆提供的最主要的数字资源仍然是文献型信息资源,如E-book、E-journal以及Thesis等,资源主要的存储格式为PDF和JPG,虽然JPG主要是图形图像的存储格式,但很多图书馆数字资源仍然采用JPG存储格式。图书仍然是图书馆最重要的资源,图书馆提供的数字化资源以数字化的文献为主要内容。图书在人类的历史上起着极为重要的作用,从中国的甲骨文、埃及的象形文字以及两河流域出现的楔形文字到现在的电子书,图书的形式一直发生着变化,但是其作为人类思想容器的角色一直没有改变,随着人类对文化的需求变得越来越强烈,图书的价值也越发重要。为了便于对国际的图书发行量进行统计比较,1964年11月在法国巴黎举行的会议上,通过并采用以下定义:图书是不包括封面和封底在内,至少含49页的非期刊类印刷品,并且于该国家公开予公众
。目前比较权威的定义是联合国教科文组织对图书的定义:凡由出版社(商)出版的不包括封面和封底在内49页以上的印刷品,具有特定的书名和著者名,编有国际标准书号,并有定价并取得版权保护的出版物称为图书。
期刊是图书馆提供的另一种主要资源,期刊又称“杂志”。其具有相对统一的名称,相对固定的版式、篇幅和内容范围,每年至少出两期,每期载有两篇以上不同作者写的文章,按一定的卷期号或年月顺序号连续出版下去的出版物,不包括报纸、机关团体的会议资料(会议录、会议论文集等)
。学术论文一般通过相关的期刊出版,学术论文在知识的交流以及共享方面发挥着十分重要的作用,通过对知识的分享可以避免学术资源的重复投入等浪费现象,能够加速人类的知识生产过程,所以期刊对于图书馆具有非常重要的意义。
学位论文是图书馆提供的另外一种非常重要的资源。我国现行的国家标准《科学技术报告、学位论文和学术论文的编写格式》(GB7713-87)对学位论文进行如下定义:学位论文是表明作者从事科学研究取得创造性的结果或有了新的见解,并以此内容撰写而成、作为提出申请授予相应学位时评审用的学术论文。可以看出学位论文是学术论文的一种特殊形式。《中华人民共和国学位条例暂行实施方法》规定:已经通过的硕士学位和博士学位论文,应当交存学位授予单位图书馆一份;已经通过的硕士和博士学位论文,还应当交存有关的专业图书馆一份,以供各单位查询使用
。目前,很多图书馆将学位论文公开,不同用户可以通过图书馆网站下载数字学位论文,如英国牛津大学图书馆(Bodleian Library)等。
除上述数字资源外,图书馆还向用户提供法律法规、会议记录、科技学术报告、政府公开信息等其他数字资源,这里不一一赘述。
图书馆数字资源的总体特征可以概括为以下几点:
第一,从记录形式上来看,图书馆的数字资源主要以文字符号作为记录手段,其数字资源大部分属于文献型数字资源。虽然图书、期刊以及学位论文等在形式以及功能上有很多不同之处,甚至图书、期刊等文献中包含了大量的图表等非文献型信息,但是文字符号仍然是图书馆数字资源表示、存储信息以及知识的最主要手段。所以,图书馆数字资源主要属于文献型信息资源。
第二,图书馆的数字资源可以按照已有的分类法进行组织。目前国际上比较常用的图书分类法主要有杜威十进分类法(Dewey Decimal Classification(DDC))、国会图书馆分类法(Library of Congress Classification(LCC))、Colon Classification(CC)、Harvard-Yenching Classification、中国图书馆分类法等。现有的图书馆分类法可以用来组织图书馆数字资源,以更好地将图书馆数字资源展示给用户。
第三,图书馆的数字资源有大量的重复现象,图书馆拥有的资源除极具文物价值的珍本、善本等图书外并不是像博物馆的文物以及档案馆的档案一样具有稀缺性、唯一性等特征,同样的图书可以出现在不同的图书馆内,但是同样的文物以及档案等资源却无法同时出现在不同的博物馆或档案馆。由于图书馆资源的可重复性特征,不同的图书馆可以采用同样的资源管理模式。
第四,图书馆的数字资源增长速度极快。世界上每年都有大量的图书、期刊等文献出版,特别是随着计算机以及网络技术的发展,很多图书、期刊等直接以电子版的形式出版发行,图书馆的纸质文献资源以及数字文献资源的数量都在不断增大。另外图书馆也会因文献老化等原因将一些资源剔除,因此图书馆资源相对于博物馆以及档案馆来说往往呈现出比较明显的动态性特征。
从基本要素上看,亚历山大博物馆和现在的博物馆没有什么两样,它是历史上第一家真正的博物馆。大约在公元前290年,托勒密一世为女神缪斯建了一个学习中心(因此博物馆的英文单词为“Museum”,意指献给缪斯女神的殿堂)
。该博物馆由多个学院组成,每个学院由一名首席教士负责。博物馆仿效雅典哲学学校,全部由政府投资与管理。亚历山大博物馆可谓人类文明史发展的一座里程碑。后来,像亚历山大这样的博物馆在人类的历史上销声匿迹了数百年。直到1682年,出现了世界博物馆历史上第一个真正意义的博物馆,即英国阿什莫林艺术与考古博物馆。
二十一世纪中期,博物馆如同雨后春笋,1996年美国的博物馆已经达到了约7500家,现在几乎美国所有大大小小的社区都有博物馆
。博物馆的藏品可谓包罗万象,按照其收藏的藏品博物馆可以分为不同的类别,主要包括:艺术博物馆、历史博物馆、科学博物馆、自然历史博物馆等。
没有藏品就没有博物馆的一切,所谓藏品是指由具有相同或相似的重要意义的物件所组成的收藏单位,而物件是指三维空间形式的一件实物
。博物馆的数字资源主要是指,通过摄像等技术对藏品进行拍照、标引、存储等过程形成的数字化图像、视频等资源,主要是以JPG、GIF以及PNG等格式存储的图片。对藏品进行数字化一方面有利于藏品的保存,另一方面便于馆藏资源的检索以及浏览等,图像类数字资源已经成了博物馆数字资源的最主要部分。另外,博物馆的藏品一般是三维空间中的物件,为了让用户更好地浏览馆藏资源,很多博物馆纷纷为藏品建立3D模型,以增强用户观赏数字藏品的真实体验。
博物馆数字资源总体特征可以概括为以下几点:
第一,从信息的记录形式上来看,博物馆的数字资源主要以图像作为信息的记录形式,一般采用JPG格式存储。虽然博物馆在不断开拓新的数字化服务形式,如虚拟博物馆可以为用户提供虚拟参观服务,提供藏品3D数据模型增强用户与藏品的交互等,但是目前博物馆数字服务所依托的资源仍然是数字图片,博物馆数字资源主要属于图像型资源。
第二,从藏品分类法的角度来看,很难形成针对博物馆数字资源的全面而统一的分类法。虽然藏品的“藏”与“用”等功能的开展都是以分类为基础的,但藏品定义的模糊性和种类的多样性使得形成一个统一的博物馆藏品分类标准十分困难,不用说整个世界范围就是在我们国家内都尚未形成一套统一的博物馆藏品分类法。我国博物馆繁多,大部分博物馆都是从自身的藏品特点以及便于收藏和管理的角度进行藏品分类的,因而形成的藏品分类法五花八门,难于统一。我国比较有影响的藏品分类法有:宋伯胤提出的四部四项分类法
、何直刚提出的三系三段分类法
等。另外还有一些学者提出了其他的分类法,如王根发、高和等。
第三,博物馆的藏品一般具有相应的级别,如我国一般将文物类藏品分为珍贵文物和一般文物等。《中华人民共和国文物保护法》和《中华人民共和国文物保护法实施细则》对文物的级别制定了严格的标准。文物藏品一般分为珍贵文物和一般文物,而珍贵文物分为一、二、三级
。文物藏品的级别是博物馆藏品的重要属性,藏品级别从侧面反映出藏品的价值,所以同样是博物馆数字资源的重要属性。
第四,虽然博物馆以及藏品的数量都在不断增加,但是珍贵文物的数量却相对稳定,所以相对应的博物馆的数字资源的数量也相对稳定。相对于图书馆的数字资源来说博物馆的数字资源的总量相对稳定。
档案形成于国家机构、团体、企事业单位以及其他社会组织及个人的社会职能活动之中,这些职能包括政治、经济、科学、文化、军事、生产、宗教等领域的社会实践活动,它是历史的原始记录,是一种社会智力资源
。档案是国家的产物,它承载了人类的记忆。和其他信息资源不同的是档案多是人类在社会生活中产生的副产品,是人类社会活动的附带产物,正是由于档案具有非主观意识的特点,以及具有的本源性特征,所以档案具有极高的凭证价值。另外,由于档案是来源于历史事件的真实记录,所以档案具有文物属性,可供收藏和鉴赏。
档案馆是国家从事档案事业的主体,对于档案的存储与管理活动可以追溯到早期历史。档案事业在古代中国、古希腊以及古罗马已经很发达,但遗憾的是由于当初的档案材料大都以草纸为载体,因而很多珍贵档案都已丢失。后来欧洲中世纪的教堂、城市等相应机构保存了大量的档案材料,这部分珍贵档案被遗留下来,成了人类的宝贵财富。现代意义的档案馆源于法国大革命,法国国家档案馆是世界上最大的档案馆,拥有大量的珍贵档案。
档案馆的数据资源主要存储格式为JPG、CDA、WAV等,主要是以JPG图像存储的数字化档案,以及CDA及WAV等格式存储的数字化音视频档案等。
档案馆数字资源总体特征可以概括为以下几点:
第一,档案馆的数字资源来源于档案的数字化,人类社会实践产生的档案主要是一种附属品。与图书、期刊等资源不同,档案并不受人的主观思维的影响,因此在一定程度上档案具有客观性特征,也正因如此档案具有极高的权威性,具有极高的凭证价值。档案馆的数字资源主要来源于传统档案的数字化,因此档案馆的数字资源同样具有很高的凭证价值。
第二,从信息记录的方式上来看,档案数字资源主要通过文字、声音以及视频等方式记录信息。虽然档案数字资源的记录形式主要是文字,但其存储格式一般为JPG,主要通过图片存储文字型信息。另外,音频以及视频资料也是档案馆的主要部分,其重要性不可小觑。以图像方式记录的档案虽然也是档案馆数字资源的主要部分,但其在档案馆数字资源中所占比例远不如博物馆。
第三,档案馆跟图书馆以及博物馆不同,《中华人民共和国档案法》第二章第六条规定:“国家档案行政管理部门主管全国档案事业,对全国的档案事业实行统筹规划,组织协调,统一制度,监管和指导。”档案馆传统上重档案的保存,而轻档案的利用,普通公众如需借阅档案材料需要经过严格的审查程序。《中华人民共和国档案法》第十四条规定:“保密档案的管理和利用,密级的变更和解密,必须按照国家有关保密的法律和行政法规的规定办法。”因此,密级也是数字档案的重要属性。
第四,数字档案资源的总量不断地增加。随着人类的社会活动不断进行,档案资源也不断增加。不过具有文物属性的档案数量相对稳定,这部分档案资源能够反映一定历史时期的政治、经济、军事以及文化背景等,因而这部分档案同样具有较高的文化特征。
通过对图书馆、档案馆、博物馆数字资源各自特征的分析可以看出三馆数字资源之间存在很多共同之处,但也存在较大区别。深入分析资源禀赋上的差异有助于深化对资源的理解,以及这些差异产生的原因,最终有助于研究LAM数字资源的组织方法以及服务的融合模式。
无论是传统的纸质信息资源还是现在的数字信息资源,都是通过一定的记录方式将信息记录到相应的载体上。按照信息的记录形式,信息资源可以分为:文献型信息资源、图形图像信息资源、音频信息资源、多媒体信息资源等。
文献型信息资源是指通过语言文字等形式将文字符号记录到相应的载体上,最后仍然以语言文字的方式呈献给用户的信息资源。图书馆数字资源主要包括E-book、E-journal、Thesis等,这些资源主要是通过摄影等技术对纸质文献进行数字化得到的产物,其存储格式主要为PDF等。由于PDF文件的诸多优点,很多文献型数字资源是以PDF格式存储的。不过,实际项目中也有些文献型信息资源是以JPG格式存储的,比如很多珍贵手稿是以JPG格式存储的。
博物馆数字资源最主要的记录方式是图形图像,所以博物馆数字资源主要是图形图像型信息资源。图形图像作为记录形式,主要是指将事物的几何轮廓、色彩颜色、光线明暗等视觉信息直接记录到载体上。博物馆图形图像数字资源,通过丰富的视觉信息呈现藏品的原貌,能够为用户提供身临其境的观赏体验。博物馆主要的数字资源,是通过摄影等技术对藏品进行数字化得到的产物,虽然博物馆还拥有3D藏品数据模型等数字资源,但二维的图形图像型信息资源仍是目前博物馆最主要资源形态,其存储格式主要为JPG、GIF、TIFF等。
档案馆数字资源主要的记录方式为文字,但是其数字资源的主要存储格式为JPG。档案多为人类社会生活中产生的副产品,其内在的逻辑性不如图书或论文等文献型资源,所以档案经常用图片存储,这有点类似博物馆的藏品。档案馆另外两种重要的信息记录方式是音频和视频。音频是通过声波信号将信息记录到相应的存储介质上,用户通过声音获取信息。而视频是将影像和声音同时存储在相应的存储介质上,用户通过观看和收听两种方式获取所需要的信息。对于档案来说,音频和视频这两种数字资源具有举足轻重的地位,记录了历史上真实声音以及影像的信息资源是档案资源中非常重要的组成部分。
可以看出,图书馆、档案馆与博物馆的数字资源在信息记录方式上有很大不同,具体如表2-1所示。
表2-1 图书馆、档案馆、博物馆数字资源的主要记录形式
信息的记录方式是与信息源以及人对信息的需求相适应的,造成上述LAM数字资源记录方式上差异的主要原因是三馆数字资源的禀赋不同。从本质上来说,图书馆存储的是人类在思想、自然以及社会三大领域内取得的知识成果的集合,而图书馆内的大量书籍只不过是知识与信息存储的一种载体,书籍并不是我们追求的终极目的,它只是我们寻找的信息与知识的客观依托形态。图书作为存储着人类在思想、自然以及社会领域取得的知识的容器,客观上要求有一种与之相适应的信息记录方式,显然与之最为匹配的是语言文字。人类通过语言文字传递情感、交流思想,通过文字记录无形的知识,可以说语言文字是通往人类心灵深处的桥梁。文字是记录语言的方式,这种信息记录方式的优势在于文字不仅能够描绘现实的物质世界,它还能够描述人的内心世界,信息与知识正是通过人类的内心才被价值化的实践产物,它们与文字有着天然的适配关系。但是文字作为一种信息记录方式也有它的弊端,如在描述客观世界的细节时永远无法像图形图像那样直观、生动、丰富。
博物馆的资源主要是通过藏品的外观带给人以学习的体验以及文化的熏陶,图形图像这种信息记录方式的最大特点就是能够真实地记录客观物质的轮廓、形态、颜色、光泽等视觉信息,能够最大限度地恢复真实藏品带给用户的视觉体验,因此图形图像是博物馆数字资源的最主要的信息记录方式。如果说图书馆数字资源所存储的信息与知识发源于人类的思想,那么博物馆数字资源所存储的信息则发源于客观的物质形态即藏品,当然藏品也是人类智力劳动的成果,反映着人类的精神世界,不过藏品本身的价值如此重要以至于欣赏藏品成了人们参观博物馆的最主要的目的。
档案馆的资源主要是人在社会活动中留下的附属品,档案的价值在很大程度上是因为它能够客观地还原历史事实,因此人类在社会活动中所附带产生的文字记录、声音以及视频是档案的最主要材料。通过文字、声音以及视频能够相对全面地记录一个人、组织的活动过程,因此三者共同成了档案馆数字资源最主要的记录方式。从档案的本质上来看,档案馆的数字资源价值主要发源于人类的社会活动。
通过上述分析,已经可以清楚地看到图书馆、档案馆与博物馆在信息记录方式上产生差别的主要原因,三者的主要差别在于信息源的内在禀赋,具体如图2-4所示:
图2-4不仅清晰地揭示了LAM数字资源记录方式上产生差异的原因,还充分地反映了图书馆、档案馆、博物馆所记载人类文明成果的不同视角。图书馆旨在存储人类在自然、社会以及思维领域内的认知成果,主要以文字的方式记载到纸质载体之中。随着信息技术的发展,这些成果逐渐数字化,但其本质并没有变,仍然属于文献型信息资源。正是由于图书馆本质上存储的是人类的知识,所以图书期刊等作为知识的物理载体其地位并不是十分重要,也正是这个原因图书馆的图书可以出现大量重复,也会被经常替换。博物馆注重的是藏品本身,藏品的文化价值如此依赖于藏品的物理形态,以至于人们将两者等同起来,所以藏品本身是博物馆保存的资源,藏品的价值也无法被其他载体所复制,所以藏品不会像图书一样重复出现。档案资源在某种程度上与博物馆的藏品相似,档案具有很大的文物价值,历史档案通常按照文物一样保存,档案上记录的信息虽然可以被复制,但档案的文物价值且无法被复制,档案同样具有唯一性。
图2-4 LAM数字资源记录形式差异产生的原因
图书馆数字资源主要属于文献型信息资源,世界上有众多的语言以及文字系统。这些不同的语言文字可以表达人类共同的情感、思想,也可以共同描述世界上同一件客观事物,但不同的人只能通过自己熟悉的语言以及文字才能了解信息的内涵,对不熟悉的语言即使它描述的是自己最常见的事物也很难理解,而图形图像数字资源却没有这样的问题,虽然有着文化背景差异,但世界上任何有鉴赏力的人都可以欣赏梵高的《星夜》之美。文字上语种的差别给LAM数字资源的共享带来了障碍。
从信息资源的记录方式上看,图书馆、档案馆、博物馆三者数字资源的共享是建立在不同记录方式信息资源基础之上的,这要求我们在探讨LAM数字资源共建共享策略时,不能只把眼光局限在文献型信息资源之上,而应该同时关注其他记录方式的数字资源。同样道理,向用户提供信息服务时,不能一味强调信息知识的加工与检索等服务方式,还应该注重用户对图形图像型数字资源的需求,注重图形图像型数字资源带给用户的审美以及文化体验。在信息的呈现方式上,也要注意多种记录方式数字资源的展示方法,这需要在LAM数字资源服务上有所改进以及创新,丰富数字资源的展示途径,以建立真正与LAM数字资源相适应的服务。
LAM数字资源绝大部分是在其原有物理形态上通过拍照以及扫描等手段产生的,因此原有的图书馆、档案馆、博物馆的信息组织体系在很大程度上决定了三者数字资源的信息组织体系。图书馆、博物馆以及档案馆在收藏的资源范围上出现很多交叉现象,因此这里只用三者最典型的资源形态进行对比分析。
图书馆的纸版图书以及相应的电子图书其主要的记录方式是文字,图书一般是一个丰富的信息或知识集合,需要通过大量文字来表达作者的看法以及观点等。因此需要从语义信息构成的单位来看,文字是语义信息的最小单位,它首先构成词汇,词再形成句,句构成段落与章节,最后构成书。数字化图书跟纸质图书除存储以及呈现方式上不同外,本质上并无太大差别。期刊论文以及其他文献型信息源与图书极为类似,因此不做单独分析。
博物馆的数字资源大部分是对藏品进行拍照获得的,这种类型的数字资源与图书具有完全不同的信息组织结构。博物馆的藏品一般可以数字化为一幅图片,最常见的例子就是绘画类艺术作品,这类作品因为是二维空间内表达的一种艺术形式,因此通过对绘画作品进行一次拍摄即可将藏品数字化,也就是说一件藏品对应于一副数字图片。对于三维空间的物件藏品,可以通过3D建模的方式将藏品数字化,也可以通过从多角度拍照的方式进行数字化,这时一件藏品会对应几幅数字化图片,目前通过拍照的方式将藏品数字化仍然是最主要的方式。
档案馆信息资源拥有自己独特的信息组织方式以及术语体系。传统的档案是通过全宗、案卷这样的体系进行组织。“全宗”是一个独立的机关、组织或人物在社会活动中形成的档案有机整体
。一个全宗内所含的档案文件数量庞大,因而要对其进行组织、分类、排列等操作,要对庞大的档案文件进一步系统化,将档案文件组织成下一级保管单位——案卷。案卷是按照一定的主题等内容特征和外部特征编立的、具有密切联系的若干文件的组合体
。案卷是档案进行统计与检索等操作的基本单位。案卷一般包括封面、目录、案卷号等信息,具体的档案文件存储在案卷中。LAM数字资源的组织体系受传统资源组织体系上的影响,三者差别可见图2-5:
图2-5 LAM数字资源的信息组织体系
从图2-5可以看出,LAM数字资源在信息的组织体系上有很大不同,例如,一本书含有大量的信息和知识,是一个丰富的信息知识集合,但是元数据无法描述书中具体页面所含的信息,而只能描述整本书的信息。案卷同样如此,它包含很多档案文件,用户可以通过案卷目录查找到具体的档案,但是案卷通常是档案检索的基本单位。博物馆藏品数字化后形成一幅或者几幅图片,代表一件藏品的数字化图片的数量远远小于图书所含的页数或者案卷内所包含的档案文件数,因此馆藏的数字图片可以直接和藏品画等号,也就是说完全可以通过元数据描述代表藏品的数字图片。
图书、案卷分别是图书馆和档案馆提供检索的最基本单位,也就是说图书馆与档案馆在组织信息时元数据描述的是图书与案卷层即图中的第二层,而对具体内容页(第三层)的揭示缺乏有效手段。可博物馆数字资源的层级关系很不明显,虽然图2-6中将博物馆的数字资源画在了两个层次,但是现实案例中两者往往处于同一层次。因为档案与博物馆藏品在范畴上有很大交叉,而且具体的档案文件间的关系不像图书书页之间的关系那样紧密,所以在具体的LAM合作项目中,档案往往被当作博物馆藏品一样进行处理,也就是说案卷与具体的档案文件之间的层级关系被忽略,而直接通过元数据描述具体的档案文件。但是图书的层次体系始终无法打破。世界数字图书馆(World Digital Library)项目就是对图2-6中第二层的图书以及第三层的藏品以及档案进行直接描述的
。
图2-6 LAM不同类型数字资源间的关联关系
上述现象的产生,原因在于图书这类文献型信息资源的内在禀赋。图书是以文字的方式记录信息,并且通过文字对人类的认知、思想或对事件等进行描述以及存储,图书具有完整性特征,单独的书页包含丰富的信息以及知识,但是只有一本书内所有的内容页合在一起才能构成完整的表述。图书的整体性使得其包含的内容都要围绕统一的逻辑架构,因此书页之间的关系不会像档案与藏品那样零散。从LAM数字资源共享的角度来看,图书作为一个基本信息单位的整体性与书页内容知识的丰富性之间构成了一对矛盾,一方面资源间的深度共享要求从底层建立知识之间的关联,另一方面图书是一个不可打破的整体,这一矛盾也给LAM数字资源间的深度共享带来了障碍,因此应该探寻相应方法以解决上述问题。
图书、论文等文献型信息资源具有更为完整的逻辑结构以及信息知识体系,另外图书作为人类知识以及文化的容器,记载着不同时代人类的文化成果以及对整个世界的认知,而人类文化成果的取得是具有历史沿革的,因此图书类资源能够更好地体现出这种资源之间深层的关联关系。相对于图书馆的图书、论文等文献型数字信息资源来说,博物馆、档案馆的数字资源之间关联性相对较弱,例如:学术期刊论文之间有大量的引用以及被引现象,虽然博物馆、档案馆的数字资源之间也会有参见等关系,但这些关系明显不如图书、论文等之间的相互关系那样丰富,图2-6能够形象地表明这一现象。
图2-6形象地表明了LAM不同类型数字资源之间的关联关系,可总结如下几点。
第一,图书特别是学术期刊论文之间有着丰富的引用关系。基于论文间引用关系的统计数据已经作为评价期刊、作者学术影响力等的重要参数。
第二,图书甚至包括论文,内容页之间具有极为丰富的知识关联关系,也就是作为图书这个基本单位其内部仍含有大量的知识关联,如图2-6(a)中间的矩形表示图书馆信息资源基本单位的图书或者论文,而中间的小圆圈表示具体的知识点,它们之间的连线表示这些具体知识点间的关联关系,比如不同页间的“参见”关系等。这些关联关系虽然具有很高的重要性但并没有被很好地被揭示出来。
第三,博物馆以及档案馆数字资源之间的关联关系并不像图书、论文等之间的关联关系那样丰富,图2-6(b)形象地表明了这一点。造成这一现象的原因是博物馆和档案馆的数字资源主要是图形图像型信息资源,图形图像这种表达方式虽然具有形象性、丰富性等特征,但却不像文字表达方式那样具有很好的逻辑性以及体系性,因此博物馆、档案馆数字资源之间的关联性较差。
第四,博物馆、档案馆数字资源的基本单位为数字图片,很显然它们无法像图书馆数字资源基本单元图书、论文那样具有内部关联性。一幅数字图片或一份档案文件的数字照片都不具有内部的关联性,并且它们之间的关联性并不像论文之间的关联性那样强。
第五,博物馆、档案馆的数字资源能跟图书馆的资源间建立关系。如图2-6(b)中椭圆表示博物馆、档案馆数字资源的基本单位,方形表示图书、论文类数字资源基本单位,图示中椭圆和矩形的关系表示的就是博物馆数字资源和图书、论文等数字资源之间的关系。
通过对上述差异的分析,可以发现图书馆数字资源之间具有更为复杂的关系,而且这些关联关系携带更多的语义信息,但是博物馆、档案馆数字资源间的关系并不像图书馆数字资源关系那样复杂,因此在探讨数字资源的统一组织策略时,应该考虑到这种关联关系的不平衡现象,应该充分利用图书馆数字资源间已有的丰富关联关系,并向博物馆、档案馆数字资源扩展,以建立LAM数字资源的深层语义关联。
实际工作中图书分类以学科知识内容为基础,有很成熟的理论依托,其思想和方法都比较成熟。档案分类无法像图书分类那样具有普遍性,档案分类主要以人类社会实践活动为分类依据,但由于社会文化的差异其分类普适性较差。博物馆藏品分类更是显得五花八门,受传统思维影响藏品分类以更好地保护藏品为目的,不同博物馆的藏品存在很大不同,因而不同博物馆采用的藏品分类法也存在很大差异。
图书分类具有很长的历史,我国在图书分类方面研究较早,汉代就出现了图书分类的研究
。总体而言,图书分类法具有如下几个特点。第一,发展比较成熟,具有很高的科学性,容易形成统一标准。第二,只从图书的内容特征入手,而不关心图书的外部特征。第三,与博物馆不同的是,图书的组织和检索可以采用同一种分类思想。第四,图书分类法具有明显的跨区域性,能够组织世界上全部图书文献,这也是依靠学科体系组织文献的重要优势。
要进行藏品分类首先应该明确藏品的定义,《中国大百科全书·文物博物馆卷》将藏品定义为:博物馆依据自身性质、任务和社会需要搜集并经过鉴选符合入藏标准,完成登记、编目等入藏手续的文物和自然标本。藏品的丰富性和多样性等特点给藏品分类造成了极大的困难。另外,藏品定义的界限本身也是相对模糊的,从世界范围内来看,博物馆经历了蓬勃发展后出现了一些别具特色的博物馆,藏品范围也不断扩大。例如,德国的斯图加特艺术博物馆、法国的格雷万蜡像馆、美国的间谍博物馆等所保存的藏品都极大地丰富了原来的藏品内涵。
分类是指从事物的概括方面出发,研究并确定它的固有属性,以及它与其他事物之间的关系
。博物馆的藏与用等功能的开展都是以分类为基础的。然而藏品种类的多样性和藏品定义本身的模糊性使得很难形成一套放之四海而皆准的博物馆藏品分类标准。大部分博物馆都是从自身的藏品特点以及便于收藏和管理的角度进行藏品分类的。
总体上来看,我国的藏品分类法有这样几个特点:第一,体系分类思想和分面组配思想相互混杂,很多藏品分类法总体上体现出体系分类思想但是摆脱不了分面组配思想的影子。第二,各馆只按照自身特点制定分类法,经常“因物设类,因量分类”,这种做法已经体现出很多弊端。第三,分类的主观性与科学性的矛盾。很多分类法缺乏科学性,体现了主观干预的缺点。第四,藏品的内容属性和外部属性相互纠缠。李之龙提出在藏品分类过程中应该将“藏”与“用”区分开来,强调藏品分类和藏品组织之间的差别
。第五,我国藏品分类法大多体现出主要针对历史文物进行分类的特点,这些特点具有自身的局限性。
档案学在其发展初期受图书分类思想的影响较大,档案馆曾经采用图书分类法对档案进行分类,不过这种做法无法满足档案实践的要求,因而需要建立新的档案分类法。1987年12月档案出版社出版的《中国档案分类法》试行本是以国家机构、社会组织从事社会实践活动的职能分工为基础,并结合档案的内容和特点,分门别类组成的分类表。《中国档案分类法》包含政治、文化、经济三大部类,共包括19个基本大类如A中国共产党党务、B国家政务总类、C政法、D军事等。另外,由于档案都是孤本,具有唯一性特征,这也给形成一套统一的档案分类法造成了困难。
我国档案分类法的主要特征包括:第一,受《中国图书馆分类法》影响很大,《中国档案分类法》的分类体系类似于图书分类法;第二,中国档案法的分类思想以党和国家的职能特性和工作活动为依据;第三,档案的唯一性、零散性以及不稳定性等特点,使其很难形成一套放之四海而皆准的档案分类法,这一点与博物馆藏品分类法颇为相似。
从图书分类法、博物馆藏品分类法以及档案分类法的总体特征上来看,三者存在很大不同。首先,从这些分类体系总体的发展程度上来看,博物馆的分类法、档案分类法的发展程度不如图书分类法。第二,从标准化程度上来看,图书分类法已经达到了非常高的标准化水平。第三,从分类法所具有的体系性和科学性来说,图书分类法也明显高于另外两者。大部分图书馆分类法依据的是学科体系之间的族性关系,具有很好的层次性和逻辑性,而博物馆分类法和档案馆分类法所体现的系统性要差些。第四,图书分类法相对稳定,而博物馆藏品分类法需要不断发展。随着新型博物馆的不断涌现,藏品的范围也在不断扩充,这要求博物馆分类法应该具有更好的弹性。档案的范畴与藏品的范畴存在很大程度的交叉,档案分类法虽然在系统性及层次性上优于博物馆分类法,但同样面对档案的唯一性及零散性等所带来的问题。第五,图书分类法只需考虑书籍的内容特征,但档案需要考虑的是档案的社会职能,因此两者在分类的科学性上存在很大差别。理论上讲国际上可以采用同一图书分类法,但档案分类却受不同社会背景的制约无法形成统一的档案分类法。博物馆的藏品分类受传统思维的影响,注重对藏品的保护,因此多从文化保护的角度对藏品进行分类。
在图书分类法、藏品分类法以及档案分类法总体特征差异的背后,有着其极为深刻的客观原因。同是作为世界文明的记忆,它们价值的体现全都以信息为最基本的媒介,从信息及信息资源的角度进行分析能够在一定程度上揭示这些差异背后的原因。
图书分类、藏品分类、档案分类面对的对象不同,从信息源的角度上来看,图书属于文献型信息源,而藏品则属于实物型信息源,档案虽然以文献型信息资源为主,但又包含大量的音频以及视频信息资源,而且档案在很大程度上具有历史文物的特点。这里需要指出的是,虽然藏品可以包括部分具有历史文物价值的文献资料,但我们主要从实物信息的角度看待博物馆藏品,而档案处于两者的中间状态。具体来说,可以在如下几方面对图书、藏品、档案进行对比。
第一,图书作为文献型信息源,它的价值体现于其所携带的文献信息,而诸如符号系统、记录方式和文献载体等要素都不是主要特征。就是因为这种价值体现上的非实体性,图书分类法的编制可以将文献所反映的内容特征比较彻底地抽取出来,从而可以尽可能少地考虑其外部特征。博物馆藏品作为一种特殊的实物型信息源,其价值的体现不仅仅在于本身所存储的信息,而同样体现在信息所依附的载体,甚至载体本身的价值往往会高于它所存储的信息价值。当考古发现一件不知道功能和作用的文物时,我们能从藏品本身获取的信息较少,而其价值主要体现在作为实物的载体上。同样在编制藏品分类法时,很难将藏品的内容属性和其外在属性严格地分开,这使得大部分藏品分类法都不可避免地将藏品的外在属性和内容属性混在一起。即使现在的数字博物馆在展示其数字化藏品时也带着这种惯性。美国大都会博物馆网站上数字化藏品的分类上就体现了这一点,其Collections导航下,所设立的what、where、who、when等具体导航项都体现了这种特点
。档案分类法最基本的特征是按照档案的社会职能进行分类,虽然档案大部分为文献类信息资源,但对其描述信息的抽取主要考虑其社会职能,而对于图书来说比较重要的属性如学科类别、语种等属性对于档案来说则仅能作为分类的辅助标准。
第二,作为文献型信息源,图书能够被无限复制,另外数字化的图书、期刊等与纸本图书具有同样的价值,因为图书、期刊的价值在于它存储的知识本身而非物理载体。博物馆藏品作为实物型信息源其藏品的价值主要体现在藏品的唯一性,藏品无法被复制,或者只可以复制它的外在形态而其价值难以复制。档案与藏品类似具有唯一性,档案的价值就在于它的客观性。藏品和档案对应的数字化资源虽然可以复制,但这种复制只是藏品外观的一种延伸和重复,其数字资源的价值不是物理藏品或档案价值本身的复制,而是其具有的使用价值。任何一本关于梵高的传记书籍没有什么不同,只要这些书是同一版本,但是梵高的名画《向日葵》却只能有一个,其他复制品不可能具有原作的藏品价值。形象地说,可以找到两个馆藏相同的图书馆,但是绝不可能找到两个馆藏相同的博物馆或档案馆。图书和藏品作为不同类型信息源的这一差异,对图书分类法和藏品分类法的建立有着极为深远的影响。大型的图书馆所面对的分类对象基本上是相同的,即面对的是人类的全部知识。而博物馆所面对的分类对象是不同的,这使得博物馆分类法从一开始便带有片面性特征,如东亚国家包括我国、日本、韩国等,在建立分类法的时候一般包括:陶器、青铜器、瓷器、漆器、书法等主要大类
。而欧洲的博物馆则更倾向于按照民族、国家、地区等进行分类,如大英博物馆的网站上提供了地区、民族等检索入口
。这种东西方博物馆藏品在分类上的差别在一定程度上是实物型信息源的不可复制性决定的,这也使得博物馆分类法很难形成统一标准。藏品的价值体现在其唯一性,而图书价值的发挥体现在其知识性,图书复制的越多越有利于知识的传播和其价值的发挥,这也给图书分类法的建立带来了方便,容易实现图书分类的统一化和标准化。
第三,图书作为一种特定的文献型信息源,具有一定的系统性和知识性特征,能够携带比较丰富的语义信息。而作为实物型信息源的博物馆藏品以及档案馆的信息资源,则显得比较零散,缺乏图书的系统性,其所携带的语义信息相对于图书来说要少些。这一点也给博物馆藏品分类法及档案馆档案分类法的编制带来了很大麻烦。由于藏品、档案不像图书所包含的内容语义那么明显,对博物馆藏品进行语义提取并不是容易的事。而图书天生就是人类知识的体现,它所存储的内容是已经被作者系统加工过的知识,因而它自身并不是客观世界的简单记录,其自身就携带了较强的系统性和知识性特征,容易按照学科分类体系对图书进行分类处理。但藏品、档案所携带的信息过于零散,很难往学科体系上靠,这使得藏品分类法的建立要独自探索一种不同的框架体系。
第四,从实物型信息源和记录型信息源的范畴上来看,图书的范围明确且相对较小,而藏品以及档案的范畴相对模糊,内容包罗万象。图书具有严格的定义,而且它属于记录型信息源所包含范围内固定的一部分。相比之下,档案(包括文献型档案、实物档案、口述档案等)、藏品作为实物型信息源,没有固定的界限,它们的边界在实物型信息源的范围内可以不断扩展,甚至可以扩展到文献型信息源的范畴,例如有文物价值的图书古本、手稿等。随着博物馆的不断发展,很多物件都可以被列入藏品或档案的范围内,例如筷子这种生活常用品都可以进入藏品之列,也可以进入实物档案之列(如历史名人用过的筷子)。藏品和档案的这种边界不固定特征使得博物馆藏品、档案分类法的建立难上加难,在没有一个一劳永逸的藏品分类法建立时,藏品分类法应该保持一定的弹性以适应这种变化。
另外,作为不同类型的信息源,图书、藏品、档案还有很多不同之处,比如藏品的分类首先需要对藏品进行鉴定,以及对其定级,档案需要确定保密级别等。而图书相对简单,需要人为干预的因素并不多,这也给图书分类法的建立带来了很多方便。
通过波普尔三个世界理论进行分析,能够进一步发现图书分类法、博物馆藏品分类法、档案分类法总体特征上差异的形成原因。卡尔波普尔是奥地利犹太裔英国哲学家,在其作品《客观知识》中提出了重要的“三个世界”理论。该理论认为存在三个世界,第一个世界是客体或物理状态的世界,第二个是意识和精神状态的世界,第三个为思想内容的客观世界。这三个世界可以分别简称为:W1物质世界,W2精神世界,W3知识世界。通过波普尔的三个世界理论进行分析,可以更好地解释图书分类法、博物馆藏品分类法以及档案分类法总体特征上的差异。图书分类作为一种活动来说,它所解决的主要问题是对图书的内容特征进行分类,也就是说图书分类的对象是属于第三个世界即W3知识世界的范畴。知识世界的明显特征是具有很好的内在一致性、确定性、科学性和体系性等。图书分类法体现了知识世界的整体结构,不同的图书分类法虽然有细微的差别,但是体现的知识体系结构在本质上是一样的,图书馆分类法依靠学科知识体系的内在特征因而很容易构建图书分类的统一标准。
但是,博物馆的藏品作为客观存在的实体,也就是说它的价值不仅体现在其所包含的信息也同样体现为藏品的实体本身,它的内容属性和外部属性在地位上不分伯仲。档案是人类社会活动留下的附带产品,跟博物馆的藏品类似具有唯一性以及零散性等特征,可以以人类社会活动的目的为基础组织档案资源,但档案资源同样来自W1,并不具有W3的内在科学性、体系性等特征。藏品、档案与图书不同,虽然部分图书也是博物馆的藏品,但是藏品、档案主要来源于第一个世界即W1物质世界。W1的特点和W3的特点有很大的不同,客观世界充满了无限的不确定性和非体系性,人类距对W1彻底认知的目标还相差很远,所以很难找到像W3的那种体系框架。藏品、档案只不过是客观物质世界很小的一部分,人类从中选择了具有收藏价值的客观实体作为馆藏。然而这些藏品在一定程度上体现了W1的特质,比如十分零散,很难找到统一的分类框架等。
如果把波普尔的三个世界理论用图形的方式表示,并且在时间轴上展开,那么就可以直观地体现图书馆、档案馆、博物馆与各自面对分类对象上的关系。具体如图2-7所示:
图2-7 图书馆、档案馆、博物馆处理的对象与三个世界理论的关系
图2-7很直观地体现了图书馆、档案馆、博物馆进行分类时所面对对象的区别,这些具体的不同点可以总结如下:第一,图书馆所面对的对象,也就是存储于图书中的知识主要来源于知识世界W3,而且不用考虑历史上的古本图书,因为古代形成的知识内容通过图书的复制等会形成映射,正如图2-7中箭头1和箭头2所表示的那样,阅读古人写的书籍并不需要去查找原版图书,而是直接在现代印刷的图书中查找相关内容即可。图书分类法不必过多考虑文献的时间问题。第二,不同的图书馆分类过程中所面对的对象存在着大量相交关系。图2-7表示的现阶段的W3中,也就是说不同的图书馆面对的分类对象其实并无太大的差别,因此能够采用统一的图书分类原则。第三,藏品以及档案大部分来自第一个世界即客观物质世界W1,而且主要集中在历史上的客观世界,所以藏品、档案的时间属性对于博物馆、档案馆来说具有十分重要的意义。第四,不同的博物馆、档案馆分类所面对的对象不存在交集。虽然不同博物馆的藏品可能存在质地、年代上的相似性,但是这种分类原则的可借鉴性要比图书分类差很多,另外藏品的分类还受到馆藏布局和设施以及藏品数量等因素的影响。档案同样具有唯一性、零散性等特征,因此很难形成统一的档案分类法。从上面的分析可以看出,博物馆藏品的分类以及档案分类要比图书分类复杂得多,因为藏品以及档案来自W1,W1本身具有零散性以及非确定性等特征,它不像W3具有内在的一致性等特征。LAM数字资源因为是藏品、档案以及图书等客观实体数字化的产物,因而不可避免地受到藏品、档案以及图书本身的影响,因此在对LAM数字资源进行分类时应该探索更好的分类方式,以揭示LAM三者数字资源间深层的关系。
这些影响具体如下:
第一,LAM数字资源记录形式的影响。
LAM数字资源记录方式上的差异直接影响三馆元数据的统一组织以及知识的共享,另外还直接影响LAM数字资源的内容展示。LAM数字资源的记录方式上的差异主要是由信息资源自身的特征决定的,不同的信息记录方式在表达信息的具体内容时各有侧重,语言文字能够解释信息源背后的深层知识,以及信息源所包含的人类精神、情感、心理状态等,因此语言文字是记录人类知识的最主要手段。图形图像的主要优势在于从视觉上直观揭示信息源的外观特征,其形象性和直观性等特征是文字资源所无法比拟的。音频主要是对声音的记录和再现,而视频是动态图像与音频的结合。不同的元数据在描述不同记录方式的信息资源时各有侧重,例如DC(Dublin Core)主要善于描述网络上的文献型数字资源。目前,图书馆、档案馆、博物馆数字资源包含多种记录方式,因此需要探讨适合于LAM数字资源集的元数据共享方案,以实现元数据层面的LAM数字资源共建共享。
图2-8 LAM数字资源特征对资源共享模式及服务融合模式的影响
基于知识的LAM数字资源组织与共享涉及知识元的抽取、表示、存储以及检索等操作,对于文献型资源来说语言文字可以直接表达知识元,而对图形图像型、音频、视频等其他数字资源知识元的揭示以及存储等存在很多困难,因此LAM数字资源记录形式的多样性对基于知识、文化的LAM数字资源共享产生很大的影响。
另外,LAM数字资源融合展示服务直接受到LAM三馆资源集的影响,LAM数字资源之间的共享使得它们形成了一个文化、知识的共同体,也就是说在使用LAM数字资源时用户需要在不同的馆藏资源之间切换,与用户关注的主题相关的LAM数字资源需要被相继展示出来,所以资源浏览界面要能够展示不同类型的数字资源,例如既可以展示PDF文件也可以展示JPG格式以及其他的音频或视频等其他格式文件。
第二,LAM数字资源信息组织体系的影响。
LAM数字资源的信息组织体系上的差异直接影响着基于文化和知识的LAM数字资源共享。人类对信息资源需求的粒度在不断缩小,数字资源整合的研究就是在不断地追求细粒度的知识整合。图书馆的文献类信息资源以图书或者论文作为信息描述的基本单位,这样的信息基本单位本身是一个信息或知识集,它所包含的知识单元不仅与其他资源之间存在关联关系,其本身包含的知识元之间也存在语义联系。而博物馆数字资源基本单位一般不可以再分解,虽然博物馆的藏品一般对应一幅或多幅图片,但一般这些图片没有明显的语义差别,仍然可以视为一个语义关联的基本单位。档案馆的案卷跟图书结构上类似,但存在很大不同,因为档案文件之间并不像图书书页之间那样具有极为紧密的语义关系,案卷内的档案文件可以分别拿出来作为信息描述的基本单位,这一点与博物馆数字资源类似,也就是说案卷这种结构可以在组织LAM数字资源过程中被人为忽略,不过图书的结构却无法打破。
第三,LAM数字资源结构化描述的影响。
LAM数字资源结构化描述上的差异直接影响其元数据层面的资源组织。基于元数据的LAM数字资源组织原则要求尽量统一组织三馆资源的元数据,目前比较成功的LAM数字资源合作项目(例如World Digital Library等)就是通过一套统一的元数据来描述LAM三馆的数字资源,这种方法能够极大地提高LAM数字资源的检索效率,用户可以通过统一的检索平台获取所需要资源。
第四,LAM数字资源生命周期的影响。
LAM数字资源生命周期上的差异影响到LAM数字资源共享的各个层次。不同层次的LAM数字资源组织都需要考虑资源集的变动问题,只有使LAM数字资源间的关联关系具有一定的动态性,才能使LAM数字资源共享适应于资源集的变化。基于知识元之间的关联虽然与基于数据、信息的关联处于不同的维度,但在适应资源生命周期差异的影响上是一样的,知识元之间的关联关系也要保持相应的动态性,一方面它能够适应新老资源的交替,另一方面还可以将不断增加的用户头脑中的隐性知识整合到LAM数字资源体系。合理利用LAM数字资源集的动态信息还会产生其他的信息服务,如针对用户关注的知识元变动提供RSS服务等。
第五,LAM数字资源分类体系的影响。
LAM三馆的数字资源具有不同的分类体系,分类体系上的差异直接影响着资源的分类组织,从而间接地影响着LAM数字资源分类浏览服务。由于LAM数字资源从不同维度和层面实现共享,因此也涉及不同层次的数字资源分类方法。LAM数字资源不仅仅具有知识性还具有极高的文化性和艺术性,因此还应该探索基于分类的博物馆数字资源展示等服务方式。
总而言之,LAM数字资源特征上的差异对其资源共享和服务融合模式的影响是非常复杂的,有些影响因素甚至是决定性的,LAM数字资源组织与服务的融合必须考虑到资源本身的特征才能够合理而充分地将资源及其深刻内涵传递给用户,才能够更好地拓展LAM数字资源的服务方式。
信息资源生命周期相关理论的研究最早源于对信息资源老化现象的关注,时间可以追溯到1917年Cole等人对解剖学文献情况的研究,作者通过对解剖学文献相关数据进行统计,发现了信息资源的老化等现象
。一些学者纷纷投入相关问题的研究之中,比如Gosnell发现了文献老化的规律等
。后来“半衰期”、Price指数等概念的相继出现标志着信息生命周期理论的形成。国内也进行了很多信息资源生命周期理论的研究,例如朱晓峰、苏新宁探讨了基于生命周期理论的政府信息资源管理等相关问题
,作者认为政府信息资源生命周期一般包括四个阶段:生产期、处理期、应用期、衰退期,本篇基于该文的理论模型,分别从这四个阶段对LAM数字资源进行比较,以发现它们在不同的生命周期阶段所具有的差异。
第一阶段,LAM数字资源的生产期。图书馆、档案馆、博物馆在数字资源的生产上有很大不同。图书馆数字资源主要来自对纸质文献的数据化,出版社每年都要出版大量图书、期刊等文献,一些数据公司机构会购买相关文献数字化的授权,并将数字化后的文献存储到数据库中,图书馆按照需求购买所需资源并向读者提供服务。文献型信息资源因为主要关注符号所包含的语义,而非字符的颜色光泽等外表特征,因此数字化处理手段与博物馆的图像型数字资源采用不同的标准。
博物馆数字资源主要来源于藏品的数字化,为了能够更好地再现博物馆藏品的真实面貌,博物馆藏品数字化过程要尽量采用已有的技术标准与规范。《博物馆藏品二维影像技术规范(试行)》详细地规定了文物影像技术应该采用的标准,并对不同级别的文物分别对待,这些标准不仅规定了拍照的技术标准还规定了拍照环境等相关参数,如影像设备的光学分辨率、JPEG文件的压缩比等参数。另外,博物馆藏品增量较小,相对图书、档案等资源,博物馆藏品数量相对稳定,所以博物馆数字资源的增量远不如图书馆、档案馆数字资源。
档案是人类社会活动的副产品,只要社会存在就时时刻刻有档案产生,所以相应的数字档案的增长速度相对迅速。与图书馆、博物馆的资源相比,档案的增长速度是最快的,不过受到档案本身保密性的限制以及我国档案馆传统服务思维的影响,档案的数字化速度受到了很大限制,因此数字档案资源的增长速度并没有图书馆数字资源那样快。另外档案与博物馆藏品在范畴上有很大交叉,因此其数字化过程所采用的标准也与图书馆有所区别。
在LAM数字资源的生产阶段,图书馆、档案馆、博物馆所生产的数字资源主要在两方面存在差别:首先,数字资源产生过程中所采用的规范以及技术标准不同,而且这种差异是资源禀赋造成的,因此很难统一数字资源的生产标准;其次,图书馆、档案馆、博物馆三馆资源的增长速度有很大差异。现实生活中档案的增长是最快的,因为任何社会部门在活动过程中都会产生档案。图书馆的图书、期刊等资源产生的速度相对较慢,因为图书以及期刊的出版发行都需要一定的流程。博物馆的藏品数量增长最慢,所以博物馆数字资源的总体增长速度也是最慢的。三者数字资源间增长速度的差异,可以由图3-8形象化表示:
图2-9是LAM数字资源增长速率的示意图,它只是形象地表达了三者资源增长速率的大小关系,而并没有反映信息资源的真实增长速率,而事实上资源的真正增长速率是极为复杂的。
第二阶段,LAM数字资源的处理期。数字资源的处理期所包括的主要工作有资源组织、序化、存储、维护与保护等。比较图书馆、档案馆、博物馆数字资源在这一阶段的主要差别对LAM数字资源的统一组织与共享具有十分重要的意义。本篇按照信息组织的基本顺序,进行三者的对比。从数字资源生产到提供检索服务一般经过著录、标引以及存储等过程。LAM数字资源之间因为有很大差异,所以三者在处理方式上也有很多不同。
图2-9 LAM数字与非数字资源增长速率示意图
数字资源的著录是指将数字资源的外部特征与内容特征揭示出来,以便为用户检索使用。数字资源在禀赋上有很大差异,因此不同的资源拥有不同的著录项目,资源著录项目的设计在很大程度上决定了对资源的揭示程度,决定了资源的著录质量。图书是图书馆的主要资源,是图书馆著录的最主要对象。为了提高著录工作的标准化水平以及不同机构间书目数据的共享,图书馆界先后出现了很多著录规则标准,如AACR2、RDA等。
RDA是AACR的一个新版本,它对数字资源著录的条款在原有基础上有所增加,规定更为具体,内容也更为丰富,理论上RDA可以用来描述所有类型的资源
。所以RDA能够更好地适用于电子资源的著录,有的学者认为RDA取代AACR2是大势所趋
。
MARC(Machine-Readable Cataloging)是由美国国会图书馆于20个世纪60年代制定的书目数据数字格式的描述标准。MARC渐渐发展成为书目数据描述的国际标准,为不同图书馆书目数据共享做出了很大贡献。后来,为了揭示不同馆藏资源的个性化特征MARC发展出了一些不同版本,其中最为有名的版本是MARC 21。
国际博物馆界非常重视藏品的著录工作,《国际博物馆协会职业道德准则》对博物馆藏品的著录工作做出了明确而严格的规定,可以说未经著录的藏品并不具有藏品的资格
。我国博物馆藏品著录所遵循的原则是国家文物局颁布的《博物馆藏品信息指标体系规范(试行)》以及《藏品珍贵文物信息指标著录规范》等
,《藏品珍贵文物信息指标著录规范》规定每件藏品登录的核心指标项规定为28项,包括文物原名、名称、文物类别、年代类型、年代、质地类别、形态特征、完残程度、完残状况、尺寸、尺寸单位、质量、质量单位、实际数量、实际数量单位、来源方式、来源、收藏单位、总登记号、入藏日期、鉴定日期、鉴定机构、鉴定人、保护记录等
。
1996年发布的CDWA(Categories for the Description of Works of Art)被认为是第一套针对博物馆信息资源开发的元数据体系。CDWA适用于描述艺术品、建筑、图片以及艺术品组等资源,它包括27个核心元素,每个元素又包含一层或多层子元素。从目前的情况来看,CDWA在国际博物馆界将发挥越来越重要的作用。
档案著录国际标准EAD是目前国际档案界研究的热点之一,Encoded Archival Description(EAD)主要用以描述档案资源。王萍总结了EAD在国际上的应用以及EAD项目资助等情况
,她指出虽然EAD作为我国的档案著录规范还有很多问题需要解决,但是实践证明EAD在我国的推广以及应用是可行的。EAD目前已经被国外很多项目所采用,而且它还支持对图书、藏品等类型资源的描述。EAD以XML作为编码标准,能够支持档案工作者惯用检索工具的一般结构,而且不依赖于某些特定平台,并且具有足够的灵活性可以适用于多种类型的馆藏。EAD能够使图书馆、档案馆、博物馆采用相同的方式描述自身馆藏资源,生成类似于MARC的机器可读条目,以更好地支持对馆藏资源的查询、交换等操作
。EAD比MARC更为详细,共包含146个元素,这146个元素可以分为四个类型:说明元素、管理元素、检索元素和数字化信息描述元素。
抛开LAM三者数字资源描述元数据技术性差异,仅从它们揭示资源的角度不难看出,图书馆、档案馆、博物馆所采用的不同著录标准都试图更全面深入地揭示自身资源的特征,是资源本身的差异造成了这些著录规则上的差异。比如我国博物馆主要遵循的《博物馆藏品信息指标体系规范(试行)》等,其元素项包括质量、尺寸等,显然这些指标是用来揭示三维物件信息的,对于图书来说这些元素项是不必要的。图书馆、档案馆、博物馆在元数据上有很多不同,可以把元数据中的每一个具体元素项看作认识资源的一个视角,各自的元数据都试图最详尽地揭示自身资源。不过LAM三者数字资源无论在物理形态、产生过程以及使用目的上都存在很大差别,所以描述资源的角度越多一方面会更详细地揭示资源,另一方面就会造成和其他元数据之间的差异增大,给LAM数字资源的统一描述带来了困难,LAM资源深入而丰富的描述与三者资源的统一描述构成了一对矛盾。
第三阶段,LAM数字资源的应用期。在LAM数字资源的使用上三者也有所差别,用户使用图书馆数字资源主要是为了获取文献中包含的信息以及知识。用户使用博物馆、档案馆数字资源除了获取相应的信息以及知识外,还有一些特殊目的,比如很多人使用博物馆数字资源旨在获得文化熏陶以及艺术体验。图形图像类信息资源的一大特点就是能够真实地反应藏品的外部特征,因此用户通过浏览博物馆藏品图片可以获得真实的视觉体验,可以得到文化上的熏陶,满足艺术鉴赏的需求。档案馆的数字资源最大特点就是其具有凭证功能,因为档案是人类社会活动中的附带产物,并不包含过多的人类主观意识,所以具有极高的客观性,常用来作为历史事件的凭证。LAM三馆的数字资源在使用上虽有不同,但是作为重要的文化机构,三者共同肩负着传承人类文明以及教育大众的目的,三者资源在使用目的上的差别正好说明了三者资源之间的互补性,所以应该充分结合三者资源的优势,相互协作共同发挥LAM数字资源的文化以及教育功能。
第四阶段,LAM数字资源的衰退期。在数字资源的衰退期,图书馆的数字资源与博物馆以及档案馆的数字资源之间存在明显差异,主要原因就是文献型资源的老化现象。文献的老化通常包括两方面的意义:一种是指文献所载的信息以及知识随着时间的增长被使用的频率越来越低,另外是指载体本身随时间的流逝而退化变质的现象。对于图书馆的数字资源来说,其载体本身很难会因为时间而老化,所以本篇提到的资源老化现象主要指资源内容本身的价值随着时间流逝变得越来越小,使用率不断变低的现象。为了定量研究文献的老化规律,美国的巴尔顿(R.E.Burton)和凯普勒(R.W.Kebler)提出了著名的“巴尔顿-凯普勒”方程
。另外,普赖斯指数也是衡量文献老化速度的一个参数,某一领域内文献其普赖斯指数越大说明其文献老化的速度也就越快。按照普赖斯指数的计算方法被引用的文献被分成了两大类:一类指年龄超过5年仍被引证的文献,这类文献被形象地称为“档案性文献”;另一类则是年龄不超过5年的文献,被称为“有现时作用的文献”;普赖斯通过大量统计指出各学科文献的普赖斯指数总平均值为50%
。
人类知识的不断进步使得文献的老化成为一种必然,数字资源同样会面对老化问题,因为对于图书馆的数字资源来说造成其老化的原因并不是载体,而是信息或知识本身。网络环境下新的知识与信息产生的更快,特别是比较年轻的学科半衰期一般较短,因而老化现象更为明显。王富国对网络环境下的图情学与管理学的文献老化规律进行了比较,发现过去几年图情学文献比管理学文献的半衰期要短
。
博物馆以及档案馆的数字资源因为大多含有文物性以及艺术性特征,因而其数字资源并不会像图书馆数字资源那样很快老化,事实上博物馆、档案馆的数字资源很大程度上是为了长久保存而被开发的。博物馆、档案馆数字资源并不像图书馆数字资源那样价值更多地体现在其包含的内容上,而是更多地体现于其载体本身的价值。另外,博物馆以及档案馆数字资源之间的联系没有图书馆数字资源之间的联系那样紧密,也就是说博物馆和档案馆数字资源更为独立,一个资源的价值被另外一个资源完全囊括在博物馆与档案馆数字资源之间是极少存在的现象,新产生的数字资源无法完全取代原有数字资源的地位。而文献型信息资源本身存储的是信息或知识,新的知识代替原有的知识是常有的现象,所以文献的老化现象较之博物馆、档案馆要明显得多。博物馆、档案馆数字资源也会出现老化现象,但主要原因并不是一个数字资源代替另外一个数字资源,也不是用户兴趣的改变等原因,而更主要的是因为资源本身已无法满足新的技术标准等。LAM数字资源老化现象可以通过图2-10形象说明:
图2-10 图书馆数字资源与博物馆档案馆数字资源老化现象对比示意图
图2-10形象地反映了图书馆数字资源和博物馆、档案馆数字资源的老化现象,图中强调的是老化现象的对比关系,而不是反映数字资源真实的老化情况。博物馆、档案馆数字资源在资源老化现象上存在很多共同之处,因此这里并没有将两者区分开来。从资源的老化规律上看,LAM数字资源的共享是动态资源和静态资源间的共享,所以LAM数字资源的组织方法需要具有一定的灵活性,以应对资源老化现象上的差异。
不同的LAM数字资源合作项目会根据具体情况选择不同的资源组织方案,它们可以分为两大类:第一类,主要包括基于元数据、关联数据以及本体的LAM数字资源组织方法。从元数据到本体和关联数据体现着资源组织语义深度上的递进,但它们都是以LAM数字资源的基本单位为对象的,其中元数据是基础。本体扩展了元数据的语义可以为用户提供基于自然语言的检索。关联数据则把LAM数字资源与Web上的其他数字资源关联起来,使LAM数字资源更加开放;第二类,是本篇提出的基于用户协同编辑关联表的方法。这种方法的主要特征是通过每个LAM数字资源的关联表可以深入资源的内部,如对于文献型数字资源可以深入具体的页甚至行、列,而对于视频型数字资源来说可以深入具体的时间片段。也就是说,这种方法最主要的区别是它更关心具体的知识元之间的关联,旨在通过用户的协同编辑将知识元链接成关于某一主题的网络,并向用户提供检索。
关联表很像文献型资源的参考文献部分,不过跟参考文献不同的是虽然关联表隶属于具体的LAM数字资源但它是相对独立的,并不属于资源内容的一部分。其次参考文献是文献型资源的特有现象,而对于关联表来说任何类型的资源包括图片、音频、视频等资源都可以拥有关联表。参考文献是作者个人编辑的,而关联表是用户协同编辑的。这两类LAM数字资源组织方法并不矛盾,虽然它们关注的重点不同,但是它们可以相互合作以实现LAM数字资源间更好共享。
实际工作中,LAM合作项目应该根据具体情况采用最合适的资源组织策略。欧洲的MICHAEL项目基本采用的是基于元数据的资源共享模式,系统能够提供部分信息资源,另外它还提供元数据的检索结果或者资源的具体参观游览信息等
。谷歌艺术计划不仅提供资源的检索与展示服务,而且还注重资源间的关联关系等
。学术界在理论方面对LAM数字资源共享的研究也取得了丰富的成果,本篇总结了国内外的资源共享相关实践和理论研究成果,并在充分考虑到LAM数字资源特征对共建共享策略的影响,在此基础上本篇提出了更为完善的资源组织策略,如图2-11所示。
从图2-11中可以看出,图书馆、档案馆、博物馆本着自愿的原则将本馆的数字资源拿出来共享,这些供共享的LAM数字资源首先需要被分成不同的类。对资源分类的主要原因在于抛开图书馆、档案馆以及博物馆作为非学术定语的局限,以采用最佳的元数据描述方案。在分类的基础上,对其进行元数据描述,比如图书无论是存在于图书馆、博物馆还是档案馆都用MARC对其进行描述,同理藏品可以用CDWA进行描述,档案用EAD进行描述,这样做的好处是避免数字资源和元数据之间的不协调现象。对LAM数字资源的元数据描述形成了不同的元数据仓库,作为服务提供方可以通过OAI-PMH协议对其进行收割,收割后形成的数据库可以直接用于信息检索。以不同的类型的元数据集为基础,可以对其进行本体化描述,并将资源描述本体关联数据化以形成基于语义描述的LAM数字资源仓库,从而能够更好地支持基于语义的资源检索。另外,本体以及关联数据都会扩展资源之间的关系,这些关系可以同元数据间的关联关系、文献资源的引用关系结合在一起向用户提供更丰富的二次检索、浏览等,这些关系结合在一起便构成了LAM数字资源基本单位级的网络。
用于共享的LAM数字资源可以供用户直接获得,用户在使用过程中通过和资源间的交互建立知识元间的关系,并对其进行说明,通过对这些说明文字的数据挖掘以及标引存储等操作,向用户提供针对知识元网络的检索服务。因此,本篇提出的LAM数字资源组织策略能够为用户提供多层次多维度的信息检索服务,第一层,是针对LAM数字资源元数据集和语义描述的LAM数字资源集的检索,可以向用户提供最基本的检索服务;第二层,旨在通过LAM数字资源间的网络向用户提供二次检索,可以通过可视化工具向用户展示LAM数字资源网络;第三层,向用户提供知识元网络检索,使用户直接获取所需要的知识。知识元网络以“链接点”为基本单位,所以可以深入LAM数字资源基本单位的内部,不仅能够建立资源与资源间的关系还能建立资源内部不同“链接点”的关系。知识元网络是围绕某一主题而构成的网络,体现了面向用户的服务理念。
图2-11 LAM数字资源的共享策略
相对于现有的LAM数字资源组织与共享模式来说,本篇构建的LAM数字资源组织策略具有如下一些特点:
第一,综合了现有实践、理论成果,将LAM数字资源检索与内容检索结合起来,从两个维度上向用户全面展示LAM数字资源。本篇提出的LAM数字资源组织策略相对全面,实践中具体的LAM数字资源组织可以以本篇的思想为模板,也可以以前文讨论的部分理论为依据实现资源的共建共享。
第二,用户在使用LAM数字资源过程中能够与资源进行互动,用户间的协同编辑可以使资源间的联系越来越紧密,从而促进LAM数字资源的融合。另外,因为用户能够主动参与到资源的编辑中,所以真正地体现了以用户为中心的理念。
第三,能够处理和保存LAM数字资源的动态变化信息。用户在使用LAM数字资源的过程中可以随时建立资源间的关系,图书馆、档案馆以及博物馆馆员可以负责维护这些链接的正确性。
第四,需要充分关注与LAM数字化服务融合之间的关系。因为服务是链接用户和资源的桥梁,是用户与资源之间交互的接口,所以应该建立与之相应的LAM数字资源服务。
总而言之,该模式由于充分重视资源内部的关联,这种机制可以打破LAM数字资源基本单位的限制,能够深入资源的内部,给LAM数字资源共享带来了新的可能。所以本篇的资源组织策略可以促进图书馆、档案馆以及博物馆原有服务的融合,能够催生出新的服务类型,在后面两章将对LAM数字资源的服务融合进行深入探索。
本章先明确了LAM数字资源的定义以及三种资源各自的属性,并总结了LAM数字资源不同于其他数字资源的特征,LAM数字资源具有知识性、文化性、权威性以及结构性等共同特点,也正是由于图书馆、档案馆、博物馆三馆的资源具有的共同特征才使得LAM数字资源以及服务的融合成为一种必然趋势。然而,图书馆、档案馆、博物馆三者的分化是历史发展的产物,三者无论在服务职能以及资源特征等方面都存在很大差别,本章详细地探讨了图书馆、档案馆、博物馆各自拥有资源的总体特征,并基于信息资源管理的基本理论,例如信息生命周期理论、波普尔三个世界理论以及文献老化规律等,对三者资源之间的差别进行了详细分析,并探讨了这些差异背后的原因。
本章分别探讨了基于元数据、关联数据以及本体的组织方法,这些组织方法以该领域内的实践经验以及理论成果为基础。针对这些具体的技术以及理论本篇展开了深入探讨,并在前文对LAM数字资源特征分析的基础上提出了不同层次的LAM数字资源组织策略。这些策略虽然可以单独使用,但它们之间并不是孤立的,从元数据到基于关联数据、本体的LAM数字资源语义描述体现出明显的组织深化过程。而基于用户协同编辑关联表的LAM数字资源共享则注重用户和资源的交互过程,注重资源具体内容所包括的知识元之间的关联,这种方法可以打破资源存储格式上的界限,从而将文字、图片以及视频等资源结合在一起。上述LAM数字资源共享方案不是矛盾的,它们可以一起合作更好地促进资源间的共享,因而本章最后提出的LAM数字资源共享策略将两者有机地结合在一起,结合不同方法的优势对资源进行深度组织,以从多层次多角度向用户展示LAM数字资源。