购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第4章 数字人文维度的图博档数字资源聚合策略

21世纪以来,随着人们对数字技术和人文社会学科融合问题认识的不断加深,全球多个国家的多所高校相继成立了数字人文中心(Digital Humanities Center)之类的机构,通过开展各种类型的数字人文项目和数字人文活动,推进计算科学和人文社会科学研究人员的协同创新以及数字人文教育的普及,全球性的数字人文组织联盟(Alliance of Digital Humanities Organizations,ADHO)也随之建立 。在我国高校数字图书馆建设的基础上,探索数字人文中心的基础理论和建设规律,总结国外数字人文中心建设的成功经验,制定符合国情特征的数字人文中心的发展策略,已经成为当前我国高校科研服务创新的重要课题。

4.1 数字人文中心建设初探

数字人文中心是与文化相关机构尤其是高校为推进信息技术和人文社会科学深度融合而建立的协同创新服务与管理机构。本节在界定数字人文中心相关概念的基础上,介绍了国外数字人文领域形成和发展的过程,尤其是欧美国家高校数字人文中心建设的概况和特征,分析了我国数字人文中心建设的现状,提出了促进我国数字人文中心建设的若干建议,结论对于推进数字人文理论在我国的普及和发展具有重要价值。

4.1.1 数字人文中心的概念界定

“数字人文”是新兴的研究领域,学术界对其定义和内涵还没有完全达成一致,在讨论数字人文中心建设问题之前,有必要对相关概念进行准确界定。

1.数字人文(Digital Humanities,DH)

“数字人文”是在人文计算(Humanities Computing)的基础上发展而来的一个新兴的研究领域。“人文计算”侧重于人文社科科学领域的计算机应用问题,其发展从电子计算机技术诞生之初就已经开始。自20世纪40年代意大利学者罗伯托·布萨(Roberto·Busa)将计算机用于书籍编辑和文献索引以来,全球有多位学者对人文社会科学领域计算机技术的应用问题进行了探索,在不同的学科内部发展出众多的独立研究领域,一般被统称为“人文计算” 。例如,文学领域的计算机文本分析、语言学领域的电子语料库、历史学领域的文物三维呈现、艺术学领域的舞蹈动作捕捉等等,每个领域都有特定研究对象和大量有待解决的科学问题,至今仍然是全球各类研究机构关注度的热点。

21世纪以来,随着社会信息化的重点从技术系统开发转向跨系统资源整合,特别是知识管理(Knowledge Management,KM)思想在人文社会科学领域的广泛传播,人们对信息技术和人文社会科学之间关系的认识又有了新的发展。2004年,美国学者John Unsworth与Susan Schreibman、RaySiemence、联合出版了《相伴数字人文》(A Companion to Digital Humanities)一书,提出要克服人文计算“单纯数字化”(Merely digitalization)的倾向,从对技术视角回归到研究对象相关知识体系的数字化呈现上来,建立“数字人文”新视角。后来,John Unsworth教授在《什么是人文计算,什么不是》一文中对这一思想进行了详细阐述,尽管该文中使用的是“人文计算”,但是其定义恰好体现了与以往人文计算在本质上的不同,因而被很多人视为“数字人文”的经典定义。John Unsworth教授认为,数字人文(人文计算)是一种由高效计算和人文交流需求共同决定的描述性实践,一种建模或模拟的方式,一种推理的途径和一系列本体化的约束

因此,“数字人文”可以看作“人文计算”基础上发展起来的与之相对的一个概念,“人文计算”关注人文社会科学领域计算机技术的应用,本质上属于计算科学,推动者大多是技术专家;而“数字人文”关注人文社会科学研究对象知识本体的数字化保存和应用,本质上属于人文社会科学,推动者主要是人文社科领域的学者。“数字人文”并不是要取代“人文计算”,而是在“人文计算”的基础上,围绕研究对象知识本体的数字化保存问题实现人文计算数字化成果和相关信息资源的深度整合。当然,“数字人文”和“人文计算”的界限并不清晰,很多时候取决于研究者的视角是什么,因为大多数实践项目可以同时从技术和人文两个角度进行探讨。

参照John Unsworth教授的定义,本篇所述的“数字人文”是指围绕人文社会科学领域特定研究对象知识本体数字化保存和应用所进行的相关信息资源采集、加工、组织、服务、研究、教育等活动总称。“数字人文”是知识管理思想通过数字化技术在人文社会科学领域的应用,是人文社会科学领域数字信息资源深度整合的结果,有助于弥补人文计算领域多学科分散研究的不足,有助于实现人文社科领域研究范式的转型,最终促进人文社会科学领域知识的创新和传播

2.数字人文项目

“数字人文”是对人文社会科学领域本体数字化保存和应用领域的总称,必须通过具体学科的特定实践项目得以体现,本篇将这些项目被称为“数字人文项目”。“数字人文项目”一般具有以下特征:第一,面向主题(Subject Oriented)。与数字图书馆、数字档案馆为大众提供综合性信息服务不同,数字人文项目是围绕特定领域而建立的,追求对特定主题数字资源的深度描述和组织,因而必须是围绕特定问题进行的。第二,关注本体(Ontology Focused)。数字人文项目围绕领域知识结构模型进行相关数字信息的采集和组织,包含了设计者对特定领域知识体系结构的理解,可以基于本体模型进行高精度知识的智能推理,引导建设者由已知信息探索未知信息。因而,数字人文项目建设本身并不仅仅是单纯的数字资源保存项目,它同时带来的是相关领域研究方法和研究范式的重大变革。第三,基于数字仓储(Digital Repository Based)。数字人文项目所关注的特定研究对象知识本体由多种类型的数字信息资源通过系统化的组织方式得以实现,必须以体现该研究对象特征的知识仓储库为基础平台,支持基于数字仓储的各类应用。第四,跨学科整合(Cross-Disciplines Integration)。数字人文项目一般不进行数字资源学科属性的精确界定,不限定数字资源的保存形式和存储格式,不进行服务形式的人为区分,只要与主题相关都会被收集或采集。第五,多机构协同(Multiple Institutions Collaboration)。数字人文项目建设是一个系统工程,其数字仓储包含了数字图书馆、数字档案馆和数字博物馆与主题相关的各类数字资源,信息服务融合了数字图书馆、数字档案馆和数字博物馆的共同特征。同时,项目需要有专门的开发机构、高水平专家的支持、稳定的资金供给作为保障,需要多个机构相互协作才能完成。第六,持续性开发(Long-Term Development)。由于人类对知识探索的长期性,对特定领域本体的描述和数字化保存必然是长期的,只有建立在长期可持续管理体系基础上的数字人文项目才能及时反映人类对特定领域研究的最新进展,为用户提供的数字化信息服务才具备可信性。

3.数字人文中心(Digital Humanities Center,DHC)

高校数字人文中心是高等学校为了支持数字人文项目生命周期当中的规划、立项、协调、建设和评价等环节的技术和管理需求,推进数字人文领域的协同创新而建立的专业性、综合性管理和服务机构。由于人文计算领域的广泛性,部分由具体学科特定人文计算问题专业化研究机构发展而来的数字人文研究机构也存在对外称“数字人文中心”的情况,这类机构一般有专职的专家和技术人员队伍,其本质是数字人文领域问题的学术研究中心(Academic Research Center),而并非跨学科协作意义上的数字人文中心。与面向具体学科领域的各类学术研究中心不同,本篇所述的数字人文中心一般情况下没有明确的研究范畴,其主要功能在于为信息技术领域和人文社会科学领域的专家学者提供沟通和交流的平台,为面向特定学科具体问题数字人文项目的构想和实施提供良好的技术和管理环境,相当于各类数字人文项目的“孵化器”。数字人文中心集多种职能于一身,例如:第一,保存数字人文项目信息资源的公共数据中心,搜集来自图书馆、博物馆、档案馆等信息机构的信息资源,通过数字化技术采集必要的信息资源,实现各类数字人文项目信息资源的集成存储;第二,推进数字人文项目技术实现的技术支持中心,形成人文社会科学专家提供需求和知识支持,计算科学专家提供技术方案和算法支持,数字人文中心技术人员负责技术实现的协同创新格局;第三,以“小众化、深层次”知识服务为特征的在线服务中心,在中心门户网站通过数字人文项目链接为特定用户群体提供基于知识管理的特定领域信息资源深层次信息服务;第四,进行多个机构和各类人员优化配置的协同管理中心,围绕数字人文项目建设协调各相关机构之间的关系,实现各类人力资源的合理配置;第五,促进数字人文领域知识和技能传播的教育培训中心,通过开展各类教育培训活动,增进不同群体之间的相互了解,强化社会大众的数字人文意识和相关工作技能。总而言之,数字人文中心就是为数字人文项目建设提供全生命周期技术和管理保障的协同创新服务机构。

4.1.2 国外数字人文中心的建设概况

数字人文中心建设起源于美国,西方发达国家在数字人文中心建设中所积累的成功经验对于我国尤其是高校数字人文中心建设具有重要的启示意义。

1.国外数字人文中心建设的概况

数字人文是在人文计算的基础上发展而来的,早期主要关注人文领域文献计算机编辑索引、词典编纂、电子文本编码标准化TEI(Text Encoding Initiative)等问题。20世纪90年代,伴随着文本编码技术在美国女作家档案(the Women Writers Archive)、罗塞蒂档案(the Rossetti Archive)、威廉布莱克档案(The William Blake Archive)等文本和图片数字档案项目当中的成功应用,一些人文计算研究机构在美国相继成立。2004年John Unsworth教授等人提出“人文计算”的概念以后,受到了美国人文基金会(National Endowment for the Humanities,NEH)的高度关注。NEH与马里兰大学(University of Maryland)合作启动了人文社会科学信息基础设施建设项目,即“国际数字人文中心网络CenterNet”(International Network of Digital Humanities Centers)。2008年,美国人文基金会推出了“数字人文行动计划”(Digital Humanities Initiative),成立了专门的“数字人文办公室”,资助美国学者和研究机构开展数字人文项目

美国人文基金会的“数字人文行动计划”使“数字人文”理念得以在美国和世界各国广泛传播,众多在人文计算领域具有长期积累的研究机构纷纷加入数字人文研究领域,一些高校为此专门成立数字人文中心,来推动各种类型数字人文项目的规划和实施。与此同时,在德国“文学和语言计算学会(The Association for Literary and Linguistic Computing,ALLC)”和“计算机和人文学会(The Association for Computers and Humanities,ACH)”基础上成立的国际数字人文组织联盟(ADHO)迅速发展壮大起来。根据ADHO成员单位CenterNet提供的数据,自2007年3月成立以来,该网络已经有来自全球19个国家超过180所大学的数字人文研究机构先后加入,目前CenterNet在亚太、欧洲、北美、英格兰及爱尔兰建立了分支机构。

从全球数字人文中心的分布情况来看,绝大多数的高校数字人文中心集中在北美和欧洲国家,澳大利亚和亚洲国家只有数量不多的专门研究机构。其中,国外较为知名的高校数字人文中心主要有:美国弗吉尼亚大学人文先进科技研究所、美国马里兰大学科技人文研究所、美国内布拉斯加大学林肯分校数字人文研究中心、美国斯坦福大学数字人文实验室、美国伊利诺伊大学香槟分校人文艺术与社会科学计算研究所、加拿大维多利亚大学人文计算与媒体中心、英国伦敦大学学院数字人文中心、英国伦敦国王学院人文计算中心、英国格拉斯哥大学人文科技信息研究所、英国谢菲尔德大学数字艺术与人文专门研究中心、德国哥廷根大学数字人文中心、日本立命馆大学日本篇化艺术数字人文中心等等。

2.国外数字人文中心的主要特征

欧美国家将数字人文中心建设作为推动人文社会科学研究的重要举措,其数字人文中心建设模式的特征主要体现在以下方面:第一,数字人文中心建设主要是由综合性大学推动的,虽然数字人文中心发起机构可以有多种类型,但是从实践来看,同时有数字技术科学和人文社会科学学科的综合大学是数字人文中心建设的最主要推动机构;第二,数字人文中心的形成和发展背景各异,绝大多数定位于“跨学科协同创新服务机构”,数字人文领域极为广泛,因而数字人文中心主要依托机构的学科背景呈现出高度多元性特征,有的依托文学、艺术、历史、考古等学科院系,有的依托计算机、信息管理等学科院系,有的则依托图书馆或信息中心等机构,也有的数字人文中心依托于数字人文领域行动计划推进办公室,但是,绝大多数的欧美国家高校数字人文中心的定位是协同创新管理服务机构,主要为所依托大学的相关学科之间互动提供服务,专职工作人员数量相对较少,绝大部分工作是由来自学科的各类人员兼职完成的;第三,“项目制”是数字人文中心运行的基本方式,中心通过具体的数字人文项目将不同学科的研究力量整合在一起,为数字人文项目的运行提供必要的技术和管理服务,并通过中心网站对外展示项目的研究成果,因此数字人文项目管理是数字人文中心最主要的工作内容;第四,大多数数字人文中心兼有多种职能,通过开展各种形式的活动促进信息技术和人文社会科学的融合,如举办数字人文领域的讲座、培训、参观、研讨,招收和培养研究生,召开相关学术会议,出版学术期刊等等。

4.1.3 我国数字人文中心的建设现状

“数字人文”是从欧美国家输入我国的新概念,“数字人文中心”建设在我国还处于起步阶段,机遇与挑战并存,相关问题还在探索之中。

1.我国数字人文领域相关研究概况

尽管“数字人文”在学术界还是个新概念,我国多所大学的研究机构实际上已经在从事与这一领域相关的研究工作。1986年,美国威斯康星大学华裔学者陈炳藻教授公开发表《电脑在文学上的应用:〈红楼梦〉与〈儿女英雄传〉两书作者用词的比较》一文之后,国内有多名学者用类似的方法进行过文学作品的计算机定量分析 。例如,施建军对鲁迅和瞿秋白的18部作品进行计算机聚类分析,总结出两位作家作品在用词方面的风格特征,武晓春研究了通过计算机识别文学作品作者的方法 。此外,北京大学中国语言学研究中心孔江平教授研究了中国语言资源数字化采集和保存的方法 ;北京师范大学周明全教授研究了秦兵马俑的数字化保护技术;中国科学院计算机研究所、武汉大学和浙江大学联手进行“数字敦煌”工程相关研究 ;中国艺术研究院建设了“西北人文资源环境基础数据库”等等 。这些研究是各学科学者对数字人文相关领域问题的分散探索,还没有从管理机制层面上建立专门的跨学科推进机构。

2.我国数字人文中心建设概况

“Digital Humanity”在美国出现后,被我国台湾地区翻译为“数位人文”,并将作为数字人文项目基础的数字资源库称为“数位典藏(Digital Archive)”,以体现按照档案原则管理数字人文信息资源的思想。台湾地区于2008年启动了面向整个地区的“数位典藏科技计划” ,先后召开了四届“数位典藏与数位人文国际学术研讨会”,包括台湾大学在内的多所学术研究机构和博物馆参与了该计划,数字资源覆盖生物、考古、地质、人类学、档案、拓片、器物、书画、地图与遥测、善本、汉籍、新闻、影音、建筑等主题,通过综合性浏览网站提供给学术研究、教育推广和产业应用领域使用。作为“数位典藏科技计划”的重要内容,台湾大学“数位人文研究中心”于2008年成立,通过与台湾大学图书馆、博物馆、档案馆的合作,已经成功开发涉及明清档案、古契书、国民党党史、台湾老照片、植物标本、民族文化等为主题的多个数字人文项目,数字资源著录条目超过183万条。同时,中心还开发了官职对照表、中西历转换器、词频分析、多维度分类、年代分布图等增强检索、对比、呈现等效能的研究工具。中心还不定期举办工作坊、研讨会、读书会、访问奖助计划等活动来加强数字人文研究学者之间的联系

2011年5月,我国大陆地区首家高校数字人文研究中心在武汉大学正式成立,马费成教授出任主任,王晓光教授担任执行主任。中心致力于在全校范围内全力倡导和推动各类数字人文项目和交流,在数字人文基础理论与方法、数字人文相关技术与标准、数字人文通用软件和平台等领域开展深入研究,并在包括人文专题数据库和古籍文本数字化建设,基于GIS的历史地理信息可视化研究,基于数字古籍语义分析的历史与档案研究,基于文本挖掘与统计的文学、新闻、话语与传播研究,基于数据库的法律条文、文书、证词研究,基于语料库的计算语言学研究,基于视频捕捉、运动分析与虚拟现实的民族文艺研究,基于图像分析、色彩还原和数字重建的考古与历史建筑研究,基于互联网的学术出版、专题资料库与知识门户社区建设等方面开发各类数字人文实践项目

近年来,随着“全国高等学校创新能力提升计划(2011工程)”的实施,部分在文化研究领域具有共同志趣的高校联合成立了数字人文领域的协同创新中心,例如中山大学、华中师范大学、厦门大学和哈尔滨工业大学联合成立的“文化遗产传承与数字化保护协同创新中心” 。这些协同创新中心本质上是围绕数字人文领域相关课题进行跨组织协作的学术研究机构,范围比“高校数字人文中心”更加广泛,运行机制也更为复杂。

总体而言,“数字人文”理念还没有被我国学术界广泛接受,就严格意义而言,目前我国建有“数字人文中心”的高校只有台湾地区的台湾大学和大陆地区的武汉大学两所。迄今为止,国内还有相当多的学者对“数字人文”一词存在误解,很多人仅仅将“数字人文”看作多个数字化领域的简单组合,没有认识到其面向本体进行数字资源深度整合的本质,也没有认识到作为文理协同平台的“数字人文中心”对高校学术创新的巨大推动力。我国数字人文中心建设机遇与挑战并存,随着武汉大学数字人文研究中心引领和示范作用的发挥,相信我国高校数字人文中心的数量将会持续增加,其潜力将会被逐步开发出来。

4.1.4 我国数字人文中心建设的建议

“数字人文中心”是推动数字人文领域研究工作的重要基础,随着学术界对数字人文的关注和了解,从高校内部跨学科协同创新层面建设“数字人文中心”,就成为推进数字人文领域研究和实践的重要任务。在综合国外数字人文中心建设经验的基础上,对当前我国数字人文中心建设建议如下:

1.开展数字人文领域相关基础问题研究

从科技哲学视角研究数字技术和人文社会科学之间的互动关系,尤其是知识论、本体论在数字人文项目当中的体现方式。明确“数字人文”的研究范畴和学科特质,尤其是“数字人文”和“人文计算”、“文化遗产数字化保护”等领域之间的区别和联系。构建“数字人文”领域的理论体系框架和学科体系框架,明确“数字人文”与计算机科学、图书馆学、情报学、档案学、博物馆学、科研管理、文化管理等学科领域之间的关系。

2.探索我国高校数字人文中心的建设规范

建议高等教育主管部门从职能定位、组织架构、运行机制等角度确立我国数字人文中心建设的基本策略和评价标准并向社会公布,鼓励各高校按照规范构建体现自身特色的数字人文中心。我国高校数字人文中心建设规范主要包括以下方面的内容:

职能定位。在探讨学术研究型“数字人文中心”和协同创新型“数字人文中心”的区别和联系的基础上,明确我国高校数字人文中心的职能定位。建议重点发展承担高校信息技术学科和人文社会学科跨学科整合中枢功能的协同创新型“数字人文中心”,并将学术研究型“数字人文中心”纳入协同创新型“数字人文中心”的运行体系当中。

组织架构。按照“跨学科、跨机构”集成整合的思想构建高校数字人文中心的组织架构。参照按照信息共享空间(Information Commons,IC)思想,构建高校数字人文空间(Digital Humanities Commons,DHC),基于中心门户网站搭建信息技术学科和人文社会学科学者之间的交流平台,实现数字人文项目和多学科专家团队之间的弹性组合、动态调整和优化配置。同时,要明确高校数字人文中心与科研管理机构、图书馆、博物馆、档案馆、信息中心等机构之间的关系,将数字人文中心纳入高校运行体制,最大限度利用好高校现有的各类信息资源。

运行机制。探索基于“数字人文项目全生命周期管理”思想的高校数字人文中心运行机制。高校数字人文中心内部可以按照行政管理、项目管理、数据保存、信息服务、教育培训等功能建立分支部门,建立各部门之间的协同工作机制。为了确保高校数字人文中心的顺畅运行,需要建立“高校数字人文行动计划领导小组”或“高校数字人文中心决策委员会”等跨机构合作机制,平衡数字人文项目建设过程中的各类利益关系,调动各类机构参与合作的积极性。

3.建立我国数字人文项目资助体系

参照美国人文基金会“数字人文行动计划”的经验,在我国哲学与人文社会科学研究基金资助体系当中新增“数字人文专项研究资助项目”,鼓励各高校以数字人文中心为依托,申报体现自身特色的数字人文项目,基金会择优予以资助。在此基础上,积极鼓励企业和个人参与部分市场开发潜力的数字人文项目,构建起国家社科基金、省区社科基金、高校科研基金和社会资助将结合的数字人文项目资助体系。

4.构建数字人文项目评价与认证体系

数字人文项目管理是数字人文中心的核心职能,需要按照项目管理原理,围绕数字人文项目的目标构建项目评价体系。数字人文项目围绕人文领域研究对象的数字化保存问题展开,实现研究对象知识本体信息资源保存功能的数字仓储就成为数字人文项目标志性的研究成果。由于数字仓储库最终要通过网络向用户提供信息服务,所提供信息内容的可靠性和信息服务的可持续性等问题就成为评价数字仓储的重要因素。我国数字人文中心建设过程中,需要参考国际上已经发展成熟的“可信数字仓储(Trusted Digital Repository,TDR)”评价体系,制定我国数字人文领域的可信数字仓储评价标准并建立相关的认证机构。该体系建立以后,用户在科研过程中可以通过项目网页是否包含认证标志来判断是否引用该数字仓储提供的信息。

5.开展数字人文领域复合型人才的培养和培训

数字人文是典型的交叉性领域,对从事数字人文研究和实践的人才素质有着较高的要求。例如,熟悉人文社科领域基础知识,有自己擅长的研究领域,要熟悉计算机技术,掌握数字常用软件操作,能够搭建技术架构,会编写计算机程序。同时,要对信息资源管理领域的知识有完整而清晰的理解,尤其是要熟悉知识库的构建原理。英国伦敦大学学院数字人文中心已经在招收数字人文领域的学术型硕士研究生、专业学位硕士研究生、博士研究生,并可以通过部分课程的学习获得数字人文领域的培训证书。鼓励我国高校数字人文中心,依托图书馆学、情报学、信息资源管理等学科的学位点,开展数字人文领域硕士研究生和博士研究生的培养工作 。同时,参照国内相关行业的职业认证制度,探索数字人文领域职业资格认证和培训相关问题。

6.推进国内外数字人文领域交流与合作

在我国高校数字人文中心建设达到一定的规模之后,可以适时组建“中国高校数字人文中心联盟”,在更大的范围内实现信息技术科学和人文社会科学资源的共享与交流。鼓励具备条件的高校数字人文中心加入CenterNet、国际数字人文组织联盟ADHO等国际组织,参与数字人文领域的国际合作,学习国外高校数字人文中心建设的经验,提升我国高校数字人文中心的管理水平。

4.2 数字人文仓储的构建与实现研究

数字图书馆、数字档案馆和数字博物馆是公共文化机构应用现代信息技术整合传统资源而发展出的新服务形态,由于服务模式的相似性和业务范围的交叉性,它们的整合与共享一直是学术界思考的重要问题。目前,学术界对图书馆、档案馆和博物馆资源整合问题的思考大多基于垂直整合策略,即建立图书馆、档案馆和博物馆数字化联盟,基于三方公共技术平台进行相关信息资源的整合,通过一体化门户向大众提供服务。然而,我国的图书馆、档案馆和博物馆机构隶属于不同的行政部门,各自为政的管理体制使垂直整合策略的实施面临巨大的阻力,短期内难以实现根本性突破。因此,在垂直整合策略之外,在不打乱现有公共文化机构管理秩序的前提下,探索新的整合模式就成为推动图书、博物、档案数字化服务融合研究和实践的迫切需要。

4.2.1 DHR的建设背景

图书馆、档案馆和博物馆资源水平整合策略最典型的应用就是特色馆藏资源建设,一般是围绕主题进行相关信息资源的广泛搜集,图书、档案、文物都可能被纳入对应主题特色馆藏的范畴。由国家推动的文化信息资源水平整合可以追溯到21世纪初期启动的“国家文化信息资源共享工程”。2002年6月,为了促进文化信息资源的传播和共享,国家文化部和财政部共同启动了“文化信息资源共享工程”,应用现代信息技术,将中华优秀文化信息资源进行数字化加工与整合,依托各级公共图书馆、文化馆(站)等公共文化设施,通过互联网、广播电视网、无线通信网等新型传播载体,在全国范围内实现中华优秀文化资源的共建共享。“文化信息资源共享工程”的主要任务是围绕特定主题整合相关信息资源,由各级分中心和站点开发具有区域文化特色的主题信息资源数据库或者网站并向社会大众提供浏览服务。各分中心和站点在进行特色主题文化资源库或网站过程中,信息资源来源具有广泛性,数字图书馆、数字档案馆和数字博物馆是其中最为重要的三个来源。基于主题信息资源库的文化信息资源共享模式在保障公民基本文化权益,满足社会大众基本文化需求方面发挥了重要作用,也面临着一系列迫切需要解决的挑战和问题。例如,文化信息资源库规范化程度低、文化信息资源著录深度不够、公众参与度不高等,亟待进行改革与升级,探索更加科学有效的文化信息资源保存和服务体系

“文化信息资源共享工程”是“社会信息化”进程中基于互联网进行的公共文化信息资源传播,目前正面临着“社会智慧化”潮流的巨大挑战。从需求角度来看,用户对文化信息资源获取和利用正呈现出一系列新的特征,主要表现在:(1)集成性需求,即用户希望实现信息资源的集成获取,可以通过单一入口访问到原本需要从多个异构系统中逐一检索的各类文化信息资源;(2)专业性需求,即用户希望不仅仅访问到文化信息资源的数据本身,还能够从中获取数据所蕴含的知识体系,从对文化信息资源浅层数据的关注过渡到对文化内容本身的关注;(3)精确化需求,即用户希望信息检索过程中,计算机系统能够相对准确地理解用户的检索需求,尽可能减少自然语言歧义和多义现象对检索结果的干扰,为用户提供与需求基本一致的检索结果;(4)智能化需求,即用户希望计算机系统可以基于某种推理规则,对检索结果进行一些智能化处理,例如同时提交近义词的检索结果等;(5)互动性需求,即用户希望在接受文化信息服务的过程中不仅与技术系统进行交互,而且可以与领域相关人员有互动和交流,促进领域知识更好地理解和传播。

上述需求对“文化信息资源共享工程”的完善和升级提出了新的思路和方向。在数字图书馆、数字档案馆和数字博物馆等大众化数字文化信息服务难以满足特定群体深层次信息需求的情况下,依托文化信息资源共享工程的技术平台,建立面向主题领域的小众化、专业化、精细化、智能化的深层次信息服务模式,就成为公共文化服务体系的重要补充和潮流趋势,也成为文化信息资源服务创新的重要源泉。基于水平整合策略和数字人文理论,构建基于特定主题的文化信息资源数字仓储和面向用户群体深层次需求的多功能复合服务形态,就成为解决这一问题的重要思路。本篇将这种特定人文社科科学主题领域内,集数字图书馆、数字档案馆、数字博物馆等功能于一体的新型数字信息服务形态称为“数字人文仓储”(Digital Humanities Repository,DHR),并对其建设背景、概念内涵、架构模型、实现思路等基础问题进行分析,进而探讨“国家数字人文基础设施建设工程”的策划和实施等问题。

4.2.2 DHR的概念界定

“数字人文仓储”是与文化信息服务集成化、精细化、智能化潮流相适应的服务形态,其出现具有一定的必然性,对其概念和内涵的准确界定是进行理论和实践探索的前提条件。

1.“数字人文仓储”的定义

“数字人文仓储”是“数字人文”与“数字仓储”两个领域的合成概念,是数字人文项目实现的技术基础,也是数字仓储技术在人文社科领域的应用方式。

“数字人文”是近年来西方国家逐步发展起来的新兴的研究领域,目前全球已经有超过180所大学相继成立了数字人文领域的研究和服务机构。“数字人文”是指围绕人文社会科学领域特定研究对象知识本体数字化保存和应用所进行的相关信息资源采集、加工、组织、服务、研究、教育等活动总称。“数字人文”的精髓就是在人文社会科学领域数字对象内容的深度整合的基础上开发与之相关的各类应用,满足用户群体的深层次需求。数字人文项目是数字人文建设的关键,一般具有六大特征:面向主题、关注本体、基于数字仓储、跨学科整合、多机构协同、持续性开发。因此,数字仓储是数字人文项目顺利进行的基础,也是数字人文项目研究成果展示的主要平台。

“数字仓储”是在数据仓库(Data Warehouse)基础上发展而来的一个概念。数据仓库是计算机科学发展多年的领域,是指面向主题的、集成的、稳定的、随时间变化的数据集合,主要通过对多种来源的数值数据进行集成保存进而为决策支持系统提供支持。把数据仓库的开放性和集成性特征应用到数字对象的管理和保存领域,就产生了“数字仓储”的概念。“数字仓储”是在网络环境下为各类数字对象提供保存和管理服务的系统,进行保存的数据内容和形式呈现出高度多样性特征。一般而言,数字图书馆、数字档案馆和数字博物馆只保存特定专业领域内的数据,而“数字仓储”是一种通用型的数据保存环境,与主题相关的各类文本、图片、音频、视频、网页等数据都可以被纳入保存的范畴。数字仓储可以分为机构仓储(Institution Repository)和领域仓储(Domain Repository)两种类型,前者是组织机构提供集成数据保存服务,例如为分散在各地的分支机构提供一体化的数据仓储服务;后者实现某一学科领域多类型数字对象的集成访问,例如根据特定主题或者特定学科进行学术资源的集成仓储。由于Repository含有知识库之意,所以数字仓储涉及的各类数字对象并不是简单的保存关系,而是要按照知识管理思想从内容层面上进行数字对象的深度整合。近年来,数字仓储领域发展迅速,大量基于DSPACE、Fedora等平台的数字仓储系统被开发出来,成为组织推行知识管理的基础技术架构。

综上所述,“数字人文仓储”是指在人文社会科学领域特定主题领域内,基于研究对象知识本体进行相关数字对象的采集、加工、组织和保存,并为对应用户群体提供集成化、专业化、精确化、智能化、互动化服务的信息系统及相关资源的总和。数字人文仓储是数字人文项目的信息资源基础,有助于推动人文社会科学领域数字对象深度整合,提高特定领域专业化信息服务的质量,满足目标用户群体深层次服务需求,从而促进数字信息技术与人文社科领域专业知识的融合,最终推动人文社会科学研究范式的转型。

2.“数字人文仓储”与相关概念

“数字人文仓储”与一系列学术概念紧密联系又相互区别。

“数字人文仓储”与“文化信息资源库”。“文化信息资源库”是对集中保存和管理文化信息资源的技术系统的总称,常见的文化信息资源库大多基于网络环境,通过数据库或者主题网页来保存文化信息资源。“数字人文仓储”是文化信息资源库的一种表现形式,与常见的文化信息资源库按照主题分类进行信息组织不同的是,“数字人文仓储”是基于本体进行相关信息资源的采集和组织,文化资源对象所蕴含的知识体系也纳入保存范围,因而“数字人文仓储”可以看作建立在知识管理层面上的主题文化信息资源库,即主题文化知识库。

“数字人文仓储”与“数字图书馆”。由于Library一词具有多种含义,除了我们一般理解的主要用来保存图书文献的图书馆之外,Library还包括了个人收藏、资料库等含义。如果从广义的角度来理解,“数字人文仓储”实际上也是Digital Library的一种表现形式。在实践中,很多本质上属于数字人文仓储的信息系统对外使用的名称是数字图书馆,例如美国弗吉尼亚大学藏学中心建立的“喜马拉雅数字图书馆”所收藏的信息资源并不限于图书、论文等文献资料,大量与藏学研究有关的图片、音频、视频等资料也在收藏的范围 。本篇认为,围绕特定主题进行信息资源服务多维度聚合服务与图书馆为社会大众提供基本图书文献资料信息服务具有存在多方面差异,其建设思路也是不同的,为了避免概念冲突,本篇从狭义视角进行数字图书馆概念界定。

“数字人文仓储”与“数位典藏”。“数位典藏(Digital Archive)”是我国台湾地区的学者在推动数字人文项目建设过程中提出的概念,其基本思想是通过信息技术手段将文化资源所蕴含的信息真实、完整地保存到长期可读的数字档案当中并提供与之相关的各类利用 。台湾地区于2008年启动了面向整个地区的“数位典藏科技计划”,先后召开了四届“数位典藏与数位人文国际学术研讨会”,包括台湾大学在内的多所学术研究机构和博物馆参与了该计划。“数位典藏”即“数字典藏”,就概念而言,“数字人文仓储(DHR)”与我国台湾地区的“数位典藏(DA)”的范畴基本一致,只是“数位典藏”更多强调对文化信息资源的档案化保存和管理,而对数字图书馆、数字博物馆相关的展示、互动等功能关注相对较少。

“数字人文仓储”与“文化遗产数字化”。“数字人文仓储”与“文化遗产数字化”都属于计算机等现代信息技术在文化资源保护领域的应用,但是“文化遗产数字化”主要强调文化遗产相关信息的数字化采集技术和过程,而“数字人文仓储”更多强调基于文化资源本体实现文化资源数字化成果的深度整合与共享。因此,“数字人文仓储”可以看作基于文化遗产数字化成果构建的主题领域知识库。

可见,“数字人文仓储”是与数字图书馆、数字档案馆和数字博物馆不同的一种文化信息服务形态,主要表现在:第一,数字人文仓储所保存信息资源的内容只限于具体的主题领域,而数字图书馆、数字档案馆和数字博物馆往往没有明确的主题,需要从服务大众的角度出发收藏各类主题的信息资源;第二,数字人文仓储所保存信息资源的形式极为广泛,可以囊括与主题相关的各类数字对象,无论这些数字对象的内容来自图书、档案还是文物,其格式是文本、图形、图像、音频、视频还是多媒体复合文件;第三,数字人文仓储要在知识管理层面上实现信息资源组织和保存,对信息资源标注要求比一般的信息管理系统要高,本质上是针对人文社科领域特定主题建立的文化知识库;第四,数字人文仓储提供的信息服务具有集成性特征,融合了数字图书馆、数字档案馆、数字博物馆、数字出版社、数字社群等在线信息服务的多重特征。

4.2.3 DHR的体系架构

数字人文仓储是围绕特定主题构建的数字对象多功能复合服务形态,是多种数字化服务功能的融合与集成,根据数字人文仓储的定义和原理对其体系架构进行分析的结果如图4-1所示。

图4-1 数字人文仓储的架构模型

图4-1所示的数字人文仓储模型整体分为人文实体界定、领域本体建模、人文实体数字化采集与归档、跨库信息资源搜集和导入、多源信息资源的知识组织和存储、多维度聚合服务等模块,各模块的主要任务简要介绍如下:

(1)人文(Humanities)实体。数字人文仓储是面向主题的,因而整个仓储必须围绕特定的研究对象进行,这个研究对象就是“人文实体”。人文实体可以分为多种类型,特定的学科、古籍、文物、建筑、绘画、音乐、舞蹈等都可能成为实体的表现形式,从而使数字人文仓储具有丰富多彩的形态。例如,“敦煌学数字仓储”、“《大藏经》数字仓储”、“唐卡数字仓储”、“故宫建筑艺术数字仓储”、“民歌数字仓储”等等。

(2)人文领域本体建模。数字人文仓储是通过信息资源的采集和组织实现人文实体的虚拟保存,因而建立人文实体的本体模型是构建数字仓储的重要基础。领域本体建模是一项复杂的任务,需要按照知识本体工程的规范和流程进行构建并根据实际应用情况进行持续完善。

(3)人文实体数字化采集与归档。在领域本体建模完成以后,就可以参照本体模型对人文实体数字化加工成果的类型进行详细规划,根据需要进行相关数字信息资源的采集。例如,通过摄影或二维扫描设备进行古籍、绘画等人文实体的数字化拍摄或扫描,通过三维扫描设备进行建筑、文物等的立体数字扫描,通过音频信息技术进行歌曲、语言等声音信息的数字化采集,通过视频拍摄或者动作捕捉技术对舞蹈进行数字化记录和采集。各类数字化采集成果根据数字仓储建设需求进行格式转换,基于领域本体进行知识标注后归档保存到数字仓储系统当中。

(4)跨库信息资源搜集与导入。除主动采集途径之外,从数字图书馆(DL)、数字档案馆(DA)和数字博物馆(DM)检索和导入也是数字人文仓储的重要来源。搜集来自数字图书馆、数字档案馆和数字博物馆的信息资源可以采用虚拟集成和实体导入两种方式,前者主要是基于开放文献元数据收割协议OAI-PMH进行元数据采集和处理,按照统一的界面对外发布,信息的访问仍然是从原有路径进行;后者是将相关文献信息资源进行下载和加工后导入数字仓储库,实现了数据的实体集成。在检索过程中,可以根据领域本体进行检索词的扩展,尽可能全面地搜集来自图书馆、档案馆和博物馆的相关信息资源。在转换过程中,需要基于领域知识本体对各类信息资源进行深度标注,以满足智能检索的需求。

(5)多源信息资源的知识组织与存储。从数字化采集、跨库搜集两种途径获取主题领域内的信息资源以后,需要基于领域知识本体进行各类信息资源的标注与存储,以实现人文实体各类属性在信息技术环境下的数字化再现。由于数据来源的多样性,采用统一的元数据格式成为信息共享的前提条件。具体采用哪种数据格式,需要根据人文实体的类型来判断,可以选择与该实体类型最匹配的一种元数据框架同时兼顾其余类型,例如文化遗产语义元数据模型CIDOC CRM、电子档案描述框架EAD或者书目记录的功能需求模型FRBR等等。如果人文实体是某个学科领域,来自图书馆、档案馆和博物馆的信息资源数量都很多,则可以转换为通用型的元数据模型、如Dublin Core,RDF等等。

(6)多维度聚合服务。数字人文仓储通过对主题信息资源的搜集和保存,基于数字人文仓储平台,为特定群体提供多维度智能信息服务,满足用户群体的深层次信息需求。这里的多维度服务是指从用户群体而言,数字人文仓储平台提供的信息服务同时融合了多种大众化信息服务的资源和特征,主要有:①主题数字图书馆(Humanities D_igital Library,H_DL),提供与主题相关的各类文献信息资源在线服务;②主题数字档案馆(Humanities D_igital Archive,H_DA),提供与主题相关的各类数字档案在线服务;③主题数字博物馆(Humanities D_igital Museum,H_DM),提供与主题相关的各类场景和实物的在线展示服务;④主题出版社(Humanities D_igital Press,H_DP),提供与主题相关的各类图书、期刊的在线发布或发表服务;⑤主题社群信息中心(Humanities D_igital Community Center,H_DCC),为对主题有持续兴趣的目标用户群体提供沟通和交流服务

总之,数字人文仓储是在人文社会科学领域范围内为目标用户群体所提供的融数字图书馆、数字档案馆、数字博物馆、数字出版社、数字社群等功能于一体的小众化、集成化、智能化信息服务形态,是公共信息机构大众化信息服务的重要补充和深度拓展,具有重要的社会价值。

4.2.4 DHR的实现思路

“数字人文仓储”是数字仓储在人文社科领域的具体应用,其实现必须综合考虑制度、技术和管理等多重因素,最终推动数字人文仓储在我国文化信息资源共享工程中的应用和发展。

1.数字人文仓储的建设规范

数字仓储建设是涉及多种因素的系统工程,在技术、安全、管理等多个方面存在使信息服务不可持续或信息内容无法被信任的风险,为了确保数字仓储的可靠性,美国研究图书馆学会(RGL)在1996年就提出了“可信任数字仓储”的概念,并在2002年发布的研究报告《可信任数字仓储:属性与责任》中对其进行了详细阐述 。2006年12月,德国Nestor项目组发布了《可信任数字仓储标准目录》,致力于保障数字信息存储的真实性、完整性、保密性、易获性。2007年,美国国家文件与档案总署NARA与研究图书馆学会RLG联合发布了《可信任的馆藏审计和认证:标准和清单(TRAC)》,提出3大类共计84项认证规则。同年,欧盟的“数字欧洲保存项目(DPE)”发布了《基于风险评估的数字仓储审计方法》。2011年,国际空间数据系统咨询委员会发布了题为《可信赖数字仓储的审计与认证》的技术报告。2013年,国际标准化组织ISO发布了标准《ISO 16363可信任数字馆藏的审计与认证》,首次提出了国际通用的数字仓储认证标准

数字人文仓储作为数字仓储的典型应用,建设过程中可以参照可信任数字仓储认证的国际标准,结合我国文化信息资源共享的现实需求,制定数字人文数字仓储的建设规范。一般需要从以下几个角度进行考虑:(1)组织体系,必须具有严密的组织体系和专业化的工作人员,在政策、资金、法律等方面能够提供长期而稳定的支持;(2)基础设施,数字仓储系统必须具有良好的软硬件配置并对存储过程中的各类风险有应对的措施和方法;(3)系统功能,数字仓储系统必须维护所保存的数字对象的完整性、真实性、可用性、保密性,确保数字对象在现在和未来可查找、可参考、可识别、可转换的能力。此外,考虑到数字人文仓储对领域知识专业性的要求,还需要构建必要的数字对象鉴定机制,通过专家团队和用户群体相结合的方式对数字对象内容可信程度进行判定,以保障通过系统发布的各类信息资源具有可靠性和可信性。

2.数字人文仓储的技术架构

数字仓储源于机构保存其多样性数据的基本需求,其概念提出以后得到了学术界和企业界的广泛关注,全球多家研究机构都曾经开发过数字仓储领域的应用软件,例如商用数字仓储软件有ArchivalWare、CONTENTdm、DigiTool、VITAL等,开放源代码的数字仓储软件有DAITSS、Dspace、EPrints、Fedora、Greenstone、Keystone DLS等。数字人文仓储构建过程中,需要结合人文实体对象应用需求进行程序模块开发,因而采用开放源代码软件较为适合。在开放源代码数字仓储软件系统当中,Dspace和Fedora的应用最为广泛。

Dspace。Dspace(数字空间)是由美国麻省理工学院(MIT)和惠普(HP)公司联合开发的开放源代码数字对象存储系统,可以收集、存储、索引、保存、发布任何数字格式的永久性数字对象。Dspace可以接受的电子化材料包括:论文与预印稿(Articles and preprints)、技术报告(Technical reports)、雇用证书(Working papers)、会议论文(Conference papers)、电子论题(E-theses)、统计数据、地理信息数据、Matlab文件、图像文件、声频文件(Audio files)、视频文件(Video files)、学习资源(Learning objects)等等。Dspace提供了“位存储”(Bit preservation)和“功能存储”(Functional preservation)两种不同的数字对象存储方式,位存储保证提交的数字材料没有任何改变;功能存储是随着时间的变化改变存储内容的格式,以保证数字对象可以通过最新的应用软件进行读取和利用。Dspace中设定了很多数字空间群,工作人员被设定为“提交者”(Submitters)、“审核者”(Reviewers)、终审者(Coordinator)等角色,可以分派给不同的人去承担从而组成角色群或称“电子工作组”(E-person group)。Dspace系统是一个开放源代码的软件平台,可以从其网站上免费下载,可以自由使用、复制和修改

Fedora。Fedora即灵活可扩展数字对象仓储架构(Flexible Extensible Digital Object Repository Architecture),是由美国康奈尔大学(Cornell University)和弗吉尼亚大学(Virginia University)合作开发的数字对象存储系统。数字对象(Digital Object)和仓储架构(Repository Architecture)是Fedora的两大核心概念,通过数据流将文本、图像、期刊、数据集、多媒体数据等数字对象及其操作封装起来。仓储框架是Fedora系统的整体结构,主要提供系统维护、访问、存储、安全、服务等模块。Fedora广泛适用于图书馆、档案馆和博物馆的数字内容管理领域

参照Dspace和Fedora的技术架构,数字人文仓储的技术实现可以通过数据存储层、业务逻辑层和Web服务层三个层面来完成。其中,数据存储层主要是实现数字对象和保存并实现读、写、删等操作;业务逻辑层是对数字对象仓储相关的安全管理、工作流管理、内容管理、存取管理等功能进行界定和支持;Web服务层是仓储功能的最终体现,需要围绕数字人文仓储实体对象的类型设计不同的应用形式,在领域范围内实现数字图书馆、数字档案馆、数字博物馆和数字出版社等功能的有机融合。根据数字人文仓储的定位,系统在实现过程中要基于知识管理理念和技术,发挥领域本体在数据处理和数字对象组织过程中的作用。

3.数字人文仓储的推进策略

数字人文仓储是“国家文化信息资源共享工程”升级和创新的重要方向,可以有效解决层级文化信息资源库服务模式存在的信息量少、缺少深度关联、与用户群体互动少等问题,提高我国公益性数字文化服务的质量。根据数字人文仓储的特征,对于我国文化信息资源共享工程当中的应用和发展提出如下建议:

适应社会“智慧化”潮流,在“国家文化信息资源共享工程”基础上,策划和实施“国家数字人文基础设施建设工程”。从国家战略层面上分析数字人文仓储体系开发的重要意义,完成“国家数字人文基础设施建设工程”的顶层设计,通过数字化手段实现国家优秀文化资源在互联网上的全面记录和保存,为文化创新和传播奠定基础。建议在我国“文化信息资源共享工程”体系架构的基础上,规划建设若干体现我国特色文化资源的数字人文仓储,形成各类数字人文仓储资源相互补充、互相联系、交相辉映的格局。为此,需要对我国数字人文领域知识本体模型的构建做出统一规划,确定顶层本体模型的结构,各领域本体在参考顶层本体模型的基础上,由各领域数字人文仓储建设机构进行深度开发。

调动社会力量参与数字人文仓储开发,构建文化行政部门提供规划、公共文化服务机构提供平台、各类社会组织协同参与的新机制。目前我国文化信息资源共享工程主要由分布在全国各地的分站点负责进行文化信息资源库建设,缺乏领域专业化人才的参与,同时缺乏对用户需求的深入了解,部分地区的文化信息资源共享工程站点资源少,访问量不够,整体绩效差。建议变革各分站点全面负责信息资源库建设的做法,改由政府推动,社会力量建设,按照项目制推动数字人文仓储开发,调动社会各界参与数字人文仓储的积极性,充分发挥高等院校、研究所等专业化机构的优势和潜力。政府文化行政部门可以对区域内的数字人文仓储开发进行规划,通过向社会招标或者对机构选题进行筛选等方式,鼓励对特定主题有长期研究积累的机构负责该领域数字人文仓储建设,以提高文化信息资源库的专业性和权威性。

构建我国数字人文仓储的评估和认证体系。参照国际组织制定的可信数字仓储审计和认证准则,制定我国数字人文仓储评估的标准体系,开展我国数字人文仓储的认证工作。发挥数字人文仓储认证体系在仓储建设当中的方向引导、内部评估和外部评价等方面的作用,引导我国数字人文仓储建设向着规范、可靠和长期服务的方向发展。 w7zSVd1bboWtCmju0vrWctupT3YxyDy8lj/s5ptcdgxkIkyHyD7rgETGCQitrkrl

点击中间区域
呼出菜单
上一章
目录
下一章
×