



无处不在的数据和计算打破了自然科学和社会科学的边界,数理科学与人文社会科学、管理科学等学科不断交叉融合,也给传统的人文社会学科开辟了新的空间。大量的书籍、报刊、图像、音乐、录像等各种资料在数字化后被提供给研究人员,数字技术和方法正逐渐成为人文学科研究的必要手段,人文知识的获取、分析、集成和展示都在不断发生变化。数字人文(digital humanities)成为新兴的一个学科和研究领域 [7] 。
数字人文的前身是人文计算(humanities computing)。人文计算研究以机器翻译研究、词典编纂研究、作者与风格研究、群体传记学研究等为特色,涉及文本编码、文本标识、数据库、量化分析等技术;这些研究均建立在文字或文字材料数据化的基础上 [8] 。人文计算的两个基本特征是“以信息技术为工具”和“以文本为主要对象(用于语言分析)” [9] 。可以认为,人文计算是一种使用计算机技术作为新工具处理人文学科文本、进而发现新知识的领域 [10] 。人文计算的提出,代表着在人文研究中运用计算机技术已经形成理论化的思考。随着技术的不断进步和实践活动的发展,人文计算也在不断地发展。自2000年以来,“数字人文”这一术语的使用频率逐渐呈现上升的趋势,不断取代了人文计算的说法,也显示出与人文计算不同的内涵与外延。要准确地解释术语的更迭并不容易,但是观察学术界对这些术语的使用也可以发现一些痕迹——人文计算界在使用“数字人文”一词时,往往是将其作为书籍和期刊标题中的一个总括性的外延,“人文计算”一词则通常被用在实际的叙述中。下面这段文字来自 Digital Humanities Quarterly 期刊的创刊号,其中谈到了数字人文的包容和开放。文中隐含着的传统即是人文计算,尽管没有明确地指出来。
数字人文在本质上是一个混合领域,跨越了学科界限,也跨越了理论与实践、技术实施与学术反思之间的传统壁垒。随着时间的推移,这个领域业已形成了自己的正统观念,形成了促进知识流动的内部联系和合作路线。二十年前还难以想象,数字问题几乎会涉及每一个领域。我们不能想当然地认为自己处于中心地位。相反,我们必须努力工作,以保持对那些可能影响我们工作和思想的领域的了解,还谈不上掌握。同时,我们需要努力解释我们的工作和想法,让我们群体以外的人看到,也许他们会觉得有用 [11] 。
数字人文开启了更加广阔的领域,被用于从整体上描述围绕信息技术和人文学术的活动和结构。一个常见的说法是,数字人文是一种总括性的术语(umbrella term),尽管人们对其所包括的内容有各自的理解,但是对其总括性有较为一致的认可。如今,数字人文的研究领域已从最初的语言学延伸到了文学、历史、艺术、图书情报、文化、哲学等诸多领域,跨学科研究已成蔚然之势,此外还呈现出了跨国家合作的趋势。数字人文在全球范围内快速发展,大量项目平台和研究成果不断涌现,项目制成为数字人文领域发展运行的主要模式——通过项目加强了跨学科领域专家学者的联动与合作 [12] 。下面这些跨学科的项目展示出丰富多样的主题,涉及历史、档案、文化、建筑、环境、地理等诸多领域。
●伦敦大学学院数字人文中心的“埃及木乃伊深度成像”(Deep Imaging Egyptian Mummy Cases)项目 [13] 致力于开展数字人文历史文化遗产保护。对于木乃伊内部可能载有古埃及文明与历史的莎草纸,探索开发一种侵入性较低的无损成像技术的可行性,使研究者无须以破坏性方式获取木乃伊内部的研究材料。该项目于2015年11月至2017年12月期间开展了一系列国际合作,测试了在木乃伊盒中发现的多层纸莎草纸进行无损成像的可行性。研究表明,目前没有一种单一的成像技术能够同时识别木乃伊盒内深处的铁和碳基油墨这两种物质。若要检测并最终读取木乃伊内部的文本,需要多模式成像方法,但这必然会受到成本、成像系统的访问以及系统和不同木乃伊外盒的便携性的限制。
●耶鲁大学数字人文实验室的“与机器人共舞”(Dancing with Robots)项目 [14] ,利用机器学习捕捉人体动作,记录丰富的数据点代表人类形态,分析并预测与风格相关的运动序列,旨在帮助和激发舞蹈艺术家们设计出更具有美学意义的新颖动作。该项目融合了机器学习、舞蹈练习和舞蹈理论、实验粒子物理学和人文学科的专业知识,为舞蹈和运动研究的多方面应用创建了开源工具。
●斯坦福大学的“潮汐之间”(Between the Tides)项目 [15] 是探讨气候变化、环境问题的数字生态项目。受全球变暖的影响,旧金山湾的海平面不断上升,随岁月变迁掩盖住大量人类和生态历史变迁的痕迹。旧金山湾区的人口增长、城市化进程加速、工业发展、污水排放等,也不可避免地带来各种自然生态环境问题。研究者们汇集大量地理、生态等方面的历史数据,借助地理信息系统(GIS)技术、数字地图等,运用空间分析法将旧金山湾随时间变化的轨迹进行可视化,并将潮汐空间中的历史层次进行叠加,分析社会和自然环境的变化关系,揭示其潜在的模式和联系。
●麻省理工学院的“德国广播艺术”(German Radio Art)项目 [16] 是文化与艺术类的数字人文项目。广播剧(Hrspiel)是德国的一种特别活跃的艺术形式,每年有80到100部由政府资助的新作品首映。这些作品往往是实验性的,包括特别谱写的音乐和混合的声音,让学生接触到新的思考故事的方式。该项目为德语高年级学生提供了丰富的录音资料、文本和网络链接,以及各类艺术流派的简介,能够丰富学习者的知识网络体系,从而不断推动该领域的艺术创作。学生可以标记、搜索和注释材料,以支持自己的研究目标和课堂演示。
●埃默里大学的“非洲身世”(The African Origins)项目 [17] 展示了被奴隶船强行带进大西洋的非洲人的移民历史。利用混合委员会国际法庭和英国海军部副法庭所释放的91 491名非洲人的个人资料,提供了有关在非洲被俘并卷入奴隶贸易的人的地理、种族和语言数据。该项目广泛征集志愿者协助查明跨大西洋贩卖奴隶的非洲人的身世。那些了解非洲语言、文化命名和种族群体的人可以帮助确定一个人名字可能的种族语言起源,从而帮助确定这些非洲人的身世。
在我国,数字人文研究虽然起步较晚,但近年来建设力度明显加强,数字人文项目以文物保护和古籍数字化方面尤为突出。
●由哈佛大学费正清中国研究中心、台湾“中央研究院”历史语言研究所、北京大学中国古代史研究中心合作构建的中国历代人物传记资料库(CBDB) [18] 用于收录中国历代名人传记、著作资料。截至2020年5月,共收录从先秦到晚清约47万人的传记资料、著作资料约4亿字,所收录的人物以唐、宋、明、清的人物传记资料最为充实。CBDB从多个维度记录人物信息,除人物的姓名、生卒年等基本信息外,还包括了相关地址、任官、亲属关系、社会关系、著述等信息。该资料库尊重历史以及古籍原貌,采用繁体字原文、简体字注释、中英文标注相结合的形式展示历史数据,支持数据的检索和可视化分析,有助于更加直观、清晰地展示人文领域中的实体和内在关联。
●由罗斯基金会资助、复旦大学主要承担的中国历史地理信息系统(CHGIS)项目 [19] 建立了中国历史时期连续变化的基础地理信息数据库,依托GIS技术表达这些基础地理信息的空间分布及随时间的变化,用于历史地理的专题信息的叠加和相互比较,为研究者提供简洁的查询工具、编制数据地图以及连接用户数据的功能。
●台湾“中央研究院”的“汉籍电子文献资料库”(汉典全文检索系统) [20] 致力于收录对中国传统人文研究具有重要价值的文献,并建立全文电子数据库。数据库内容包括经、史、子、集四部,其中以史部为主,经、子、集部为辅。若以类别相属,又可略分为宗教文献、医药文献、文学与文集、政书、类书与史料汇编等,累计收录历代典籍已达1 173种,77 246万字,内容几乎涵括了所有重要的典籍。
●由敦煌研究院与武汉大学、浙江大学等国内外高校和机构合作开展的“数字敦煌”项目 [21] 是利用数字人文技术保护敦煌历史遗产的数字化工程。该项目运用信息技术,实现敦煌莫高窟文物的永久保存、永续利用。项目具体包括虚拟现实、增强现实和交互现实三部分,通过构建敦煌瑰宝的数字化档案,打破时空限制,促进文化遗产数字化共享、文化保护和传承。
●由中国人民大学人文北京研究中心主持建设的“北京记忆”项目,旨在综合运用人文历史、艺术审美、资源管理、信息技术等多学科多领域的方法、技术与工具,构建信息时代北京的数字记忆。项目按照北京历史文化特有的结构形态,以专题为中心,通过整合文化资源的数据库建设、阐释北京文化性质的网站内容建设与传播平台搭建,从整体上呈现和沟通“老北京”的历史魅力与“新北京”的精神风貌,构建数字化的北京记忆。
现有的数字人文实践以人文问题为导向,运用各种新兴的数字技术、多媒体技术、网络技术、地理信息系统技术等,使人文研究有了更强大的活力和更广阔的发展空间。从数字人文资源的生命周期来看,数字人文资源经历了若干阶段,在不同的阶段需要运用不同的技术。在数据化阶段,主要是实现数字人文资料向数字世界的映射以及进一步转化成数据,构造数字人文的资源基础,包括对于古籍、历史手稿、乐谱等进行扫描和光学字符识别(OCR) [22] ,对古文物进行拍摄、捕捉、3D建模 [23] ,等等。在资源组织阶段,充分结合语义网相关技术,从早期的全文检索向着基于语义的数据管理和检索发展,构建本体模型对数字人文领域的知识进行统一的表达,将各种数据集以关联数据的形式发布 [24] ,为数字人文资源的共享和重用提供便利 [25] 。在资源的开发利用阶段,从早期人文计算时代的词频统计等基本的文本分析,逐渐发展到使用各种文本挖掘技术(如分类、聚类、主题建模)去理解更深层的话题、情感和事件等,使用自然语言处理技术进行中文分词、词性标注、命名实体识别、关系抽取等 [26] ,或利用新兴的自然语言生成技术自动进行诗歌创作等 [27] 。对于获得的或者提取的实体和关系还可以进一步分析,比如构建关系网络进行社会关系分析 [28,29,30] ,对于提取到的实体、事件、话题或情感等进行时序分析 [31] ,等等。同时,数字人文的“空间转向”也带动了历史地理信息分析 [32] ,推动了从多维度进行史料的挖掘。在资源的可视化阶段,利用计算机图形学和图像处理技术提供信息可视化、场景模拟和交互处理,在数字人文的研究和实践中备受瞩目。地理信息系统(GIS)技术和历史地理信息系统(HGIS)技术也在数字人文领域得到了广泛的使用,用于历史地图资料、历史地理信息的可视化,帮助研究人员理解时空变迁的历史趋势,提升把握“大历史”的能力。新兴的虚拟现实(VR)和增强现实(AR)技术被用来提供身临其境的环境体验,也常与地理信息系统技术等结合起来用在考古、文化遗产和艺术等领域进行虚拟展示。同时,在上述多个阶段中机器学习的方法和人工智能技术都有所应用,往往用于自动处理指定的任务或者进行智能赋能,为任务的高效完成和智能实现提供便利。
上述对支持数字人文研究的技术按照所应用的阶段进行了归纳和举例,这一归纳不可能是完整全面的。一方面,是因为数字人文的版图是如此之广,而且数字人文的边界也处在不断被定义、被争论的过程中;另一方面,数字人文的方法论基础和相关技术也还在随着信息技术的发展不断地革新 [33] 。
在各种新兴技术的加持下,数字人文的研究和实践如火如荼。数字人文已然成为一种新的文化开发能力体系。可以想象,随着数字人文研究的深入发展,会有更多优秀的资源不断地被开发、共享出来,对资源的分析、解释和重用的需求也会越来越强烈 [34] 。尽管数字人文领域不断推动数字资源的重用,但是,目前数字人文领域中资源的使用(和重用)的水平仍然不高 [35] 。这除了与目前数字人文发展所处的阶段有关,和数字人文资源组织松散、独立而难以被利用的状况也是不无关系。文本、图像、音频和深度标引及描述它们的元数据通常是数字人文学者的研究对象,但数字化的信息资源并未真正改变使用者利用文献的方式,数字化文献无法从“读”转变为“分析” [36] 。要使这些资源拥有更为强大的活力和价值,资源的语义化组织是关键任务。近年来已有越来越多的研究开始使用本体、关联数据等语义技术对文本化的数字人文资源进行组织和重构。对于大量的以非结构化数据的形式存在的数字人文资源,仅有语义网技术是不够的,需要进一步结合机器学习等技术抽取出知识要素,将实体和关系进行结构化的表示,实现数字人文资源的重构和高效的组织,并促成与不同来源的知识加以融合。
新兴的知识图谱技术在解决上述问题上有着重要而独特的价值,为数字人文研究带来了新的机遇。人文学者在研究过程中常需要花费大量的时间收集和整理不同层次、不同角度的人文素材,建立关联并进行分析、批判和解释,进而形成一个相对完整的知识体系。知识图谱将信息以更接近人类认知世界的形式进行表达,不仅直观地展示知识及其关联,更为机器语言认知、智能检索和大规模知识的互联提供了重要支撑。曾有学者归纳了数字人文研究的两个核心问题:如何了解到那些我们无法了解的知识;如何推测那些我们不知道的信息。这正是知识图谱的潜力所在,知识图谱可以基于现有知识进行关联、融合和推理,提供更多规律、脉络、趋势的线索,有利于人们获得新的理解和发现。曾有研究人员认为,知识图谱中的图运算和关联数据的结合将会成为数字人文领域研究的下一个热点,开启数字人文研究的新时代 [37] 。