



史学研究中最强调的是如何获取与处理史料,将史料数字化应当是数字人文研究的第一步。中国史学迄今在数字典藏方面取得的成绩非常突出,1990年代中期以后,台湾“中研院”、台湾大学等机构开始对原始史籍进行扫描和识读,使其成为可检索的文本,“瀚典”等资料库曾对海峡两岸的史学工作者产生了巨大影响。20世纪末以后,中国大陆的数字典藏工作进展迅速,标志性事件是1999年由上海世纪出版集团、上海人民出版社、香港迪志文化出版有限公司合作推出《文渊阁四库全书》电子版,实现了对文渊阁《四库全书》的OCR识别与全文检索。该产品一经推出,即引起学界的广泛关注,饶宗颐先生特意强调了《四库全书》电子版对于中国文化普及的深远意义,
图书馆界则看到了传统文化信息资源数字化建设的突破性进展及其示范意义。
进入新世纪以来,中国史学的数字典藏发展尤其迅速,其中一个非常显著的特点是商业公司以其技术和资金优势介入,迅速推出一些规模很大的史学数据库,如“爱如生”中国基本古籍库、中国方志库等。经过多年努力,大体而言,历史学特别是中国史的基础设施已大体搭建起来,成为史学研究无法绕开的基本工具。有学者预计,全部史学文本的数字化可能在不久的将来就得以实现。不过伴随着数字典藏的发展,一些问题日益显露,特别是未来发展方向的歧路开始出现。
第一,数字典藏应当走商业化还是公益化的道路。最近数十年间,公益化和商业化两种路径在同步发展。一方面,商业公司推出了系列大型史学数据库,以其先发优势与规模效应占领了海内外市场,且优势日益巩固,数据库的价格也日益高昂,由此引发巨大争议。另一方面,一些公藏单位的数字史料公益化推进也非常迅速,与2000年前后已不可同日而语,如中国国家图书馆的开放资源、中国社科院近代史所的抗日战争与近代中日关系文献数据平台,无论是规模还是质量,都达到了相当高的水准;一些地方文献收藏与利用单位借助于各类数字资源建设项目也开发并共享了规模不等的数字史学资料。但总体而言,商业运营的数据库占了绝大多数,这与海外数字典藏以公益为主、商业为辅的发展路径截然不同,但凡在世界各地网络上寻求过数字资源的研究同仁大概都深有体会。
公益化或商业化的道路各有利弊。公益化受到学界的欢迎,但免费的午餐未必是最好的选择,公益性数据资源如何获得可持续的资金、人力投入和后续运营维护仍然是一个很难解决的问题。对于一些国家级文化机构来说,推进馆藏文献的数字化共享也许还可以实现,但对于一般性的公立机构而言,如何增强其对馆藏文献的分享意愿,并持续地更新与维护,是公益化亟待解决的问题,也许我们不能只是从道德层面予以批评,同样也要考虑他们在资金、技术和人力上的现实困境。商业化有资金、技术和人才保障,效率也很高,但归根到底商业行为要符合商业逻辑,盈利是其最重要目的之一,与学术研究的公益性多少存在一些冲突。在史学这一相对小众的数字典藏建设上,如何实现公益化的终极目标,同时借用好商业化的手段,仍然需要探索并找到平衡点。
第二,宏观而看,数据库的建设缺乏长远规划和协调。中国大陆数据库建设依赖于项目支撑和各类“工程”“计划”引导,往往须在短期内见到成效,这与数据库建设所需要的较长周期和人力、资金的持续投入存在明显冲突。国内数据库数量不能说少,但真正高质量的却不多,得到学术界广泛引用、对相关学术领域有重大推进的数据集更可谓凤毛麟角。某些主题的数据库建设还存在一哄而上的情况,重复建设时有发生,如近代报刊和地方志数据库,由于不涉及太复杂的版权问题,而成为各商业类数据库重点瞄准的对象,重复收录的现象比较突出。如果不在数据库建设的开始阶段进行长远规划,最终将带来资源的极大浪费。更为恶劣的是,极个别数据库将国外免费公开的数据资源下载后制作成数据集,但又不交代数据出处,转而进行商业开发与销售。一些学者盼望由国家或公立机构出面进行整体规划、统一建设,但所需费用至少几十亿,短期内恐怕还很难实现。当下仍然应当以市场化的方式看待重复建设的问题,即唯有真正满足研究需求的数字典藏产品才能够在激烈的市场竞争中存活下去,这也考验着数字典藏提供商的眼光,需要其深入学术界内部,洞悉学术界的真正需求。
第三,从信息共享角度而言,国内尚普遍缺少资源共享的自觉意识。不少极其宝贵的史料,国内各典藏机构视作珍宝,不愿公开,当然就更无将其制作成数据库的意愿;即使勉强同意进行数字化开发,也多当作获取经济资源的一张王牌,以之要求大量资金的投入,几乎是在被动地“推着走”。不少数据库的开发只是供单一机构或者某个课题组使用,不愿公开发布。而公开的数据库又大多比较粗糙,缺乏稳定的数字化质量标准,与日本、美国等国家的数据质量差距十分明显。凡是经常使用数据库资源的学术界同行,都能直观而清醒地认识到国内与海外数据库建设的巨大差别不仅在技术层面,还在理念和责任心方面。
第四,数据库建设缺乏稳定的、专项的资金投入。目前,世界各国都在加强大数据的开发与研制,未来世界的竞争一定程度上是数据、信息的竞争,史学领域一样如此。因此,加强对数据库开发的支持力量,迎头赶上国外先进的同行,是学界一项急迫的任务和责任。目前,国家自然科学基金和社会科学基金对数据库相关项目给予了一定的支持,但力度还不太大。尤其是社会科学基金资金投入规模和经费使用上的限制,影响了大规模人文社会科学数据库的开发进程,这一进程已远远超过了以往印象中的一个人、一批书籍的作坊式单打独斗的学术生产,需要大规模资金和技术的持续投入与团队协作。
第五,数据库的数据质量需要标准化控制。传统的书籍出版有着严格的评审、校对等流程,已形成业内公认的规范,尽管不免有鱼龙混杂之作,但总体质量是可以得到保证的。数字时代的一个特点是可以形成便利的纠错机制,不少学者将其视作较传统出版物的优越之处。不过,可能是由于上述心理的影响,目前多数数据库的数据质量并不尽如人意,真正利用数据库作出的示范性研究还为数甚少,而且那些高质量的、得到学术界认可的数据库往往是在已经做了大量基础性工作、出版了高质量纸质文献的领域建成的。这将影响学术界对数据库使用和量化方法运用的信心。在笔者看来,无论是数据库,还是传统的工具书,对数据质量的要求应该是相同的。