购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

面向民国档案文件级目录基础建设问题新的思考

冯蓉

引言

档案文件级目录是历史档案馆实现档案开放、档案利用建设的重要基础,而文件级目录作为多级著录中的一级,因其较全宗、类别和案卷级目录能够更多、更细、更具体地揭示档案资料的相关信息,因此,构建文件级目录便成为档案管理基础建设中极其重要的一环。随着社会、经济、文化、科技的迅猛发展,为提高档案的利用率和利用效能,数字档案馆、智慧档案馆已成为摆在档案馆面前的现实目标和历史使命。《全国档案事业发展“十二五”规划》提出“实施开放档案信息资源共享服务工程项目,打造一站式档案信息资源共享和服务平台,为社会提供全方位的档案信息服务”的目标;《全国档案事业发展“十三五”规划纲要》则把档案信息化作为档案管理现代化的核心内容 。而要实现这一目标,除应具备整理收藏良好的原始档案资料及其数字化档案,以及数字化网络管理体系外,一个功能强大、覆盖面宽、查询便捷的目录检索系统是档案开放利用过程中必不可少的重要保障和手段。进入21世纪以来,随着民国档案数字化建设工作在全国各级档案馆如火如荼地展开,民国档案目录也已开始进入文件级建设阶段,全国各级档案馆全面开展以民国档案文件级目录基础建设为主要内容的国家重点档案保护与开发工作。

但目前涉及档案目录建设还存在许多问题,第一,历史档案著录客体,即原有档案整理不到位,不同历史时期档案著录要求不尽相同、著录内容不全、不准的情况比较普遍 。如第二历史档案馆馆藏档案卷内文件混杂,无固定秩序,馆藏总量近95%未编卷内文件页码,部分卷宗内容与标题不一致,特殊档案未作标识等。 第二,历史档案内容辨识理解困难,因此,著录主体既要具有古代公文知识和历史人文知识,同时还要具备较强的语言概括能力, 然而,一方面,历史档案局馆专业人才不足,这首先表现在数量不足, 其次是专业化程度较低; 另一方面,档案中介服务机构缺乏专业人才,一是其本身人才储备不足,二是尚无从业人员资格制度,使得从业人员的整体水平难以满足档案业务外包专业化、信息化的实际需求。 第三,现有著录标准严重滞后,适用范围狭窄、不能实现档案的全程著录和层级著录。目前的档案著录规则只是对文件级、文件组合级、案卷级、案卷组合级进行描述,没有全宗级和类别级著录,只见树木(案卷与文件)不见森林(全宗与类别); 各地标准不统一,导致目录数据不能共享;著录深度不一致,如第二历史档案馆、辽宁省档案馆的历史档案数字化项目著录到案卷级别,湖南省档案馆对民国档案著录以文件级别为单元,西藏自治区档案馆则按档案著录规则以人工录入全文等。 第四,档案著录是一项脑力劳动和体力劳动相结合的工作,著录环境对著录工作的影响很大,客观上会导致著录人员不能长时期连续工作,造成人员的不稳定 。这一系列问题均亟待解决或采取相应的补偿措施。

一、民国档案文件级目录基础建设内涵

从传统的档案管理思路看来,档案目录制作一般都是建立在手工基础之上,它是对实体档案在全宗内进行分类、组卷,之后加入档号和案卷标题将其顺序和所含信息固定下来,形成所谓的案卷级簿式目录,是手工实体档案整理环节的最终成果。

手工纸质目录如同大账本,对于多角度档案信息自由组合而言,灵活度较小,难以快速适应社会的多种需求,因此,20世纪90年代,随着计算机技术的普及,民国档案案卷级目录数字化应运而生并已基本完成,实现了从传统的手工目录制作向电子目录制作的转换。历经20多年,现已建成全国民国档案案卷级目录数据库。

案卷级目录数据库在揭示民国档案信息方面,充分展现出其宏观性、集成性、完整性、明确性和概括性等特征;在检索查询方面,能够使查阅者较快地定位直达目标;而另一方面,案卷级目录也显示出其粗放、笼统、模糊的特点,因此,单纯依赖于案卷级目录数据库的检索已越来越不能满足用户对于细节性检索的要求。

文件级档案目录其最显著、同时也是最具吸引力的特征,就是它能够更加准确、细致、详尽、全方位地揭示档案的各项信息内容。随着数字化、信息化、网络化等现代科技手段的不断发展与成熟,在系统思想指导下的民国档案文件级目录管理体系的构建已是势在必行,这是时代发展所赋予的使命,是社会需求所给予的动力,是现代技术所提供的机遇,也是档案事业所展现的方向。

档案文件从归档到成为正式档案的整个流程决定了档案著录的质量。 因此,档案数字化建设工作主要应包含三个阶段:第一阶段——档案数字化体系构建阶段,致力于形成数字化档案数据库暨相应的多层级数字化目录著录体系,包括制定相应的标准、规则、操作规范等;第二阶段——档案全文数字化阶段,将档案原文经扫描制作成数字图像格式,并按标准和规则进行多层级数字化目录著录;第三阶段——数字化档案专题数据提取阶段,提取数字化档案中的各类专题信息数据,并按要求归类,形成可按各类专题检索的文件级目录数据库。

随着数字化进程的不断深入,当前,民国档案数字化第一阶段已基本完成,第二阶段档案数字化工作也已大体完成,目录系统除全宗级和类别级目录尚未建立外,文件级目录基础建设工作正进入攻坚阶段。民国档案的第三阶段目前尚处于待规划状态,未来将在第二阶段工作全部或大部分完成后列入实施计划。

多层级著录可以多维、立体、完整地展现档案的特征信息,在揭示其内容和形式的同时,还能揭示档案之间的关联性和有机联系。 其理论基础来源于1992年在西班牙召开的第十二届国际档案大会上确立的现代档案著录的“马德里原则”(即来源原则、尊重全宗原则、反映管理级次原则)。 完成数字化档案建设三阶段后,将使民国档案多层级目录之间形成树型结构关系,各层级之间的有效链接将解决它们的联系问题,为用户直观判断检索结果是否符合检索需求提供依据,同时为用户对其他关联信息的发现创造条件,为进一步扩检、缩检、改检提供了可能 。对于文件级著录而言,这里所说的多层级链接指文件级目录题名对上可链接所属案卷题名,对下则直接链接所对应的全文数字化扫描档案,如此增加了档案信息可供检索到的字段,为检索工具和检索系统增加了检索点,提升了检索服务的体验和对档案资源的控制能力,对档案资源的管理提供了清晰的逻辑思路

笔者曾在撰文中将文件级目录和案卷级目录间的关系问题作为难点提出:二者就如同“母与子”的关系,文件级以一个或多个题名从母体案卷中分离出来,各自以独立的内容信息存在于数据库中,有的可以直接表达案卷的主题,但多数可能是以组成一个案卷不同要素、不同方面的状态出现,各自又呈现出其自身的主题,这就产生一个问题,即那些脱离了母体主题的个体,如何才能继承和反映母体所反映的主题呢?如果放任其天马行空,极有可能出现如断线风筝一般而失落原有主题,甚至文件本身的题名也有可能会在大数据库系统中显得无足轻重。在此情况下,这根放飞的风筝线就显得尤为重要,如何使它们彼此接上关系呢?其相互作用和相互影响会以什么样的状态出现才比较合理呢?总之,正确处理好案卷级和文件级这一对“母子”关系,可以增加并丰富数据库信息量,反之,看似强大的文件级数据库有可能由于诸多子信息的游离,而造成极大的浪费

数字化后的民国档案使各层级上下、左右的链接成为可能,链接就如同风筝线一般,牢牢牵住主题信息,从而很自然地就解决了这对“母子”难题。

多层级链接,不仅可以较好地维系良好“母子关系”,而且,对文件级著录时的缺项问题,诸如机构、时间、责任者等著录项亦大致能得到较好地解决。因为在文件级著录过程中,常常会碰到某份文件的确找寻不到时间项,也没有责任者项,更甚者不知所云等,但是,它在所属案卷的范围内,至少可以通过相邻文件前后联系以及逻辑关系来做出参照和判断,从而得出结论,不至于造成信息因为脱离母体,造成信息缺失或不够完整,使其犹如一个断线的风筝,盲目放飞,造成信息浪费。事实上,文件级目录向上链接所属案卷级目录题名,向下链接自身数字化扫描档案,不仅有利于用户查询,也是档案工作者所期望得到的结果。

多层级链接使民国档案主题信息无论是内涵还是外延均得以充分展示,克服了仅仅单纯依靠单一层级检索所产生的不足,形成既见树木,又见森林的全面、立体的状态。

二、民国档案文件级目录基础建设原则

“全国民国档案目录中心”经过几十年的努力和建设实践,已形成初具规模的民国档案目录体系:①全宗级目录采集1400条,已由全国民国档案目录中心汇集编成《全宗通览》(十册),于2006年由档案出版社公开出版,该汇集完整地介绍了全国各级档案馆保存的民国档案大致所包含的主体内容、形成的大致时间以及总体数量,从顶层对全国民国档案进行了总体宏观概述;②案卷级目录采集了涉及1 000多万卷档案的目录数据,建成了具有一定规模的案卷级目录数据库,在揭示民国档案信息方面,充分显示出了系统性、集成性、完整性、明确性和概括性等特征,在检索查询方面,能够使查阅者较快速地直达目标。

那么,在接下来的文件级目录数据采集和文件级目录数据库建设中,预计数据量将可达万亿级,面对如此海量的数据,应采取何种方式、何种算法、何种操作模式来面对呢?文件级和案卷级目录建设虽然说都具有各自的特点和优势,不可互相替代,但除数据量大小差异较大外,基础建设的流程和方法大同小异,案卷级目录建设中的实践经验可否为文件级目录基础建设所借鉴或提供模板呢?

(一)问题导向与科学性

在进行民国档案案卷级目录采集、制作和数据库建立的过程中,案卷级目录规则中须著录项要求有多达几十项,而最终实际进入总库的必要著录项仅十几项。

1.问题导向

(1)著录项多少合适?是否越多越好?著录项过多会带来什么问题?

(2)是否有必要再对文件级著录进行人为拆分和设置路径?

2.科学性

(1)最少著录项原则——即以所选择的著录项能够完全覆盖某档案所包含的全部信息时所具有的著录项数量原则。

事实上,著录项多与少的设置应当取决于所指向档案的信息量和信息类别的多寡,例如,设置多著录项的目的是为了在多种信息类别中实现多路径检索,因此,只要所选取的著录项足以满足覆盖该档案的所有信息,那么这时的著录项数量就是最合适的,既不会因著录项过多导致管理复杂和资源浪费,也不会因著录项过少而无法全面反映和揭示档案的所有信息。

(2)最短路径(或著录项指向唯一性)原则——即所选某著录项到达相应档案某信息类别的检索路径为最短的原则,或该著录项唯一指向相应档案某一信息类别的原则。

由于文件级著录已是多级著录的最底层单元,指向性已可谓非常明确,有时甚至是唯一指向,此时,对于著录项与档案信息为同一类别的简单检索来说,该著录项所指向的档案信息就是最短检索路径,即最佳检索路径;当所需要检索的档案信息与著录项之间为非同一类别时,这里就存在一个路径规划或路径算法的问题,即以什么样的路径进行检索能够实现最短路径或指向唯一性,若经路径规划或路径算法所得到的路径解为最短路径或指向唯一,那么该路径即为最优检索路径。

(二)遵从客观与精准性

在民国档案文件级目录建设各个环节上,始终坚持客观思维,客观的表述越多,客观的表述越精准,越能还原历史的本来面目。

1.著录项客观性原则

(1)客观设置著录项。

在著录项设置上,尽量设置带有客观性的项目,例如档案馆代码、档案馆名称、全宗名称、档号、时间、页数等。

(2)客观选择著录题名。

著录题名要客观。因为,题名拟写带有较强的主观性,“一千个人就有一千个哈姆雷特”,所以,在题名拟写过程中应始终保持客观的思维,以使文件题名更为精准。

2.源头预清理原则

目前,在案卷级数据库中依然存在一些主题信息不够明确,比如题名为“霉卷”“空卷”“空白”等等,毫无利用价值。同样,在文件级著录时也会遇到诸如此类的情况,与其让这些先天不良的、带有硬伤的题名混入数据库,不如在著录题名这道关口便将其拒之门外,使数据库源头保持清洁。

(三)准确优先与合理性

在进行民国档案文件级目录制作、采集和数据库建立的过程中,文件题名是重中之重,题名质量对其余各环节有着极其重要的影响。

1.题名准确原则

在数据采集和著录项制作中,高标准、高质量的理想文件级题名要求达到主题单一、内容明确、“责任者、事件、文种”三要素齐备完整独立。其中最为关键之处就在于突出内容的主题一,个好的题名能够用最少的文字,最准确、最完整地表达和传递出原有文件的核心内容。同时一个完整的题名,能将责任者、时间、文种以及政权、人名、地名、机构名等著录信息全部涵盖在其中。

2.题名优先原则

题名拟写是档案目录中最重要的信息内容,它不仅要能够直接揭示出卷内文件的主题内容和形式特征,而且还要能够大体反映出档案的自身价值。

3.题名至上原则

档案建设与管理过程中,质量检查始终会贯穿整个过程,而在各级质量检查中,“对与错”“好与坏”,其最终焦点都将集中于文件题名;另一方面,从利用者的角度来看,文件题名才是他们真正最感兴趣和最关注的内容。因此,文件题名是整个文件级目录基础建设中的灵魂和主线,是所有内容中最重要的环节,始终保持题名至上的思维,遵从题名至上原则,才能使文件级目录建设不至于偏离跑道。

三、民国档案文件级目录基础建设方法

在档案全文数字化基础上,实现对文件级目录实施著录,进而建立民国档案文件级目录数据库是各馆的一个工作方向。“十三五”时期将全面开展对于重点档案的保护与开发工作,民国档案文件级目录基础体系建设作为这其中的重要内容之一也已提上议事日程,目前全国民国档案目录中心首批接收文件级目录数据将近1 900万条,新增文件级目录数据既有喜也有忧,喜在数字化第二阶段成果的高速度、高效率,忧在问题多多,如何在起步阶段,抓住“开头难”,努力做到成功的一半,方法很重要。

(一)工具软件与程序的开发

充分发挥现代计算机技术及其工具的作用,开发适用于文件级目录建设的小型应用软件或工具程序,配合《民国档案文件级著录规则》的有效执行。

(1)目前全国民国档案目录中心已制作出《民国档案文件级目录采集工具》,对接收的海量数据实行形式审查,这相当于是为文件级目录数据库安装的第一扇检测门,把不能满足数据库结构需要,即在形式上不规范的数据直接拦挡在大门之外,从而快速方便地解决人工短期内无法完成的任务,降低审查人员的劳动强度。

(2)一个设计精良的“著录软件”也是值得设计开发的。通过将著录工作中普遍、经常会遇到的带有共性的问题,进行归纳、提炼和总结,并细化至字段;将有关标准、规则、规范中的规定项直接嵌入软件中,使操作者仅以少量的手工输入,多数通过菜单勾选来完成著录项设置、著录项选择、著录项题名等操作。

(3)其他支撑软件程序也可考虑,诸如:历史知识、政权机构、著名人物、档案馆代码、伪政权机构等,可以工具书或软件的形式制作查询工具,以辅助著录工作。

(二)人员培训与人才库建设

1.人员培训

题名的著录不仅仅体现制作者的水平,更能够反映制作者的态度,且往往更为重要。从全国民国档案目录中心首批接收的数据抽查结果来看,若认真对待题名,基本都不会出现大问题,因此,问题便归结为一,方面,加强培训、提高责任心,严格抓好著录质量管理,把好质检关,减少或避免终审不合格;另一方面,加强后备梯队的培育,重点培养年轻人,才能保证这项事业后继有人、持续发展。其中,不仅要从思想上、业务上进行培养,还要注重队伍结构的合理配置,因为未来的档案工作需要多学科、多层次结构来支撑:数据专家、程序员、社会工作者、业务协作者、历史学家、教育家、作者、学术人员、社会服务者、保管员、项目经理 等等。

2.建立专业人才库

将具有整理著录方面经验的专业人才信息集中储备,建立人才库,根据需要可在人才库中抽调派遣人员赴处于起步阶段的基层档案馆进行岗前培训,或现场指导,使基层工作人员能够达到上岗要求,尽快走上岗位。同时,也为质量终审储备人才。

(三)专题研讨与交流平台搭建

定期召开阶段性专题研讨会很有必要,无论是在业务或管理层面都会产生许多新的理念、新的认识、新的模式、新的方法,为各档案馆局之间相互学习、取长补短提供一个良好的平台。例如,在2017年全国民国档案目录中心主办的哈尔滨研讨会上,与会者踊跃发言,对文件级目录基础建设提出了许多值得推广的好办法,如在目录著录制作方面,各馆分别采取聘请高校教授、博士生、专门学者、档案界离退休人员、招收大学生等办法,有针对性地解决顶层规划、操作管理、执行者等不同层面所存在的问题;许多馆还通过各种渠道争取地方的配套资金,保障目录建设工作能够持续、稳定、健康地得到推进。

四、结语

档案文件级目录基础建设是多层级档案著录中与档案本身最为贴近的层级,它是历史档案馆迈向数字档案馆、智慧档案馆绕不过去的一道坎,因此,文件级目录建设自然而然成为档案管理基础建设的重点。这一建设过程中所面对的问题很多,有历史档案著录客体本身的问题,有历史档案内容辨识的问题,有现行著录标准本身缺陷的问题,有档案著录环境的问题等。本文首先对民国档案文件级目录基础建设内涵的认识进行了讨论,指出档案数字化工作应包含三个阶段,即档案数字化体系构建阶段、档案全文数字化阶段、数字化档案专题数据提取阶段,此外,阐述了文件级目录与案卷级目录之间的关系问题及其相应的解决措施,以及多层级目录的链接关系与优势。本文进一步提出了民国档案文件级目录基础建设中,基于问题导向与科学性、遵从客观与精准性、准确优先与合理性三个方面的诸项原则,即基于问题导向与科学性的“最少著录项原则”和“最短路径(或著录项指向唯一性)原则”,基于遵从客观与精准性的“著录项客观性原则”和“源头预清理原则”,以及基于准确优先与合理性的“题名准确原则”“题名优先原则”和“题名至上原则”,为民国档案文件级目录基础建设提供参考。最后,本文从工具软件与程序的开发、人员培训与人才库建设、专题研讨与交流平台搭建等三方面对民国档案文件级目录基础建设方法提出了相关建议。

(2018年全国档案工作者年会获奖论文) CUWQjzkGA3cq3ccsM0LU18gF8OFA5BipjJ3gfnzql8AZ2uzhhTnzGpOrT29+RS7w

点击中间区域
呼出菜单
上一章
目录
下一章
×