随着网络、数字出版等技术的进步,阅读终端的飞速发展,使文档阅读的需求发生了巨大的变化,要求文档能够面向多样化、普及化的终端,既有版式的清晰性和条理性,也要具备流式的内容可变性,并能够自适应终端屏幕大小。结构化文档融合了流式和版式描述信息,面向多样化的阅读、显示需求,已经逐步成为互联网信息传播的重要载体。针对结构化文档格式的研究一直是文档描述的重点。一个文档可以采用层次化组织的物理和逻辑结构进行描述,物理结构反映文档的布局,逻辑结构反映文档的组织。文档的物理结构和逻辑结构的整体构成了文档模型 [1] 。
访问控制最初面向大型机资源共享的需求,传统的访问控制研究经历了自主访问控制、强制访问控制、基于角色的访问控制等模型。为了适应分布式网络环境的特点,出现了基于任务的访问控制、面向分布式和跨域的访问控制、与时空相关的访问控制等模型。云计算、移动计算等的出现,使得访问控制的研究向细粒度、多要素的方向发展,基于属性的访问控制、基于行为的访问控制等模型相继出现。目前,如何针对网络环境下信息的传输进行对象化、细粒度的访问控制,满足用户个性化需求的同时,保证信息资源合理、合法使用成为了访问控制研究面临的新挑战。
多级安全 [2] 主要关注信息的分级管理和访问授权,保证不同安全级别的信息只能被享有相应权限的用户访问,BLP [3] 、Biba [4] 等模型通过实施严格的强制访问控制策略,在一定程度上保护了信息的机密性和完整性。
目前,泛在网络环境下的信息多以结构化文档的方式进行交互和传播,而且随着在线交互设备的多样化,结构化文档的访问控制及安全属性描述已经逐渐走向对象级、细粒度,即文档包含子文档,子文档包含对象,客体的访问控制以对象为单位。现有的结构化文档描述模型中缺少针对访问控制和多级安全的支持,导致在多级安全环境下,结构化文档的机密性、完整性受到威胁,基于结构化文档的访问控制不能迎合多级安全的需求。因此本文提出一种面向多级安全的结构化文档描述模型,能够保证文档流式和版式信息完备,并解决结构化文档在日趋复杂的网络环境下机密性、完整性、访问控制等问题。
结构化文档同时描述了文档的版式信息和流式信息,能够更好地适用于自适应显示。在众多的结构化文档描述模型中,PDF、XPS和CEBX较为成熟。其中,Adobe推出的PDF 1.3规范引入了logical structure,PDF 1.4规范引入了tagged PDF来完善流式信息的表达;其后又将XML引入,用于对MARS文档格式中信息进行结构化的描述。李宁等人针对“标文通”与Tagged PDF的信息交换进行了实验,为减少办公文档的跑版问题提供了积极的借鉴意义 [5] 。微软公司也在其固定版式文件XPS(XML paper specification)中采用类似的方式对逻辑结构信息进行了兼容 [6] ,但是以上研究并没有完全解决信息数据的结构化问题。Bloechle等人基于Dori模型开展了一系列的研究工作,于2006年提出了XCDF [7] 格式,XCDF文档与Tagged PDF相比,版式信息与流式信息的结合更为紧密合理,并且采用了XML来描述相关信息,使得其构造、使用更为方便,基于上述研究,文献[8]提出了一种从已有固定版式文档中重新构造文档逻辑结构的方法——Dolores。为了缩小文档体积、便于使用,Bloechle对XCDF格式进行了优化 [9] 。
北大方正公司2005年在原来CEB版式结构文档的基础上启动了CEBX计划,并吸收Tagged-PDF、MARS流式特征,推出了CEBX 1.1版本,能够较好地解决版式和流式文档的融合问题,并分别针对移动设备和文档存储,提出了CEBX 1.2-M和CEBX 1.2-A版本。CEBX采用了打包的形式,将文档整体描述、安全描述、版式信息、流式信息以及资源和物理层信息进行整合。CEBX添加了文档整体安全描述 [10] ,能够实现整个文档及其包含文件的加密、签名以及整体使用权限的定义,并且支持DRM解决方案,初步解决了结构化文档在网络传输和使用过程中的机密性、完整性等问题。
但是,随着分布式计算、移动计算、云计算以及泛在计算的出现,网络环境日趋复杂,如何对结构化文档进行多级安全管理,并满足用户随时、随地访问结构化文档的控制需求,成为结构化文档描述的未来的研究方向。
针对上述结构化文档在泛在网络环境中面临的访问控制和多级安全管理问题,本文将基于CEBX等结构化文档描述方法,提出一种如图1所示的新型结构化文档描述模型。该模型分为2个层次,第1层包含了文档入口、文档安全属性描述、文档根节点、页面信息、文档逻辑结构描述、文档样式结构描述。其中,文档入口描述了文档的安全属性、基础信息、文档根节点等内容及其相互关联关系;文档安全属性描述了对文档信息进行加密和签名所使用的算法、密钥以及初始向量等信息;文档根节点的定义主要用于实现文档的嵌套和包含,描述了文档及其子文档之间的逻辑关系,子文档同样包含了文档入口、安全属性描述等信息;文档逻辑结构描述与文档样式结构描述对文档的元素组织形式、显示方式进行了描述,包含了文档章、节等的组织结构和样式表等信息;页面信息描述了页面的逻辑组成、关联关系、数量等信息。为了进一步描述结构化文档所包含资源及其物理数据,定义了模型的第2个层次,包含页面,每个页面由资源目录、资源描述和物理数据组成。资源是对一组图元或其他数据描述的集合。在页面中出现的图元、使用的数据或者结构都保存在资源中,在需要使用时从相应的资源中读取。一个文档可以包含一个或多个资源。
在图1所示的结构化文档模型中,文档逻辑结构描述、文档样式结构描述需要在网络传输和使用中保证其完整性,从而保证文件格式和版式的正常显示。并且需要保证文档所包含资源的合法使用,因此需要结合目前网络环境的多样性和用户访问个性化的需求,为资源描述添加安全属性描述,包含该资源的域安全属性、时态属性、环境属性,为了能够满足多级安全管理的需求,为安全属性描述添加了安全级别和访问范畴的定义。
文档逻辑结构和样式结构描述的完整性标识保证了结构化文档在网络传输过程中文档格式、显示形式等描述的完整、不可篡改;资源安全属性描述的添加能够为用户提供在任意时间、任意地点对任意资源合法访问的控制以及满足资源多级管理的需求。
安全属性描述包含了文档整体的安全属性描述、针对逻辑结构描述和样式结构描述的完整性标识以及针对资源访问控制和多级安全管理的环境、时态、安全等级、访问范畴和域安全属性的描述。综合各类不同安全属性描述的特点,为图1中的描述模型添加安全属性描述定义,说明如图2和表1所示。
图1 泛在网络环境下结构化文档描述模型
访问控制标签(access control label)主要包含了权限描述、权限对象、用户信息、管理员信息、域安全属性、时态属性、环境属性、安全级别和访问范畴。其中,权限定义了Read、Write、Create、Modify 4类,并且可以依据需要将其具体化,例如:针对多媒体文件,可以定义为View(查看)、Play(播放)等。为了保证权限信息的完整性,为该项内容定义了签名标签。为了支持对结构化文档跨域流通时的控制,定义了域安全属性,主要描述在传播过程中所经由域的约束信息。时态、环境属性的定义用于对用户访问进行控制,结合基于行为的访问控制模型 [11] ,时态和环境属性分别标识了可以对文档及其对象进行访问的时间区段和环境要求。安全等级和访问范畴的定义为多级安全管理提供支持,安全级别标识了能够访问该文档或者资源对象主体的最低安全级别,访问范畴则标识了访问主体所处的组信息,例如:部门、系部等。
图2 安全属性描述结构定义
签名标签的定义主要用于保证文档及其相关信息的完整性,该标签中定义了签名所使用的算法、签名的有效期以及签名生成的数据即完整性标识信息,如图3所示。其中,ID为数字签名的唯一标识,TimeStamp为时间戳,用于记录签名时间和数字签名的有效期。由于结构化文档描述文件包含信息较多,在进行数字签名前,需要生成摘要数据。Digest Method和Digest Value分别表示了摘要算法和摘要数据。SignatureMethod和SignatureValue分别对应签名算法和签名数据。CertificationType和CertificationData分别描述用于验证签名的证书类型和证书数据。在网络数据的传输过程中,接收方将依据接收到文档的Signature中摘要算法、签名算法、证书数据中的公钥信息生成验签数据,并与摘要数据对比以确认结构化文档该部分信息的完整性。
用户可以根据需求的不同而选取不同的字段,针对文档逻辑结构描述和样式结构描述需要选取Signature标签;针对资源的安全属性描述则需要选取访问控制标签,Signature标签可以按照需要取舍。
表1 安全属性描述标签说明
图3 Signature描述结构定义
为了进一步说明图1所示模型以及图2、图3所描述结构的使用方法,本节将给出一个针对性的实例。定义结构化文档的逻辑结构和样式结构描述的完整性标签,采用MD5算法计算消息摘要,RSA算法生成签名,证书采用X.509格式,签名生成时间为当前系统时间。对应的安全属性描述文件Security_1.xml如下。
针对该结构化文档的访问控制需求,例如,该文档的访问时间是上午8点到下午5点,地点为公司内部,可以被安全级别3及以上级别部门A的人员进行修改操作。Domain标签将记录该文档在跨域传递过程中经由安全域的信息,如ID、网络位置等内容。具体描述文件Security_2.xml如下。
结构化文档安全属性描述模型为结构化文档、子文档及其对象定义了安全属性标签,包含了完整性标记,能够保证逻辑结构描述、样式结构描述以及资源和数据在网络传输过程中的完整性和不可篡改性。
该模型支持为文档及其描述文件和资源的加密,可以定义对应的加解密算法、工作模式、密钥以及初始化向量。能够保证在文档传输和使用过程中,数据信息的机密性。
安全属性描述中包含域属性、时态、环境属性,为用户描述访问时所处的物理环境、软硬件平台、时间状态等信息,并对结构化文档进行对象级的环境、时态约束。文档管理系统通过定义用户与结构化文档,添加主客体环境、时态标签,实现结构化文档的多要素访问控制,进一步适用于分布式计算、云计算、泛在计算等复杂网络环境。
安全属性描述中包含的安全级别和访问范畴能够约束主客体的安全级别及所属范围,针对不同的安全级别设置不同的访问规则及其操作类型,从而对结构化文档实现多级安全管理。
分布式计算、移动计算、云计算以及泛在计算的出现推动了信息化社会的发展,结构化文档作为一种融合了版式和流式信息的表现形式,在网络信息的传播中扮演了重要的角色。但是,网络环境的复杂特性为结构化文档的访问控制带来了新的挑战,不同的网络环境、物理位置、用户角色、时间状态等使得传统的访问控制方式不能够适用于多样化环境下的结构化文档管理。而且,多级安全的出现使得结构化文档的描述日趋复杂。因此,需要一种结合多种访问要素、具有多级安全特征的结构化文档描述方法。本文通过对传统结构化文档描述模型的研究,结合访问控制和多级安全需求,提出了一种面向多级安全的结构化文档描述模型定义和描述方法,定义了安全属性的描述结构,并给出了相应的XML描述实例。该模型能够解决结构化文档在网络跨域流转过程中逻辑结构描述、样式结构描述以及资源数据的完整性和机密性问题,保证结构化文档的合理、合法使用。
[1]KLINK S,DENGEL A,KIENINGER T.Document structure analysis based on layout and textual features[A].Proceedings of the 4th IAPR InternationalWorkshop on Document Analysis Systems[C].Rio de Ja-neiro,Brazil.2000.99-111.
[2]The future ofmulti-level secure(MLS)information systems[EB/OL].http://csrc.nist.gov/nissc/1998/proceedings/panelF3.pdf,1998.
[3]BELL D E.Looking Back at the Bell-LaPadulamodel[A].Proceedings of the 21st Conference On Annual Computer Security Applications[C].Washington,DC,USA,200.337-351.
[4]BIBA K J.Integrity Considerations for Secure Computer Systems[R].MTR-3153,The Mitre Corporation,1977,04.
[5]李宁,田英爱,侯霞,等.办公文档与固定版式文档格式关系探讨[J].电子学报,2008,36(B12):128-132.LIN,TIAN A Y,HOU X, et al .A discussion on relationship between revisable and non-revisable document formats[J].Acta Electronica Sinica,2008,36(B12):128-132.
[6]Microsoft Corporation.XPSSpecification and Reference Guide[S].2010,06,30.
[7]BLOECHLE JL,RIGAMONTIM,HADJAR K ,et al .Xcdf:a canonical and structured document format[A].Proceedings of the 7th InternationalWorkshop on Document Analysis Systems[C].Nelson,New Zealand,2006.141-152.
[8]BLOECHLE JL,PUGIN C,INGOLD R.Dolores:an interactive and class-free approach for document logical restructuring[A].Proceedings of the 8th InternationalWorkshop on Document Analysis Systems[C].Nara,Japan,2008.644-652.
[9]BLOECHLE JL,LALANNE D,INGOLD R.OCD:an optimized and canonical document format[A].Proceedings of the 10th International Conference on Document Analysis and Recognition[C].Barcelona,USA,2009.236-240.
[10]CEBX/Mv1.2 Standard Manual[S].2011.8.
[11]李凤华,王巍,马建峰,等.基于行为的访问控制模型及其行为管理[J].电子学报,2008,10,36(10):1881-1890.LIF H,WANGW,MA J F, et al .Access control model and admini-stration of action[J].Acta Electronica Sinica,2008,10,36(10):1881-1890.