



在互联网中传输多媒体内容(如视频、图像、音频等)时,对于多媒体内容的接收端来说,可以获得的信息主要包括两个层面:理解多媒体内容的概念层级的描述信息和理解多媒体内容的视觉或听觉层级的感知信息。这两个层级的信息构成了一个多媒体内容的语义信息的完整性表示,前者是多媒体内容创作者或发布者对多媒体内容的概念实例化描述数据,包括内容描述、格式描述等,后者则是多媒体内容本身进行展示(如播放、显示等)的数据,如视频的帧序列、图像的像素矩阵等。因此,针对互联网上的多媒体内容完整性认证问题,有必要从这两方面信息是否安全可信入手进行研究。
传统的多媒体信息安全技术主要围绕着CIA(Confidentiality,Integrity,Availability)三要素展开,即机密性、完整性和可用性。其中与多媒体信息可信认证相关的概念是多媒体内容的完整性,但目前大部分针对多媒体内容的完整性研究主要从底层数据入手,鲜少涉及多媒体内容的描述信息的完整性,如多媒体内容的创作者信息、标题信息等,这些信息的完整性缺乏一种有效的可信认证手段。因此,本书提出采用“可信内容标引”这一概念来研究多媒体内容高层语义信息和底层语义信息的完整性。本书对多媒体信息可信的定义如下。
定义1.3 多媒体信息可信是指该多媒体内容的高层语义信息是完整的,并且底层语义信息也是完整的,没有经过篡改,多媒体内容具有真实性。
对于多媒体信息可信,目前还没有有效的模型对其进行描述,特别是对于在互联网中传输的多媒体信息。对多媒体内容概念层级的描述,采用对多媒体内容在语义空间进行多维度标引的方法 [5] 。将所有多媒体内容构成的多媒体信息资源空间表示为 M ,其中对于某个多媒体内容 M ,表示为 M ∈ M 。
定义多媒体内容的高层语义空间为 S ,并将高层语义空间 S 按照多媒体语义特征划分为多个相互独立、具有层次结构的语义子空间,每个语义子空间表示多媒体内容某个概念的描述,因此多媒体内容的高层语义信息可以表示成语义子空间的直积形式:
式中, n 为高层语义空间的语义粒度; S i 为第 i 个语义子空间。
对于多媒体内容 M ,若获得该多媒体内容在各个语义子空间的实例化数值,则其高层语义信息可表示为向量形式,即
式中, s i 是多媒体内容 M 在语义子空间 S i 的实例化数值。
定义多媒体内容的底层语义空间为 H 。考虑到互联网传输的特点,采用具有鲁棒性的鲁棒哈希算法 H (·)来提取多媒体内容的底层语义信息表示。因此,按照对多媒体内容的操作特性的不同,可以将多媒体信息资源空间 M 中存在的多媒体内容分为以下3类。
(1)对多媒体内容 M 进行保持其感知内容(如视觉、听觉)操作(如图像的尺寸缩放、压缩等)后形成的集合,用 M s 表示,并且 M s ∈ M 。
(2)对多媒体内容 M 进行修改其感知内容(如视觉、听觉)操作(如视频帧修改、图像篡改等)后形成的集合,用 M d 表示,并且 M d ∈ M 。
(3)与多媒体内容 M 不相关、完全不同的多媒体内容形成的集合,用 M c 表示,并且 M c ∈ M 。
若分别对以上3类多媒体内容采用鲁棒哈希算法,则可以获得相应的鲁棒哈希值,即
显然,它们存在着关系: H = H ∪ H s ∪ H d ∪ H c 。
对于多媒体内容 M ,高层语义信息采用向量 S 来表示,底层语义信息采用 H 来表示,因此 M 的可信内容标引 T 可表示为
多媒体内容 M 的可信内容标引如图1-1所示。
图1-1中,高层语义空间 S = S ∪ S dc ; S dc 表示与 M 不同的多媒体内容(包括修改感知内容和内容不相关的多媒体内容)的高层语义信息。多媒体内容集合 M s 的哈希值与 M 的哈希值之间的关系为
式中, h 表示多媒体内容集合 M s 的哈希值; ε 表示多媒体内容底层语义哈希值允许变动的最大鲁棒阈值。可以看出,在高层语义信息的定义上,没有采用与底层语义信息类似的鲁棒性,其原因有以下两点。
(1)多媒体内容的高层语义信息属于概念层级的文本表示,对用户理解多媒体内容至关重要,具有极强的敏感特性,如多媒体内容语义子空间——生成时间,若实例化数值由“2016”变为“2006”,虽然仅有一位字符改变,但高层语义向量 S 的值将彻底改变。
(2)采用多媒体内容的高层语义信息实现在多媒体信息资源空间的定位,即先判断多媒体内容的高层语义信息是否完整,再判断其底层语义信息是否完整,这在一定程度上有利于多媒体信息的可信认证。
图1-1 多媒体内容 M 的可信内容标引