语义网、社会网络计算与Web资源共享最新章节_王莉著

3.1 异构资源语义共享

3.1.1 Web网络资源模型

目前Web网页资源以几何级数爆炸性增长，但是人们却难以充分利用这些信息资源，各种不同资源间的协作难以实现。导致这些问题的根源在于，一方面网络资源缺乏有效的组织和整理；另一方面大部分Web资源内容都是设计给人阅读的，而不是让计算机软件能够按其意义进行操作的信息。所以，为了让计算机能有效地组织和管理网络上大量的异构资源，许多学者从资源描述语言、描述结构、方法及资源模型等方面开展了研究。

1．Web资源表示方法

Web资源表示方法经历了从HTML到XML、RDF、RDF Schema、OWL及其他本体表示方法的过程，并且由于网络的生长性，这几种资源表示方法共存于现有网络。

HTML是一种广泛应用于Web资源描述的网络文档标记语言，它对资源的描述主要是面向人类阅读的，它的表示结构的不清晰及描述的局限性（如无法描述某些科学符号等）使它很难被应用程序解析，无法让计算机进行自动处理，也无法支持系统的自动组织管理。

要让应用程序能够理解文档，就需要良好的结构，XML是一种用树状结构来描述数据的语言，它为各种应用程序间，以及元数据的交换提供了一致的交换格式、体系和解析器。但XML本身没有进行任何语义的定义，即机器无法理解XML所描述的数据语义。

理解数据的首要条件是要能够记录数据结构与类型。预定义的最基本的数据类型不能很好地满足大多数现实生活中的数据要求。XML Schema提供了在预定义的类型上自定义可以被解析器解析的数据类型，并且不需要另外的解析器和编辑器（因为XML Schema采用XML语法表示）。但XML Schema只是对文档的结构和数据类型进行了定义，仍然不能让应用程序理解数据的语义。为了让应用程序能够理解数据，RDF应运而生。

RDF的表述方式为由主体—属性—客体（对应于资源、资源所具有的属性、属性值）组成的三元组，它通过定义属性主体的范围（定义域），以及这个属性的取值范围（值域）使人们可以比较精确地定义词汇，是一个关于资源性质的陈述。但RDF并不是一种语言，它只是提供了一种抽象数据模型的书写规范，可以通过多种方式表现和实现，一般用XML作为描述这种抽象的数据模型的具体书写方式，即RDF通过基于XML语法的明确定义的模型来帮助建立语义协定（RDF Schema）和语法编码（XML）之间的桥梁，并以此来实现元数据的互操作功能。这部分地解决了通用语义问题，但因为现实世界的复杂性，预定义的词汇根本不够用，一般还需要使用RDF Schema来自定义词汇。

RDF Schema定义了RDF数据模型中用到的词汇，它与RDF的关系不同于XML与XML Schema间的关系：XML Schema是用来对XML的结构（构造）进行定义，而RDF Schema是对RDF中的词汇进行定义，它可以定义类、子类、超类、属性和子属性，以及它们的约束，如领域和范围等，但是RDF/RDF Schema对特定应用领域的词汇描述能力比较弱，无法表示出网络资源间丰富、复杂的关系，因此需要进行扩展。

本体（Ontdogy）比RDF Schema能提供更强的词汇描述能力，它通过提供对领域知识的概念化的明确的规范说明，以达到信息交换、异构系统交互的目的 ^[24] 。本体不仅能够表现出丰富的语义关系，同时基于其所依赖的逻辑基础，它还支持推理查询、更新和一致性检查功能等。当前有许多关于资源集成、异构资源协作的研究工作都是基于本体展开的。

在资源表示方法的研究中，语义Web的目标架构最具代表性（见图 3-1）。它主要基于XML和RDF/RDF Schema，并在此之上提供本体和逻辑推理规则，以完成基于语义的知识表示和推理，从而能为计算机所理解和处理。语义Web的研究和开发是按层次进行的，每一层都建立在更低层次的基础上 ^[25] 。

图 3-1 语义Web层次结构图 ^[1]

2．资源模型

为了对海量多样的网络资源进行管理，需要建立有效的资源模型以对资源进行组织。

在计算机发展史上，文件系统是计算机资源管理的一个里程碑。它是后来操作系统和数据库系统实现的重要基础。数据库系统是计算机资源管理的另一个里程碑 ^[26] 。特别是关系数据模型，以坚实的数学基础和优美的模型成为集中式数据管理的典范。

互联网的计算环境与三十多年前发明关系数据模型时的计算环境相比已发生了很大变化。原来集中稳定的计算环境发展为分散而动态的计算环境，处理的对象已不再是单纯的数据而是多样异构的资源，应用范围也由原来单纯的数据管理发展为多样的资源管理和智能服务，用户和数据拥有者也呈现由原来的以机构为中心发展为以个人为中心的趋势。这些变化对数据模型的要求已超出了经典数据模型的适用范围。

越加分散、动态、复杂多样的网络环境使得仅从数据层进行资源组织和管理已远不能满足网络服务效能实现和优化的要求，网络资源描述方法的技术发展为在信息层和知识层进行资源管理和利用提供了新的契机。一些研究者们提出了面向内容的资源组织管理机制。

中科院诸葛海 ^[27，28] 等根据人类社会的分类管理体制提出了一种互联网资源空间模型（RSM，Resource Space Model），它是一个通过对资源内容进行分类，从而实现网络资源的规范、存储、管理和定位的语义数据模型。这个模型建立在 n 维空间上， n 维空间代表了对资源集合的 n 种分类方法。在每一维上给定一个坐标就可定位一个点，代表一组同类内容的资源。诸葛海研究员和他的团队还在此模型基础上研究设计了语义链网络模型以支持互联网资源基于内容的资源管理和应用。目前，RSM及其相关技术在中华敦煌莫高窟的沉浸系统中得到应用。

由于网络资源的多样性、海量性，以及用户对互联网资源需求的提升，资源的语义异构成为当今网络资源共享中迫切需要解决的问题。T.Berners-Lee对未来语义化的描述给当今关于语义化的信息表示和交互、新型的面向内容的资源描述和资源模型提供了很好的思路，即通过本体来描述语义层次的具有概念表述的信息，通过本体之间的协作互操作来实现实体之间的信息交互。通过提供统一的框架，本体论减少了领域组织内部在概念上和术语上的混淆，从而使共同的理解和交流成为可能。由此，采用本体来解决资源语义异构问题是目前研究的主流。

3.1.2 本体

语义Web的分层架构一经提出就得到学术界和企业界的瞩目和追随，越来越多的RDF/RDF Schema文档和信息资源出现在网络中，许多大型领域本体的原型系统也在网络上发挥着作用。不过，语义Web需要网页设计者们按照现有标准重新进行资源表述，这对于分布、分散、动态并且已经积蓄了许多资源的互联网是很难实现的，语义Web在推行中所碰到的种种困难和阻力也验证了这一点。但是，在语义Web推行的过程中，利用本体技术进行网络资源共享集成却得到了承认。许多特定专业领域仍然对本体进行着研究，如利用本体工程创建领域本体，研究算法实现不同本体间的映射等。我们的知识通信系统中也借助本体实现了资源集成共享和资源间的智能协作。所以，本节主要对本体相关理论和技术进行介绍。

1．本体论

本体论（Ontology）一词早在 17 世纪就已经诞生，它是从希腊的Onto（即存在）和Logia（即箴言录）派生而来的，当时本体论只是作为研究世界本原或者本质问题的形而上学（Metaphysics）的同义词。后来知识工程界引用本体对知识进行描述，较为公认的定义是 1993 年Gruber ^[29] 指出的，“本体是概念化的一个显式的规格说明”和 1998 年Studer 等人提出的一个更为广泛接受的定义，即“本体是共享概念模型的明确的形式化规范说明” ^[30] 。Studer等人提出的定义包含四层含义：概念化、明确、形式化和共享。其中，概念化指通过抽象出客观世界中一些现象的相关概念而得到的模型；明确指所使用的概念及使用这些概念的约束都有明确的定义；形式化指本体是计算机可读的，即能被计算机处理；共享指本体体现的是共同认可的知识，反映的是相关领域中公认的概念集，它针对的是团体而不是个体。

近年来，本体研究引起信息工程领域的广泛关注并在知识工程概念建模、信息集成Agent系统、语义Web 等领域得到比较成功的应用 ^[31] 。

2．描述逻辑

描述逻辑（DL，Description Logic）又称为术语逻辑或类KL-ONE系统，是知识表示和推理的形式化基础，也是语义Web本体表示的一种逻辑基础 ^[32] ，其基本组成部分是概念、角色和个体。

描述逻辑系统包括：表示概念和关系的构造集、术语公理集Tbox、实例断言集Abox，以及在Tbox和Abox上的推理机制。构造集最基本的组成是原子概念与原子关系，以此为基础，描述逻辑系统为构造复杂概念和关系提供了构造符，通常一个描述逻辑系统至少包含合取（∩）、析取（∪）、非（¬ ）、存在量词（）和全称量词（∀）五种构造符。在这些最基本描述的基础上添加不同的构造符，便得到具有不同表达能力的描述逻辑系统，因此，提供不同构造算子的描述逻辑语言在表示能力上是不尽相同的。

通常将在原子概念、原子关系上的构造称为描述逻辑的语法，它表示了概念和关系的构成模式，但要构成一个实际的描述逻辑系统必须对这些构造算子进行语义解释，语义解释是应用集合理论通过对描述逻辑知识库的解释而实现的。描述逻辑中的解释定义为：（ △ ， I ），包括了一个表示解释领域的非空集 △ 和一个描述逻辑的知识库 I =（ T ， A ），其中 T 表示概念术语公理的有限集合Tbox，主要描述概念间的包含、等价关系； A 表示实例断言的有限集合Abox，主要描述个体间的关系，如C（a）表示个体a是概念C的实例，Q（a，b）表示个体a、b满足原始关系Q，Abox可看成是Tbox的实例化集合。

描述逻辑吸取了KL-ONE的主要思想，是一阶谓词逻辑的一个可判定子集，它具有以下特点：具有一元和二元谓词，函数不能作为谓词的变量，并且含有量词及数量约束。因此，描述逻辑的推理功能主要是通过这样的一个FOL（First Order Logic）子集内在的逻辑机制实现的，它能保证推理算法总能停止，并返回正确的结果。

可满足性问题是描述逻辑推理中的核心问题，因为其他许多问题（如包含检测、一致性问题等）都可转化为可满足性问题。为了能用计算机自动判断描述逻辑中可满足性问题，Schmidt Schaub和Smolka首先建立了基于描述逻辑ALC的Tableaux ^[33] 算法，该算法能在多项式时间内判断描述逻辑ALC概念的可满足性问题。目前，Tableaux算法已用于各种描述逻辑中（如ALCN、ALCQ等），并且Tableaux算法也可用于判断实例检测等问题。

由于描述逻辑的丰富表达能力和可判定推理能力，所以工程领域经常采用描述逻辑，以实现对特定领域的语义建模。

描述逻辑可以根据不同的应用需求，使用不同的构造器构建相应的概念表达式，生成不同类型的描述逻辑分支。Web本体语言OWL（Ontology Web Language）就是基于其中的一类SHIQ描述逻辑。

3．OWL

描述逻辑并非是本体唯一可供选择的逻辑基础，但是针对面向Web的本体语言，描述逻辑是较好的一个选择。因为面向Web的本体要应用于迅猛发展的、开放的Internet，而在开放环境中，不同操作方对于知识的一致性理解至关重要，所以Web体必须首先考虑如何实现应用的互操作性。而且面向语义Web的本体还需要考虑现有的已经广泛应用的Web标准（如XML、XML Schema、URI等），它不能抛开这些Web标准独立存在，它应该具有XML兼容性，这也就是为什么面向语义Web的本体往往以描述逻辑或者F-LOGIC ^[34] 为理论表达的一个很重要的原因，因为这些逻辑都可以用XML语言写出来。

OWL是W3C组织推荐的以描述逻辑为基础的一种Web本体语言。它以RDF/XML为语法基础，并提供了在类与类属性上非常丰富的约束，其基本思想是在Web信息表达力和推理复杂度之间取得平衡。它由三个子语言组成：OWL Lite、OWL DL及OWL Full。OWL Lite是供那些仅需要一个分类层次和简单约束的用户使用，支持基数约束为 0 或 1 的应用，开发过程相对简单。OWL DL增加了oneOf、hasVaue、disJointWith等算子及对基数约束的完全支持，其表达能力比OWL Lite要强，支持对推理需求要求高的用户，同时使用OWL DL表示本体可保证任何推理在有限时间内完成，即能保证计算的可决定性。OWL Full的表达能力最强，它允许在本体中增加在OWL和RDF Schema词汇表预定义之外的词汇，因此，不能保证在用OWL Full表示的本体上的推理都能在有限时间内完成，它适合对表达要求高而对推理要求不很高的用户。

OWL继承了面向对象类型系统的表达方式，可采用RDF Schema三元组、描述逻辑的TBox和ABox、类图三种形式予以刻画。