本体与知识组织最新章节_胡兆芹著

第六节
国外研究概况

一、W3C的研究

W3C是World Wide Web Consortium（万维网联盟）的简称，是一个国际化的联盟，1994年10月在麻省理工学院计算机科学实验室成立。建立者是互联网的发明者Tim Berners-Lee（蒂姆·伯纳斯-李）。W3C是全球互联网界最具有影响力的国际著名的标准化组织。1994年成立后，至今已发布几百项相关互联网的标准，对互联网发展做出了杰出的贡献。2006年4月28日，万维网联盟在中国内地设立首个办事处。W3C致力于本体的研究始于2001年，几乎和对语义网的研究同步开始。主持本体研究的是Web-ontology工作组，工作组一开始就将自己的研究定位于为语义网的构建打基础。Web-ontology工作组的主要贡献是从2002年1月起开始制订OWL（Ontology Web Language，又称Web Ontology Language）标准规范。2003年8月18日，OWL成为W3C的候选推荐标准，2004年2月10日，OWL已成为了W3C的（正式）推荐标准。OWL的设计目的是要让软件代替人工来进行信息内容的加工。OWL促进了由XML，RDF（S）支持的Web内容在机器间的互操作性。OWL拥有三种表达能力递增的子语言：OWL Lite、OWL DL和OWL Full。OWL能够被用于清晰地表达词汇表中词条（term）的含义以及这些词条之间的关系，而这种对词条和它们之间关系的表达形式就称作本体。相对于XML，RDF和RDF（S）来讲，OWL拥有更多的机制来表达语义，因而它超越了XML、RDF和RDFS仅能够表达网上机器可读文档内容的能力。

图2-1 Tim Berners-Lee 的语义网结构图（Semantic Web Architecture）

Berners-Lee为未来的Web发展提出了基于语义的体系结构 ^［27］。该体系从底层到顶层分别是：Unicode与URI（第一层）、XML＋NS＋XML Schema（第二层，表示数据的内容和结构）、RDF（S）（第三层，用于描述Web上的资源及其类型）、Ontology vocabulary（第四层，用于描述各种资源之间的联系）、Logic、Proof和Trust（第五至七层，在以上四层的基础上进行逻辑推理操作）。从这个体系可以看出，在语义网的框架中，本体位于底层的Unicode字符集和XML语法结构之上，位于逻辑层和验证层之下。它既是基于XML的，同时又为语义网络的逻辑推理和验证功能提供基础结构。可以说本体是语义网结构中的关键部分，是解决语义层次上Web信息共享和交换的基础。其中比较重要的层次为XML层、RDF层和Ontology层，他们主要用于表示信息的语义，属于核心层次。

（1） Unicode和URI层

该层位于语义网体系结构的最下面，是整个体系的基础，主要用于解决跨地区字符编码的标准格式和资源的定位问题。它作为一种资源命名手段确保了命名的唯一性。其中，Unicode是一个字符集，负责处理资源的编码，它基本上涵盖了全世界所有现有语言的字符，支持语义网的多语言同时检索，可以解决不同语言、不同文字的信息资源编码问题。URI（Uniform Resource Identifier）称为统一资源标识符，它是一个用于唯一标识网络概念或资源的互联网标准。URI的思想是在需要的时候通过连接引用资源，无需对资源进行拷贝或集中管理。它和互联网常用的统一资源定位符URL（Uniform Resource Locator）的区别在于URI泛指所有以字符串标识的网络资源，而URL是URI的一种具体形式。

（2） XML层

该层主要用于从语法上表示数据的内容和结构，通过使用标准语言将网络信息的结构和内容分离，在语义网架构中，XML只是作为语法层来提供语法基础而不提供语义。这一层主要由XML、NS和XML Schema三个部分组成。XML（Extensible Markup Language）称为可扩展标记语言，XML提供结构化的语法，实现了文档结构与文档内容的分离，使同一个文档可以根据目的不同有不同的表现形式。它是网络数据表示和交换的事实标准，是机器之间共享数据的一种有效方式。XML的可扩展性是它作为标记语言最重要的特点之一，它以标准化的方式来构建数据的表示形式，由用户来定义标记，相当于给网络文档引入了支持语法互用性的结构，便于网络传输。NS（Name Space）称为命名空间，它是名称的集合，用于验证文档元素和属性名的有效性，它由URI索引确定，避免了使用同样的字符描述不同的事物的可能。XML Schema是约束XML文档结构的语言，类似DTD，它的作用是为XML文档的构建提供合法性依据。XML Schema比DTD更加灵活，提供更多的数据类型并支持数据校验机制，更好地为XML文档服务。

（3） RDF层

该层的主要作用是提供一种描述机器可理解的语义数据模型结构，以弥补XML层信息的语义缺失。这一层由两部分组成，RDF（Resource Description Framework）称为资源描述框架，是描述网络上信息资源的一种语言，它可以用来表示资源对象的状态。RDF作为一个开放的元数据描述框架，可以明确的描述出机器可处理的数据语义。RDF Schema是用于定义元数据属性元素的一种定义语言，它为RDF提供了大量的建模原语，主要包括类、属性、子类（SubClass）关系、子属性（SubProperty）关系、以及定义域（Domain）和值域（Range）限制。在RDF框架下多种词汇可以在集成后描述网络资源，实现异构网络应用系统之间的语义互操作。这一层解决了语义模型和部分通用语义的问题，但是RDF/RDFS描述语义的功能仍然非常有限。

（4） Ontology层

该层是语义网体系框架中最关键的部分，即本体层，是在RDF Schema的基础上定义的概念及其关系的抽象描述，它不但可以描述应用领域的知识，还可以描述各类资源及资源之间的关系，实现对词汇的语义扩展。虽然RDF框架能够定义对象的属性和类，并且还提供了类的泛化等简单语义，但它不能明确表达描述属性或类的术语含义及术语间的关系，因此需要包含更多语义关系的本体描述语言来对其进行扩展，对领域知识进行建模。目前使用最为广泛的本体扩展语言是网络本体语言OWL，它在保持了RDF语法的同时在RDF Schema的基础上进行了延伸，具有简单和形式化的特点，能够表示资源之间更多更复杂的语义关系。总的来说，本体层提供了一个明确的形式化语言用来描述概念术语和术语之间的关系，可以支持机器之间的语义级资源交换，从而促进人和机器进行更明确的对话交流。

（5） Logic层

该层是本体层的延伸，针对具体的应用领域，利用本体描述语言来对领域知识进行表示。逻辑层提供了规则与推理方法，以便于在本体描述的基础上进行逻辑推理，得到有用的语义信息，进而验证推理的正确性和可信性。由于推理的步骤是可以向前追溯的，因此逻辑层也可以为逻辑推理的结论提供解释，这对语义网来说是很重要的，它可以增加用户对语义网代理（Agent）的信任。

（6） Proof层

该层称为证据层，用于表示对推理规则和评判过程的信赖，它能够对推理过程的真实进行还原，利用下层资源描述语言对推理过程进行形式化表示，并且对推理过程的正确性进行检验。这可以使代理交换推理的结果进行数字签名，从而建立信任关系，进而证明语义网输出的可靠性以及对用户的要求满足程度。

（7） Trust层

信任层处于层次分类的最高层，它表示一种信任机制，就是说，信息交换的双方必须建立一种信任关系才能在一定程度上保障信息的有效性。信任机制是通过数字签名技术等知识手段，利用代理实现网络资源的可信任获取与传输，包括资源的安全和质量可信任性及处理过程的可信任性。信任是高层次应用的一个至关重要的环节，理想情况是用户对计算机进行的操作是完全放心和信任的，这可以说是语义网的最高层次和目标。

以上就是语义网的七层框架结构，目前这一语义网体系框架的前面三层研究已经比较成熟。通过对语义网技术的应用，可以实现对数字信息资源进行基于语义级的标注，提供基于语义的资源浏览与检索等。近年来，语义网技术在数字信息资源建设中的重要性已得到广泛关注，各种研究开发都在并行展开并且逐渐深入，语义网技术的应用愈加广泛。就语义网构想而言，其本身就是一项非常庞大而且复杂的人工智能工程，所应用到的技术也是异常繁多。目前，本体层和逻辑层可以说是当前国内外研究的重点和热点，而更高层的研究目前还处于起步阶段，相对而言还不太成熟。在语义网七层结构模型中，本体位于最中央的第四层，是语义网技术中最关键的部分。本体是解决语义层次上信息交换和共享的基础，也是语义网应用于数字信息资源组织的基础。Berners Lee最初提出的这一经典框架模型虽然几经变换，但其主体思想却从未发生变化。因此，本体仍然是语义网研究的核心问题之一，它是语义网研究的落脚点和研究基础，只有在确保本体的高质量应用的基础上，才能使语义网技术得到进一步的发展。

第六节 国外研究概况

一、W3C的研究

第六节
国外研究概况