本节讨论本体(Ontology)的基本概念、组成及其分类。
本体是一个哲学用语,是一套对客观世界进行描述的概念体系。人工智能涉及的本体包括概念(实体所属的类)、属性(实体之间的关系映射)及概念之间的关系。举例来说,本体就是定义了类的上下位关系、包含关系及类所具有的属性,可以对知识结构进行描述,形成的具体事例数据必须满足约定的知识框架,即元知识。概念主要是指集合、类别、对象类型、事物的种类,如人、动物等;属性主要是指对象可能具有的属性、特征、特点及参数,如地点、性别、生日等;属性值主要是指对象指定属性的值,可以是数值型、字符串型的,也可以是其他实体对象,如可定义“人”“运动员”等概念,而“运动员”和“人”是上下位关系。对于“人”这个概念,可以定义“身高”“生日”“配偶”等属性及属性的约束条件。格鲁伯(Gruber)于1993年指出“本体是概念化的一个显式的规范说明或表示。”格里诺(Guarino)和贾雷塔(Giaretta)为了澄清对本体的认识,针对本体的7种不同概念解释进行了深入的分析,于1995年给出了如下定义:“本体是概念化某些方面的一个显式规范说明或表示。”博斯特(Borst)于1997年给出了一个类似的定义,即“本体可定义为被共享的概念化的一个形式规范说明”。
这3个定义成为经常引用的定义,它们都强调了对“概念化”的形式解释和规范说明,同时,反映出本体所描述的知识是具有共享性的。
在这些本体定义中,对所用到的“概念化”一词并没有给出明确的解释。格里诺对上述定义中的“概念化”给出了一种比较合理的解释,同时对概念化和本体的关系做了进一步阐释。
定义2.1 邻域空间(Domain Space)。邻域空间定义为< D , W >,其中 D 表示邻域, W 表示该邻域事件最大状态的集合(也称为可能世界)。
定义2.2 概念关系(Conceptual Relation)。< D , W >上的 n 元概念关系定义为 ρ n : W →2 Dn ,表示集合 W 在邻域 D 上所有 n 元关系集合的全函数。
对于概念上的关系 ρ ,集合 E ρ ={ ρ ( ω ) | ω ∈ W }包含 ρ 可接受的所有外延(Admittable Extensions)。
定义2.3 概念化(Conceptualization)。邻域空间< D , W >中 D 的概念化定义为一个有序三元组 C =< D , W , Ŕ >,其中< D , W >为邻域空间, Ŕ 为< D , W >上概念关系的集合。
从上述定义可见,概念化是定义在一个邻域空间上的所有概念关系的集合。
定义2.4 意图结构(Intended Structure)。∀ ω ∈ W , S ωC 是可能世界 ω 关于 C 的意图结构, S ωC =< D , R ωC >,其中 R ωC ={ ρ ( ω ) | ρ ∈ Ŕ },表示 Ŕ 中概念关系的关于 ω 的外延集合。
符号 S C 表示概念化 C 的所有意图世界结构, S C ={ S ωC | ω ∈ W }。
定义2.5 模型(Model)。假定逻辑语言 L 具有词汇表 V ,词汇表 V 由常量符号集合和谓词符号集合构成,逻辑语言 L 的模型定义为结构< S , I >,其中 S =< D , R >表示一个世界结构, I : V → D ∪ R 表示一个解释函数,把 V 中的常量符号映射为 D 中的元素,把 V 中的谓词符号映射为 R 中的元素。
由以上定义可见,一个模型确定一种语言的特定外延解释。类似地,通过概念化可以确定内涵解释< C , Ʒ >,如一个结构< C , Ʒ >,其中 C =< D , W , Ŕ >是一个概念化, Ʒ → D ∪ Ŕ 表示一个解释函数,把 V 中的常量符号映射为 D 中的元素,把 V 中的谓词符号映射为 Ŕ 中的元素。
定义2.6 本体承诺(Ontological Commitment)。逻辑语言 L 的一个本体承诺 K =< C , Ʒ >定义为 L 的一个内涵解释模型,其中 C =< D , W , Ŕ >, Ʒ : D ∪ Ŕ 表示一个解释函数,把 V 中的常量符号映射为 D 中的元素,把 V 中的谓词符号映射为 Ŕ 中的元素。
如果 K =< C , Ʒ >是逻辑语言 L 的本体承诺,则称逻辑语言 L 通过本体承诺 K 承诺于概念化 C ,同时, C 是 K 的基本概念化。
已知逻辑语言 L 及其词汇表 V , K =< C , Ʒ >是逻辑语言的本体承诺,则模型< S , I >与 K 兼容需要满足以下条件:
● S ∈ S C ;
● 对每一个常量 c , I ( c )= Ʒ ( c );
● 存在一个可能世界 ω ,对每个谓词符号 p ,满足 I 把谓词 p 映射为 Ʒ ( p )允许的外延。即存在一个概念上的关系 ρ ,满足 Ʒ ( p )= ρ ∧ ρ ( ω )= I ( p )。
定义2.7 意图模型(Intended Model)。逻辑语言 L 所有与 K 兼容的模型 M ( L )构成一个集合,称为 L 关于 K 的内涵模型,记作 h ( L )。
给定逻辑语言 L 及其本体承诺 K =< C , Ʒ >, L 的本体是按照使本体的模型集合最逼近于 L 关于 K 的内涵模型集合的方式设计的公理集合。
定义2.8 本体(Ontology)。本体是一种说明形式化词汇内涵的逻辑理论,即一种词汇世界特定概念化的本体承诺。使用该词汇表的逻辑语言 L 的内涵模型受本体承诺 K 的约束。
如果存在本体承诺 K =< C , Ʒ >使本体 O 包含 L 关于 K 的内涵模型,那么称语言 L 的本体 O 相似于概念化 C 。
如果本体 O 的设计目的是描述概念化 C 的特征,同时本体 O 相似于概念化 C ,那么称本体承诺于 C 。如果逻辑语言 L 承诺于某个概念化 C ,以至本体 O 承诺于概念化 C ,那么逻辑语言 L 承诺于本体 O 。
图2-1为语言 L 、本体 O 与概念化 C 之间关系的示意。本体 O 是用于解释形式化词汇内涵意义的逻辑理论,使用这种词汇表的逻辑语言 L 的内涵模型受本体承诺 K 的约束。本体通过接近这些内涵模型间接地反映这些本体承诺,本体 O 是语言相关的,而概念化 C 是语言无关的。
图2-1 语言 L 、本体 O 与概念化 C 之间关系的示意
在知识工程领域,本体是工程上的人工产物,由用于描述某种确定现实情况的特定术语集,加上一组关于术语内涵意义的显式假定集合构成,在最简单的情况下,本体只描述概念的分类层次结构;在复杂的情况下,本体可以在概念分类层次的基础上,加入一组合适的关系、公理、规则来表示概念之间的其他关系,约束概念的内涵解释。
概括地讲,一个完整的本体应由概念、关系、函数、公理和实例五类基本元素构成。
概念是广义上的概念,除了一般意义上的概念外,也可以是任务、功能、行为、策略、推理过程等。本体中的这些概念通常构成一个分类层次。
关系表示概念之间的一类关联。典型的二元关联如继承关系形成概念的层次结构。
函数是一种特殊的关系,其中第 n 个元素对于前面 n −l个元素是唯一确定的。一般地,函数用 F : C 1 ×…× C n− 1 → C n 表示。
公理用于描述一些永真式。更具体地说,公理是领域中在任何条件下都成立的断言。
实例是指属于某个概念的具体实例,特定领域的所有实例构成领域概念类在该领域中的指称域。
图2-2是一个有关本体的实例,具体说明Ontology的内容。图中表示的内容为某领域研究人员 Ontology 库的一部分,是对研究人员(Person)和出版物(Publication)这两个概念,以及研究人员的合作关系(cooperates With)、研究人员与出版物之间相互关系公理的定义。
图2-2 本体的实例
从不同的角度出发,存在多种对本体的分类标准。按照本体的主题,当前常见的本体可以分为如下5种类型。
① 知识表示本体。包括知识的本质特征和基本属性。
② 通用常识本体。包括通用知识工程和常识知识库等。
③ 领域本体。提供一个在特定领域中可重用的概念、概念的属性、概念之间的关系以及属性和关系的约束,或该领域的主要理论和基本原理等。
④ 语言学本体。是指关于语言、词汇等的本体。
⑤ 任务本体。主要涉及动态知识,而不是静态知识。
本体还有很多其他的分类。如同本体的概念一样,学术界目前对于本体的分类也有很多不同看法。一些常用的概念对于本体的分类具有指导作用,也有助于建造本体。