语义网、社会网络计算与Web资源共享最新章节_王莉著

3.3 基于本体的异构语义计算方法

语义表示和资源语义模型为网络资源共享和智能协作提供了良好的网络资源表示方法。但是，互联网的开放性和不断演进性，使得不同表示形态、不同模型的资源共存于网络，而且即使是面对同一问题领域，不同地域、不同机构的专家经常会给出不同的数据表示规范和标准，在当今网络广泛应用，以及网络用户希望共享协作实现互惠互利，极大化资源利用率和取得最大效益的今天，异构语义表示和异构标准规范成为资源共享协作的首要瓶颈。而语义相似计算是建立不同概念间相似映射关系的一种有力手段。

和语义相似度相关的概念有 ^[35] ：语义相关性（Semantic Relativity）和语义距离（Semantic Distance）。语义相似度是指词的可替换度和词义的符合程度，如male和man的相似度就比较大。语义距离是指词之间在语义树上的路径长度，是衡量语义相似度的一种有效手段，通常距离和相似度成反比。而语义相关度则指词之间的关联程度，如travel和transportation的相似度很小，但是相关度很大。语义相关计算对于实现网络资源智能化的自动服务、本体重用模块的确定、服务资源推荐和主动推送等具有非常重要的意义。

本体技术为基于语义相似计算、语义相关计算的异构语义互理解实现提供了一条可行的途径。

根据计算方法的不同，语义相似计算可以分为以下几类。

1）基于概念名称的相似度计算方法

基于概念名称的相似度计算方法主要根据英语的词法构造，认为两个语义相近的词在词构造上也是相似的，所以在相似度计算时不考虑概念语义信息。这类方法主要有基于字符串处理的方法和基于词典的方法。基于字符串处理的方法主要有编辑距离 ^[36] 、单词前后缀的相似性等。编辑距离是两个字符串通过插入、删除、改写字符等编辑操作而变为相同字符串所需要的最小操作数。编辑距离越大，字符串的相似度越小；编辑距离越小，字符串的相似度越大。基于词典的方法主要采用现成的词典（如WordNet、HowNet等）识别出词汇间是否近义、是否存在上下位关系等。词汇义原法 ^[37~38] 就是一种基于词典的方法。它将概念的名称按照WordNet中的规则分解成义原对的组合，通过义原对在结构中的语义距离、层次关系和共同祖先等作为度量相似度的因素，采用“整体相似度等于部分相似度加权平均”的做法，首先将一个整体分解成部分，再将两个整体的各个部分进行组合配对，通过计算每个组合对的相似度的加权平均值得到整体的相似度。

基于概念名称的相似度计算方法仅利用构词法相似性来确定概念间的相似程度，不考虑概念在本体中所赋予的语义信息，当不同词汇具有相同含义时，无法利用这类计算方法得到正确信息。

2）基于概念实例相似度的计算方法

基于概念实例相似度的计算方法利用概念的实例相似计算进行概念相似度的度量。华盛顿大学的GLUE系统以联合概率分布为基础计算相似性，其前提假设为，当两个概念具有相同的实例时，这两个概念可能是相似的。因此，可以基于实例维来计算概念的相似度。为此，需要知道概念实例的联合分布。假如已知两个概念 e _l 和 e ₂ 的联合概率分布函数 p ( e ₁ ， e ₂ )，使用Jaccard相似度计算，计算公式如下：

式中， U ₁ 和 U ₂ 表示概念 e ₁ 和 e ₂ 对应的实例集合， N ( U ₁ )和 N ( U ₂ )表示概念 e ₁ 和 e ₂ 对应实例个数，表示同时是 e l和 e 2概念实例的集合，表示是 e ₂ 概念实例而不是 e ₁ 概念实例的集合，表示是 e 1 概念实例而不是 e 2的概念实例的集合。

基于概念实例相似度的计算方法完全依赖于本体概念的实例数据，因而要求本体概念必须有对应的实例，且当实例数据较多时更为有效，同时，训练集中的实例必须具有代表性，否则会导致训练得出的实例分类规则不正确，影响概念间联合分布的概率的计算，进而影响相似度计算，最终呈现给用户错误的映射关系。

3）基于结构的计算方法

基于结构的计算方法是指在计算相似度时参考概念间的图结构，如节点间的父子、祖孙关系、语义邻居关系等。节点层次关系中蕴涵大量潜在语义信息，现在很多概念相似度计算方法中都利用了这一点。文献[39]首先基于概念之间的距离计算概念的初始相似度，在此基础上通过比较概念的关系相似度，计算概念通过非上下位关系体现出的相似度。文献[40]结合语言和结构方面的模式匹配技术，输入的模式首先表示为一个图，然后自顶向下和自底向上相结合遍历该图，在计算本体概念结构相似性时，Cupid算法更多地依赖叶子匹配。文献[41]首先基于开放信息模型（OIM）说明转换为有向图，然后使用固定点计算来决定图中的对应结点。基于结构的计算方法的原理是两个节点的相似性必须依赖于与之相邻的其他节点的相似度，即先根据实例名称计算节点初始相似度，再根据以前相邻节点的相似度再重复计算得到新的相似值，直到相似度变化不超过某一阈值。当前主要计算模型有：

（1）Hirst算法。Hirst ^[42] 等认为当两个词在WordNet同义词集（Synset）中有一条较短的路径相连时，在语义上就具有相对较大的语义相关度，而语义相似度和语义相关度成正比关系。词汇 W ₁ 和 W ₂ 的语义相关度计算公式为：

式中， C 和 k 是两个常参数， d 代表在Synset中的转向次数，len（ W ₁ , W ₂ ）是路径长度。

（2）Leacock-Chodorow计算方法。Leacock和Chodorow ^[43] 考虑到当路径长度相同时，越靠近树根（Top Root），语义相似度越小，于是引入了深度的制约条件：

式中，Depth是概念词在Word Net语义树中的深度。

（3）Resnik ^[44] 语义相似度算法。基本假设是：两个概念的语义相似度，由它们共同拥有的那部分概念所决定：

式中，leo( W ₁ ， W ₂ )是( W ₁ ， W ₂ )的最近共有祖先， p ( W )是 W 在特定本体库中出现的概率。

（4）Jiang-Conrath ^[45] 语义距离算法。这种算法相当于给定了共有祖先后，利用子节点的条件概率来计算语义距离，而语义相似度和语义距离成反比：

（5）Lin ^[46] 语义相似度算法。这种算法可以看作是Distsc变体的一种正向表述方法：

（6）Lu ^[47] 语义相似度计算方法：

式中， T ₁ 和 T ₂ 是概念树上的任意两个概念， l 是它们在概念树上的最短路径， h 是它们的深度。

式（3-14）表明，两个概念的相似度关于 l 单调递减，关于 h 单调递增。 α 和 β 用来调整 l 和 h 对概念相似度的影响程度。根据测试， α =0.2， β =0.6 是获得最佳度量效果的优化值。

（7）OM语义相似度计算方法。OM ^[48] 是一种计算分类树（表示部分关系、子类关系的结构）中两个对象间匹配程度的算法，它的基本思想是两个对象间的语义距离就是这两个对象共享的父节点个数和这两个对象父节点并集个数的比值：

式中，UC（ O _i ， H ）表示对象 O _i 在子类关系结构 H 中的父节点集合：

在计算过程中，基于结构的概念相似度计算方法不仅要考察单独的一对概念之间的关系，还要考虑它们与整体的关系。这种计算方法注重形式，忽略概念的语义特征，片面地强调一种形式（结构）上的相似性，计算的概念相似度有一定的局限性。

4）基于概念描述构造子的方法

Web本体语言OWL以描述逻辑为基础，在OWL描述的本体中，除了可见概念间的结构关系外，还能观察到其构造子属性所反映出的各种语义关系。Rubén Tous ^[49] 提出基于概念节点和其他节点间的关系，建立节点 n 维向量模型，生成RDF标签有向图，建立其矩阵，并基于该矩阵计算概念间的语义相似关系。OLA ^[50] 主要针对OWL Lite语法描述的本体进行匹配。按照OWL语法，本体中的实体被分类成若干类，如类、对象、属性、关系、属性实例、数据类型和数据值等。一个本体表示为一个OL-Graph，它是一个有向标记图，图中节点对应OWL实体，边对应于各种实体关系，如类或关系的特殊化、类和对象，以及属性和属性实例间的实例化、在类的属性上的属性限制等。相似度的计算在相同特征空间进行。例如，两个类实体的相似度依赖于超类（子类）、属性限制和对象成员的相似。换句话说，仅相同种类的实体可比较，即同一种类的两个节点的相似度依赖于在各自的OL-Graph中，与表示相同实体关系的边连接的相邻节点的相似度，最终的结果通过实体集合的局部匹配，以及迭代计算得到。

基于描述构造子的方法在表达能力上充分挖掘本体概念语义信息，但是忽略概念名称描述，以及概念的层次结构关系对概念语义的影响，势必会造成计算出的本体概念相似度结果不够精确。

总之，已经有不少研究机构提出了多种不同的语义相似、相关计算方法，这些方法也有其各自不同的特点，但是，当前算法大都仅关注本体概念的某一方面或几个方面特征，或是利用不考虑语义特性的一般图的匹配技术，或是简化了本体的特性，只抽取一些简单的特性（如概念的层次结构）进行相似度计算或匹配，没有充分挖掘出本体所表示出来的隐含语义信息，尤其是对广泛应用的Web本体语言OWL本体模型的分析。而具有丰富表现力的本体不仅能描绘出概念语法、概念间层次关系、概念原子关系，而且还能表现出构造子所构成的属性信息及推理信息等，所以，需要设计相应算法和机制，深度挖掘本体模型属性特征，合理计算和分析本体语法、结构和语义信息，以提高本体概念相似度量的精确度，促进Web资源共享、集成和协作。