1.2.2 本书创新点
针对以上研究内容,经过几年的努力,主要取得了以下研究成果。
-
提出了概念相似度和相关度计算方法。
通过分析树结构,发现节点的祖先节点和后代节点也与当前节点语义相关。
利用该特点,提出了节点在本体树中的相关节点概念,并据此给出了基于本体的概念向量表示方法,即两个概念的语义相似度可用向量间的余玄夹角值计算。在以树结构为基础的方法中,只考虑了概念与概念之间的上位/下位关系。在上位/下位关系基础上,还考虑其它类型的关系,就构成了以树为主体的图结构。针对语义相关度计算的需要,提出将以树为主体的图结构本体转化为树结构本体,从而计算概念间的语义相关度的方法。基于本体的概念语义提取、语义描述和语义相似度计算方法除在领域数据中得到很好的应用外,通用本体WordNet的案例分析也证明,在不完备信息前提下,该方法可以获得很好的皮尔森线性相关系数值。
sd80MPIM7WW1SLUjpSvdg5x3T9rHJzcBNSrrq/iOJ5iG8yTmw3sG/ineFeSCZzuQ
-
提出了语句相似度计算方法。
通过寻找语句与本体间的直接和间接语义关系的方法,提出了语句与领域本体间的索引方法,尤其是语句与本体间接语义关系的发现,使得文档语义相似度计算可以从基于表面意义层面的相似度计算转化成基于语义层面的相似度计算。基于本体的语句语义提取、语义描述和语义相似度计算方法除在领域数据中得到很好的应用外,应用于微软研究院的意译语料库(MSRP)上的案例分析证明,在不完备信息前提下,此方法可以获得较好的准确率和召回率。
-
提出了文档相似度计算方法。
通过寻找文档与本体间的直接和间接语义关系的方法,提出了一种文档与领域本体间的索引方法,这是实现基于语义的文档相似度计算的关键;提出了根据领域本体层次结构评估文档关键词权重的方法,使文档语义相似度计算不再依赖于大规模语料库的统计结果。基于本体的文档语义提取、语义描述和语义相似度计算方法除在领域数据中具有良好的适应性外,在Michael D.LEE 50标准文档相似度测试数据集上的案例分析也证明,在不完备信息前提下,此方法可以获得较好的线性关联系数。