购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第四节
本体的作用

本体是以机器可以理解的形式化语言来描述知识,目的是从根本上解决人与机器、机器与机器之间的信息、知识交流障碍,因此,本体可以作为一座架在“语义鸿沟(semantic gap)”上的桥梁,这座桥梁的一端是实际的语法表达形式,而另一端是这种表达的抽象概念模型。构建一个本体可以解决以下问题:

(1)在用户间或软件代理间达成对于信息组织结构的共同理解和认识。假如有若干包含医药信息或提供医药电子商务服务的Web站点,这些Web站点共享相同的底层本体,那么计算机代理就可以准确、没有歧义的提取和集成这些来自不同站点的信息,代理软件可以利用这些集成的信息来回答用户的检索式或向用户提供数据。

(2)可以复用专业领域知识。要构建一个大型的本体,可以将几个现成的本体进行集成。

(3)使专业领域内的假设变得更加明确。对于必须理解该领域术语的新用户很有帮助。

(4)从操作性知识中分离出领域知识。将专业领域的知识从知识管理的环境中剥离出来。

(5)分析专业领域的知识。在进行复用现有本体和扩展这些本体的尝试中,对术语规范地分析是极有价值的。

具体到图书情报界的信息检索和知识组织领域,本体具有以下作用:

(l)反映词汇的语义映射关系和语义限制。

如果仅仅按照用户输入的检索词进行检索,会“漏检”很多有用信息。用户输入的检索词和用户自身的知识背景、检索能力以及检索经验相关,可能只是某一概念的若干同义词、近义词或是相关术语中的一个。本体可以利用规范概念集自动地将检索词映射到它的同义词、近义词和相关词上,利用一组规范的概念进行检索。

另一方面,一个词可以有多个含义,用户进行检索时往往只是针对它的一个含义。如果只进行简单匹配,会造成“误检”。例如,用户输入“田七”,可能会查找到田七花,田七菜,田七粉,也可能找到田七牙膏,田七痛经胶囊等。这时,可以利用本体来分析用户检索词汇和信息资源语义类型以及二者的语义匹配程度。在分析用户检索词的语义时,可以直接向用户提供输入词汇的语义类型或语义关系,让用户通过选择加以明确。也可以利用用户模式、用户检索式和用户所选择的信息资源的词汇构成等,根据概念关系来判断具体检索词的语义。

(2)对基于某个知识组织体系的信息资源进行结构化组织。

长期以来,图书馆采用分类法和主题法对藏书进行编目就是为了建立基于知识组织体系的信息集合。在网络环境下,利用本体的思想重构网上信息资源,是建立第二代互联网——语义网(semantic web)的基础条件。具体表现在:①建立基于本体的信息门户或知识门户。②利用复合(集成)本体从不同的角度对信息集合进行标引。这样可以根据用户的不同需求按照不同的知识体系进行检索和浏览。

(3)表示信息内容与知识组织体系之间的链接。

可以将本体与信息系统进行链接,从而使用户在使用信息的过程中,更加便捷地利用本体来理解具体的概念并链接相关概念和相关资源。链接方式可以是静态的(即有关链接事先嵌入到信息单元中,不能进行修改),也可以是动态的(即在需要时,由系统析取词汇和链接相应的本体)。这类应用一般多用于专业领域,所以进行语义分析和选择本体的工作都相对明确和简洁。

(4)利用多种模式表现和理解信息集合。

利用本体,可以将信息进行可视化组织,并依照本体的分类体系将检索结果进行组织和显示,同时可以按照一定的语义关系显示文献集合。

(5)支持跨语种检索。

跨语种检索依赖于多语种间的准确翻译,因此需要多语种叙词表、本体和语义网络的支持。如一体化医学语言系统(UMLS-Unified Medical Language System)、EurowordNet、通用的多语种环境叙词表(GEMET-Generalized Multilingual Environment Thesaurus)等系统在不同程度上支持不同语种间的词汇映射,从而为跨语种检索的研究奠定了一定的基础。

(6)进行智能检索。

利用XML/RDF可以对本体进行标记,并且利用本体对网络资源进行标注(赋予网络资源及其各个内容元素以相应的语义标注),然后利用本体、其他元数据和网络资源中的语义信息进行智能检索和推理。

语义标注是根据有关本体为网络资源及其各个部分标注概念类、概念属性和其他元数据的过程,是语义推理的基础。语义标注的方法主要有三种 [26] :①人工标注,由专门人员进行。②利用文档类型定义(Document Type Definition,DTD)和文献模式(Schema)中的内容元素及其与本体中概念的映射关系进行标注。③利用词汇语义分析及其与本体的映射进行标注。

在语义标注的基础上,语义推理利用文献的语义标注和本体中的语义关系及推理规则集合进行推理,从而实现基于本体的智能检索和知识组织。

(7)进行机器翻译。

高质量的机器翻译(MT-Machine Translation)系统必须充分结合语言学知识以及语言中性的世界知识。近年来,本体被广泛用于在概念层对客观世界知识的建模,本体作为客观世界的知识模型,通过把概念组织成一个层次结构并在概念间建立丰富的概念联系而构成。另外,本体通过把某种语言中的词汇映射到本体中的概念,可以支持在源语言分析时进行歧义消解和目标语生成时的词汇选择,并可以作为源语言和目标语言之间中介表示的概念来源。

具有深层理解能力的智能自然语言处理系统需要综合利用两类知识,语言学知识和语言中性的客观世界的知识。语言学知识对于不同语种是各不相同的,然而客观世界知识对人类却是共同的。也就是说,具有不同语言的人可以共享同一个本体,这就是不同语种之间可以互相翻译的一个认知基础。基于这个信念,研究人员已开始研究基于本体来建立自然语言理解系统和MT系统,比如洛杉矶南加州大学信息科学研究院的PENMAN项目、新墨西哥州大学的Mikrokosmos项目等,类似的研究还包括我国董振东教授创建的知网(HowNet)、黄曾阳教授的概念层次网络中的局部联想脉络等。 pVyoTxWt6ZKHho/00apKmmWm0TataSRezGuPiMtb6GXSRz0wl1hNtkEksZVRhC40

点击中间区域
呼出菜单
上一章
目录
下一章
×