知识图谱在语义检索、数据分析、自然语言处理、智能问答等方面体现出极大的应用价值,其发展过程经历了从早期知识库项目、大数据时代的知识图谱到垂直领域知识图谱等阶段。典型的通用知识图谱项目有:社区协作构建的大规模链接数据库Freebase(目前已关闭,数据和API服务均迁移至Wikidata),开源的多语种知识库Wikidata,多语言词典知识库BabelNet,集成Wikipedia、WordNet、GeoNames的链接数据库Yago,以概念层次体系(概念定义和概念之间的IsA关系)为中心的微软概念图(Microsoft Concept Graph),包含政府、生命科学、出版、社交媒体等8个领域的1301个数据集及16283个链接(更新至2020年5月)的关联开放数据云(The Linked Open Data Cloud, LOD Cloud)及面向中文域的开放知识图谱OpenKG等。相较而言,领域知识图谱知识结构更加复杂、对知识要求更高,面向知识来源更广泛的特定领域如金融证券、创投、电商、中医临床等,典型的领域知识图谱实践有医疗领域包含百亿级RDF三元组的Linked Life Data、类层次结构复杂的GeneOnto [23] 等。随着知识图谱构建技术的发展及与领域知识特点的结合应用,其服务场景越来越多元化。
以科技文献资源为语料基础的学术领域,知识图谱通常用于支持数据发布、知识搜索、知识标引等形态的应用,也被称为关联数据,服务于专业技术人员或特定行业从业人员。学术界与知识图谱的结合由来已久,早在2013年欧盟、美国和澳大利亚政府就联合成立了国际研究数据联盟(Research Data Alliance),通过科研数据交换机(Research Data Switchboard)、科研图谱(Research Graph)关联出版物、研究数据、科研人员、资助项目。此后,相关研究实践不断推进,以图书情报领域为例,英国BBC定义涵盖音乐、野生动物、体育等实体类型的知识本体,并以此为基础将新闻信息转化为机器可读的RDF三元组图格式进行内容的管理和报道的自动生成 [24] ,上海图书馆以书目框架(Bibliographic Framework, BIBFRAME)为基础框架构建包含家谱、手稿、名人等资源的家谱关联数据。
作为世界领先的研究、教育和专业出版商,施普林格·自然(Springer Nature, SN)推出的关联开放数据SciGraph主要目标是通过整合众多来源(数据库、API、zip文件等)的传统出版格式(如PDF、TIFF、HTML、ePub、XML等)全领域内容资源,如科研项目、科研机构、出版物、会议等(其他如引用、专利、临床试验等数据将分阶段推出),为学术出版领域构建关联数据知识图谱,实现数据关联、互操作和数据挖掘等功能,增加出版内容的可发现性和价值,最终为研究人员、作者、图书管理员、数据科学家、资助者等一系列科研活动主体提供开放关联数据工具和服务。SN SciGraph项目始于Springer和Nature合并之后,以NPG Linked Data、Nature Ontologies为原型,继承和复用VoID(Vocabulary of Interlinked Datasets)、VANN(Vocabulary for Annotating Vocabulary Descriptions)等通用词表及SKOS(Simple Knowledge Organization System),基于nature.core核心本体构建SciGraphCore ontology,采用schema.org描述规范将领域模型和书目数据(期刊、论文、图书、协议等)统一起来,汇聚整合成规模超过15亿个RDF三元组的第三方关联数据集,并与书目本体(Bibliographic Ontology, BIBO)、出版需求工业标准元数据(The Publishing Requirements for Industry Standard Metadata, PRISM)、VIVO-ISF(Integrated Semantic Framework)本体、DBpedia等之间建立主题词或类和属性的映射关系,支持语义检索、动态语义发布及丰富的Web元数据获取,是学术领域最大的关联开放数据聚合平台。
SN SciGraph包含期刊、论文、专著、专著章节、机构、资助者、经费、专利等核心类,其中专利类需要通过子类模式(作为schema:CreativeWork子类)创建一个特别的实体类型,其余类对应schema.org站点上指定的词汇及语义。SN SciGraph数据模型与组成如图1-15所示,以JSON-LD格式的RDF集形式进行发布,可为用户提供按文件类型下载的服务。
图1-15 SN SciGraph数据模型与组成
SN SciGraph关联数据发布与查询平台根据文献类型分类给出列表查询结果,基于每条结果提供多元化详情、标识符、图谱可视化、返回的JSON-LD数据片段、三元组等。图1-16展示了以“quantum computing”为检索词的查询结果,包括检索结果列表界面和可视化界面。数据获取方面,SN SciGraph的授权许可协议采用通用的知识共享许可协议。
图1-16 以“quantum computing”为检索词的查询结果
AceKG(Acemap Knowledge Graph)是由国内上海交通大学Acemap团队发布的语义学术异构图谱,数据集规模近百GB。AceKG本体模型和数据结构框架分别如图1-17、图1-18所示 [25] ,描述了亿级多类型学术实体和十亿级关系信息,其中包括超过2亿篇论文、1亿多个作者、76万多个领域、2.6万个学术机构等。AceKG的前身是面向学术大数据的可视化分析平台Acemap,包括合作者、论文、师承等在内的多种学术地图,AceKG是基于知识地图Acemap演变而来的RDF三元组图数据库,支持用户定制个性化的学术地图,并孵化出AceRankings机构排名系统等系列产品。
AceKG定义了出版地点、论文、研究领域、作者、机构五种核心实体类型,其中出版地点包含会议和期刊两个子类,支持基于知识图的规则推理。为了处理同义和歧义,定义类中的每个实体都分配了一个URI,如ace:7E7A3A69和ace:7E0D6766分别表示两位姓名相同的学者。
AceKG的构建思路是在网络拓扑结构基础上加语义信息,以期为学术大数据挖掘项目提供支持。与其他学术/科研知识图谱相比,AceKG的优势体现在:
(1)提供包含多样学术实体及相应属性的学术异构图谱,支持各种学术大数据挖掘实验。
(2)全面覆盖学术本体中大多数实例,包括论文、作者、领域、机构、期刊、会议、联盟等,使得基于AceKG进行的学术研究更具说服力和实用价值。
(3)与ACM、IEEE和DBLP等计算机科学数据库建立实体映射,可帮助科研人员整合多个数据库的数据进行知识挖掘。
(4)使用TDB数据库存储各实体类型的RDF三元组数据(序列化格式为Turtle),易于机器处理,支持所有的Apache Jena API并提供SPARQL引擎支持图谱数据查询。
图1-17 AceKG本体模型 [ 2 5]
图1-18 AceKG数据结构框架 [25]
开放学术图谱(Open Academic Graph, OAG)是由清华大学和微软研究院联合发布的迄今为止规模最大的开放异构学术图谱,数据来源是AMiner的海量学术资源和微软的多资源实体类型的异构学术图谱MAG(Microsoft Academic Graph) [26] 。OAG发布过2个版本,OAG V1是通过Microsoft Graph Search API查询一篇AMiner论文的标题,将查询结果中标题、作者姓名和出版年份都相同的论文匹配在一起,准确率超过97% [27] 。2019年发布的OAG V2则包含更多类型数据——出版地点(Venue)、论文(Paper)、作者(Author)及相应的链接关系,通过框架LinKG实现异构实体的匹配。LinKG由三个实体匹配链接的功能模块组成(LinKG框架见图1-19),可应对资源的大规模、异质性和模糊性挑战 [26] 。
(1)出版地点链接:理想情况下,利用与出版地点相关的属性就可实现两个图中的实体链接,如出版地点全名信息、关键词、出版物及出版物作者,然而现实情况往往更加复杂,数据集中的许多期刊发表了数百万篇论文,这些论文又与数百万个作者相关,很难直接有效利用。由于出版地点匹配任务中全名单词的相对顺序表现出极大的重要性,且同一个出版地点表达长度不一(有前缀或后缀情况),故采用长短时记忆网络(Long Short-Term Memory, LSTM)的方法来匹配出版地点。
图1-19 LinKG框架 [26]
(2)论文链接:源学术图谱的亿级论文规模使得论文匹配面临诸多挑战,论文标题及作者列表等属性均被纳入计算范畴,采用局部敏感哈希(Locality-Sensitive Hashing, LSH)和卷积神经网络叠加的方式进行匹配。
(3)作者链接:由于普遍存在的作者名称歧义性问题,作者匹配相较于其他类型的实体链接更具难度。此项功能模块充分利用出版地点和论文的匹配结果,每个作者构造包含发文、出版地点和合作者的局部子图,具有相似名称的作者生成候选对,进而构建非均匀高斯图,已经匹配上的实体会使得这两个子图连通,然后采用异构图注意力网络(Heterogeneous Graph Attention Network, HGAN)确定每对候选作者是否匹配。
链接关系的数据描述格式为两个来源的实体ID对,JSON表示为:
其中,mid是MAG实体ID, aid是AMiner实体ID。
OAG提供免费文件下载功能,OAG V2中论文数据模型如表1-4所示,包含id、title、author.name、author.org、author.id等属性。
表1-4 OAG V2中论文数据模型
1.Elsevier知识图谱
国际化多媒体出版集团Elsevier主要为科学家、科研人员、学生、医学及信息处理专业人士提供信息产品和革新性工具,Elsevier知识图谱构建目标是结合机器学习将内容转换为答案,即将基于海量数据抽取形成的知识用来驱动问答等各种知识应用,为用户提供高效的知识服务或解决方案。图1-20展示的是Elsevier知识图谱平台,包含科研、生命科学、医疗保健3个领域模块主要数据源自其构建的数据网络,包括文献资源(论文、专著)、用户日志、作者、机构、资助者、引用等。
图1-20 Elsevier知识图谱平台
生命科学知识图谱主要是实现基于语义文本挖掘的生物路径提取、基于文本分析的生物活性及化学结构与性质的抽取。医疗保健知识图谱则是利用机器学习将该领域基于医学文献(期刊论文、教科书、总结报告等)、传统数据库(药品、统计数据等)等可信资源获取的知识内容概念和关系关联起来,通过可扩展的、易于导航的信息服务解锁知识,包含40万个概念、800万条关系、7.5万种疾病、4.6万个药物及6万多程序和9万个症状等多语种内容,支持到外部术语的映射及文献和外部参考文献的链接,可获取围绕医学名称和不同医学实体之间语义关系的附加信息和上下文,包括年龄、性别、种族等群组信息。整个图谱构建任务过程中,需要大量专家通过交互式创作界面手工标记知识图谱中的概念和关系,并标明出处信息和图表元素。医疗保健知识图谱可通过子图抽取和API获取,提供JSON和JSON-LD两种序列化格式,支持信息检索、推荐及临床决策支持服务。
2.KGen
KGen(Knowledge Graph Generation)是退行性疾病领域中基于非结构化科技文献抽取生成知识图谱的典型案例,旨在将研究人员的新发现与现有知识联系起来以产生新的假设,进一步推进科学研究 [28] 。KGen依托生物医学领域语义技术及领域本体等基础知识资源的支撑,可达到文本句子级的实体和关系识别抽取。图1-21展示的是KGen的体系架构,主要包括以下四部分 [29] 。
图1-21 KGen的体系架构 [29]
(1)预处理器:支持纯文本格式的非结构化数据输入,分别使用分句器、NLP工具Stanford CoreNLP进行句子识别和共同引用、缩写解析。
(2)三元组抽取器:主要是对预处理后的每个句子进行识别,以确定候选谓语、主语和宾语。具体为首先利用语义角色标记(Semantic Role Labeling, SRL)技术识别句子中的动词、施事者、受事者和其他语义角色,然后基于算法识别出主语、谓语和宾语,显然动词映射成谓语。
(3)本体连接器:将句子拆分并通过词性(Part of Speech, PoS)标记器标记(如名词、动词、形容词等),获取所引用句子的解析树,识别作为谓语候选项的动词和作为主语/宾语候选项的名词短语,将这些候选对象与本体进行匹配以找到与本体概念和属性对应的关系。将这个过程形式化表达,即句子 S ={ t 0 , t 1 ,…, t n }是由一组术语 t i 组成,每个术语都有一个与( t i , p i )相关的PoS,谓语候选词 p c = t i / p i ="VB"是一个词性为动词的术语,主语/宾语候选词so c ={ t i }是一组词性为名词短语(Noun-Phrases, NP)的术语,其在解析树中的父级节点为名词短语。每个候选词都与本体元素相关联。
(4)图生成器:三元组和本体链接作为输入,图生成器为三元组中的主谓宾分别创建本地资源并将其关联到从本体链接获取的资源,生成Turtle格式的图谱数据并通过Raptor将其转换为边和节点,使用Graphviz将边和节点集生成图形图像。
图1-22展示了“This study confirms the high prevalence of poststroke cognitive impairment in diverse populations.”基于本体链接的图表示生成过程。
3.新冠科研知识图谱
为抗击新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)引发的全球大流行疫情,临床医生和科学家需要依赖大量相关信息,国内外知名高校快速做出响应开展新冠科研知识图谱构建,致力于从生物医学知识的科学文献中发现疾病机制和相关生物学功能。
通过OpenKG. CN开放的新冠科研知识图谱(COVID-19 Research KG)是由国内浙江大学、华为云团队基于美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)中Taxonomy模块、全球流感数据库、Nextstrain网站等多来源数据联合构建的知识图谱,结合自然语言处理和知识图谱技术,自动化地从专业文献等非结构化数据中抽取SARS-CoV相关的知识点并整合而成,于2020年2月10日首次公开,包含病毒分类图谱(Virus Taxonomy KG)、新冠基本信息图谱、抗病毒药物图谱(Antiviral Drug KG)、新冠亲缘关系图谱(SARS-CoV-2 Phylogeny KG)及新冠文献抽取图谱(SARS-CoV-2 Literature Extraction KG),共17个概念、220多万个RDF三元组,预计将应用于药物发现、病毒变异性预测等信息服务场景。其中,概念及实体标识采用Base64编码,属性名称采用URL风格编码。
图1-22 “This study confirms the high prevalence of poststroke cognitive impairment in diverse populations.”基于本体链接的图表示生成过程 [29]
图1-23所示为病毒分类图谱的数据描述模型,包含16个概念、15个对象属性。
图1-23 病毒分类图谱的数据描述模型
(1)parent关系用于连接资源之间的层级,如家族树种COVID-19病毒的上层节点是未分类的β冠状病毒Betacoronavirus,可以通过parent关系向上遍历家族树。
(2)种(species)、属(genus)、科(family)等关系将病毒直接连接到其属类别、种类别节点,这样即可不通过遍历家族树直接找到其属。
(3)broader用于连接不同的家族概念,例如,属是物种更广泛的家族概念。
(4)虚线中的关系和概念是将在未来工作中添加的关系和实体类型,如病毒的基因实体、蛋白质实体、宿主实体等。
伊利诺伊大学香槟分校、哥伦比亚大学等国外高校基于科技文献(25534篇科研论文)、生物医学本体等联合构建多模态COVID-19知识图谱,包含基因表达、转录、蛋白质分解代谢、磷酸化等13类实体,以及基因和化学品的交互、化学品和疾病的关联、化学品和基因本体(Gene Ontology, GO)的丰富关联、化学品和通路的丰富关联等133类关系。该图谱共有50864个基因节点、7230个疾病节点、9123个化学节点、1725518个化学品-基因关联关系、5556670个化学品-疾病关联关系和77844574个基因-疾病关联关系,并以此支撑与COVID-19相关的基因、化学品及与COVID-19相似的疾病等内容的智能问答。