



知识图谱作为构建机器认知智能的基础之一,是人工智能的重要组成部分。知识图谱是以结构化的形式描述客观世界中的概念、实体及其关系的大型知识网络,将信息表达成更接近人类认知的形式,提供了一种更好地组织、管理和理解海量信息的能力。在政策部署、技术研发、标准研制、产业化推广、前沿应用场景试点等多方面因素的共同驱动下,知识图谱逐渐实现在智慧金融、智慧医疗、智慧能源、智能制造等众多领域的落地应用和深度融合,同时在各行业的数字化转型过程中,跨领域、行业或产业的知识图谱也逐渐获得关注。
为加速推动知识图谱在各行业的深度应用,我国已在多项国家和地方重要人工智能发展规划与相关政策中进行了相关部署,包括《新一代人工智能发展规划》《促进新一代人工智能产业发展三年行动计划(2018—2020年)》《高等学校人工智能创新行动计划》《广东省新一代人工智能发展规划》《关于上海市推动新一代人工智能发展的实施意见》等。其中,国务院于2017年7月发布的《新一代人工智能发展规划》中明确指出,实现对知识持续增量的自动获取,具备概念识别、实体发现、属性预测、知识演化建模和关系挖掘能力,形成涵盖数十亿个实体规模的多源、多学科和多数据类型的跨媒体知识图谱,并重点突破跨媒体统一表征、关联理解与知识挖掘、知识图谱构建与学习、知识演化与推理、智能描述与生成等技术。此外,德国于2018年11月发布的《人工智能战略》( Artificial Intelligence Strategy )及美国于2019年6月发布的《美国人工智能研发战略计划:2019更新版》( The National Artificial Intelligence Research And Development Strategic Plan : 2019 Update )等人工智能技术强国发布的国家战略中对知识发现、基于知识的系统等方面也进行了相关部署。
知识图谱在细分领域的应用,对于推动各行业及相关企业“知识驱动”下的转型升级具有重要意义。表1.1展示了知识图谱赋能13个领域的应用成效。
表1.1 知识图谱赋能13个领域的应用成效
续表
标准作为固化技术成果的重要形式,其在推动技术进步、促进应用融合、激发市场活力、规范市场秩序等方面发挥着重要作用。知识图谱的标准化对于提升知识图谱构建效率、推动数据在多领域复用、发挥知识图谱分析和技术价值有重要意义。近年来 RDF、RDFS、OWL等知识表示和知识建模相关标准为知识图谱的规模化构建及应用提供了重要的支撑作用,而且随着知识图谱在各领域的深化应用,知识图谱的技术框架、测试评估、能力成熟度模型、知识建模、知识融合、知识交换、知识计算及领域知识图谱构建与应用要求等方面的标准化需求日益攀升。此外,由于知识图谱系统日益增多,知识要素在行业内、集团内、企业间的安全交换与可靠流通需求也逐步显现,同样有待相关标准和配套工具来支撑。
目前,知识图谱相关标准化需求已获得了国际标准化组织/国际电工委员会的第一联合技术委员会(ISO/IEC JTC 1)、电气电子工程师学会(IEEE)、国家人工智能标准化总体组、中国电子工业标准化技术协会等国内外标准化组织或协会的关注。在ISO/IEC JTC 1/SC 42(人工智能分技术委员会)、IEEE知识图谱标准化工作组、知识图谱国家标准编制工作组推动下立项了多项知识图谱领域相关国际标准、国家标准、团体标准,形成了知识工程顶层标准、知识图谱顶层标准、知识图谱共性基础标准、知识图谱细分领域标准及配套白皮书、案例集等协同推进的局面。其中,就知识工程及知识图谱领域产业化应用过程中的标准化需求、优秀实践案例、共性技术路径、测试评估体系等内容进行了研究。知识图谱领域现有标准如图1.1所示。
图1.1 知识图谱领域现有标准
此外,W3C、NIST、ISO/IEC JTC 1/SC 32(数据管理与交换分技术委员会)等标准化组织围绕知识图谱领域知识表示、知识获取、知识建模等关键技术标准进行了研制,并发布了RDF、RDFS、OWL、本体模型等方面的一系列标准。截至本书编写时,知识图谱领域标准及相关标准关系如图1.2所示。
图1.2 知识图谱领域标准及相关标准关系
1.ISO/IEC JTC 1
ISO/IEC JTC 1是信息技术领域的国际标准化委员会,已经在人工智能领域进行了20多年的标准化研制工作,主要集中在人工智能词汇、人机交互、计算机图像处理、云计算、大数据等人工智能关键技术领域。
在知识图谱相关术语方面,ISO/IEC JTC 1词汇组在已发布的ISO/IEC 2382-28:1995《信息技术 词汇 第28部分:人工智能基本概念与专家系统》、ISO/IEC 2382-34:1997《信息技术 词汇 第31部分:人工智能机器学习》等标准中对知识、知识库、知识获取、知识工程、知识表示、认知建模等知识图谱相关专业术语进行了定义和说明,并在2015年最新研制发布的ISO/IEC 2382:2015《信息技术 词汇》标准中进行了更新。
在知识工程标准化工作方面,2017年10月,ISO/IEC JTC1第32届全会上批准并成立了SC 42人工智能分技术委员会,主要在基础标准、计算方法、可信赖性和社会关注等方面开展了国际标准化工作。2020年8月23日,由我国提出的《信息技术 人工智能 知识工程参考架构》( Information Technology-Artificial Intelligence-Reference Architecture of Knowledge Engineering )国际标准提案在ISO/IEC JTC 1/SC 42正式获批立项(项目编号:ISO/IEC WD 5392)。该提案作为知识工程领域的首个国际标准项目,规定了知识工程参考架构,明确了知识工程重要术语和概念,描述了知识工程中的角色、活动、构建层级、组件及其关系。
此外,ISO/IEC JTC 1/SC 42/WG 5于2020年7月成立了本体、知识工程/表示临时咨询组,对该领域标准化需求进行进一步研究与梳理。ISO/IEC CD 22989.2《信息技术 人工智能 概念与术语》、ISO/IEC TR 24372《信息技术 人工智能 人工智能系统计算方法概览》等在研标准对知识表示、知识服务、知识获取与应用等相关内容也进行了研究。
2.IEEE
IEEE 标准协会隶属于 IEEE,标准制定内容涵盖信息技术、通信、电力和能源等多个领域,包括IEEE 802 ® 有线与无线的网络通信系列标准、IEEE 7000 TM 人工智能伦理系列标准等。中国电子技术标准化研究院联合国内多家企事业单位向IEEE标准协会提报的标准提案《知识图谱架构》( Framework of Knowledge Graph ,项目编号:P2807)于2019年3月20日正式获批立项,并同步获批成立了IEEE知识图谱标准化工作组,主要开展知识图谱框架、关键技术、性能指标、典型应用等领域方向的标准研制工作。
当前,该工作组已相继推动立项了8项标准,覆盖知识图谱测试评估规范,以及金融领域、电力领域、标准制修订领域等细分领域知识图谱构建技术要求,并有医疗领域知识图谱、科技信息领域知识图谱等多项潜在标准化需求正在论证中,初步形成了跨领域和细分领域标准协同推进的研制路线。IEEE知识图谱相关在研标准及其范围如表1.2所示。
表1.2 IEEE知识图谱相关在研标准及其范围
续表
3.W3C
W3C全称为World Wide Web Consortium,中文名称为万维网联盟,是万维网主要的国际标准化组织机构,同时也是万维网领域最具有权威性和影响力的国际中立性技术标准化组织。W3C标准化组织于1994年建立,主要宗旨是通过促进通用协议的发展并确保相关标准具有通用性,对Web关键技术进行标准化工作。
在知识图谱方面,W3C相关标准化工作主要集中在语义网知识描述体系方面,研制与发布XML、RDF、SPARQL、RDFS、OWL等系列标准,形成了一系列知识表示、知识建模、知识存储关键技术相关标准。语义网知识描述技术栈如图1.3所示。此外,W3C于2018年7月推动成立了人工智能知识表示社区小组,旨在探讨人工智能领域知识的概念化,以及规范的要求、最佳做法和实施选项等。
图1.3 语义网知识描述技术栈
在知识表示方面,W3C 理事会推荐了 XML、RDF、RDFS、OWL 四项主要技术标准,其中,RDF系列标准包括RDF Primer、RDF Test Cases、RDF Concept、RDF Syntax。XML是一种元数据语法标准,也是一种标记语言,用于传输和存储数据,是语义网基础层。RDF是一种元数据语义描述标准,它被设计为一种描述信息的通用方法,可以被计算机应用程序读取并理解,现实中任何实体都可以表示成 RDF 模型中的资源。同时,W3C 理事会提议的SPARQL Requirements与SPARQL Language标准成为检索和操作基于RDF存储的知识图谱。
在知识建模方面,W3C理事会推荐了RDFS(RDF Schema)与OWL系列标准。其中,RDFS是RDF的扩展,规范了用于描述RDF资源的属性、类的词汇表,以及属性和类在语义上的层次结构。OWL是一种语义网本体语言,用于构建领域相关的本体,主要技术标准包括OWL Overview、OWL Guide、OWL Reference、OWL Syntax、OWL Test Cases、OWL Use Cases、Parsing OWL in RDF。OWL是在RDFS基础上丰富了类和属性的词汇,如类不相交性、基数约束、类的布尔组合等,主要增加了类、属性之间关系的定义或约束。
4.MUC
消息理解会议(Message Under standing Conference,MUC),主要针对关系抽取概念发布MUC-6、MUC-7评测标准,MUC 要求从非结构化文本中抽取信息填入预定义模板中的槽,包括实体、实体属性、实体间关系、事件和充当事件角色的实体。
5.NIST
美国国家标准技术研究院(National Institute of Standards and Technology,NIST)直属美国商务部,主要从事物理、生物和工程方面的基础和应用研究。在MUC-7之后,MUC由美国国家标准技术研究院组织的自动内容抽取(Automatic Content Extraction,ACE)评测取代,ACE评测标准从1999年开始筹划,2000年正式启动,其中,关系识别和检测任务定义了较为详细的关系类别体系,用于两个实体间的语义关系抽取。ACE-2008包括了7个大类和18个子类的实体关系,从2004年开始,事件抽取成为ACE评测的主要任务。
此外,国际电信联盟(International Telecommunications Union,ITU)自2016年开始进行人工智能相关标准化研究。但目前尚未发布知识图谱相关标准及研制计划。
1.国家标准
在知识图谱相关国家标准方面,2019年7月8日,国家标准化管理委员会下达2019年第二批国家标准制修订计划(国标委发〔2019〕22号),其中由中国电子技术标准化研究院提出的《信息技术 人工智能 知识图谱技术框架》标准(计划号:20192137-T-469)获得立项,并由全国信息技术标准化技术委员会归口。本标准拟就知识图谱技术框架、利益相关方、关键技术要求、性能指标、典型应用及相关领域、数字基础设施、使能技术等内容进行研究,以厘清知识图谱核心标准化需求,提升我国知识图谱标准化工作水平,并促进知识图谱在各行业的推广应用。
此外,全国信息技术标准化技术委员会在相关国际标准的基础之上发布了《信息技术 词汇 第28部分:人工智能 基本概念与专家系统》《信息技术 词汇 第31部分:人工智能 机器学习》《信息技术 大数据 术语》三项基础国家标准,其中给出了知识工程、知识表示、知识获取、本体等部分知识图谱相关术语。
2.团体标准
在知识图谱相关团体标准方面,由中国电子技术标准化研究院向中国电子工业标准化技术协会提出的《人工智能 知识图谱 分类分级规范》《人工智能 知识图谱 性能评估与测试规范》两项团体标准于2020年6月正式获批立项,其标准化范围如下:
(1)《人工智能 知识图谱 分类分级规范》针对当前知识图谱供应商能力良莠不齐、分类不清晰和评价方法缺失等标准化需求,拟规定知识图谱相关系统供应商的分类分级模型、能力框架、能力评价方法、评估指标等内容。
(2)《人工智能 知识图谱 性能评估与测试规范》针对当前知识图谱性能指标及测试方法不明确、构建过程中各环节性能与质量评估不规范等标准化需求,拟规定知识图谱质量评估要求、知识图谱性能指标、测试框架、测试需求模型及度量准则等内容。
3.标准体系研究
中国电子技术标准化研究院联合中电科大数据研究院有限公司、东软集团股份有限公司、联想(北京)有限公司、南华大学、星环信息科技(上海)有限公司、上海思贤信息技术股份有限公司、成都数联铭品科技有限公司、阿里巴巴网络技术有限公司等21家知识图谱领域相关开发商、系统集成商、用户企业、科研院所、高校联合编写并发布了《知识图谱标准化白皮书》(2019年版)。其中,从哲学层面、政策层面、产业层面、行业层面、技术层面、工具层面、支撑技术等多个层面对知识图谱的实际需求、关键技术、面临的问题与挑战、标准化需求、展望与建议等进行了梳理,涉及智慧金融、智慧医疗、智能制造、智慧教育、智慧政务、智慧司法、智慧交通等15个领域,并初步提出了知识图谱技术架构和标准体系框架等。知识图谱标准体系结构及其框架分别如图1.4和图1.5所示。
图1.4 知识图谱标准体系结构
图1.5 知识图谱标准体系框架
4.产品认证
围绕知识图谱相关软件或系统的测评与认证需求,中国电子技术标准化研究院联合北京赛西认证有限责任公司、联想、华为、百度、腾讯云、蚂蚁金服、百分点、网智天元、华宇等企事业单位依托上述知识图谱相关国家标准和团体标准等联合研制了《知识图谱构建平台认证技术规范》《知识图谱应用平台认证技术规范》《知识图谱构建平台认证实施规则》《知识图谱应用平台认证实施规则》。其中,上述标准给出了测评与认证指标体系及配套检测项、功能点和合格要求,覆盖了知识图谱构建各环节能力及知识图谱应用过程中安全性、可靠性等重要特性要求,并明确了在通过认证后可向认证机构申请授权使用的产品认证标识。知识图谱构建平台认证标识和知识图谱应用平台认证标识分别如图1.6和图1.7所示。
图1.6 知识图谱构建平台认证标识
图1.7 知识图谱应用平台认证标识
此外,为进一步推进知识图谱在金融、医疗等重点领域的融合,《金融领域知识图谱构建能力认证技术规范》《金融知识图谱应用能力认证技术规范》《医疗领域知识图谱构建能力认证技术规范》《医疗知识图谱应用能力认证技术规范》也已完成研制,后续将开展领域知识图谱相关产品的测评与认证。围绕知识图谱在各领域通用应用,还将开展智能问答、智能推荐、智能检索、辅助决策、知识管理等通用知识图谱应用能力认证。
1)已通过知识图谱产品认证的平台清单
第一批和第二批测评与认证工作分别于2020年11—12月和2021年8—11月开展。第一批和第二批通过知识图谱产品认证的平台清单及其所属企业名称如表1.3和表1.4所示。
表1.3 第一批通过知识图谱产品认证的平台清单及其所属企业名称
续表
表1.4 第二批通过知识图谱产品认证的平台清单及其所属企业名称
2)已通过认证平台的能力现状
《知识图谱构建平台认证技术规范》中规定了知识图谱构建平台的基础能力指标59项,其中,必选指标30项,可选指标29项;《知识图谱应用平台认证技术规范》中规定了知识图谱应用平台的基础能力指标31项,其中,必选指标16项,可选指标15项。根据第一批和第二批通过认证平台对指标的满足情况,可以初步分析当前知识图谱相关平台的发展现状。
(1)部分平台实现了对知识图谱构建、应用与维护全流程的覆盖
根据表1.3和表1.4中各平台的认证分布情况,共计18个平台同时完成了知识图谱构建能力与知识图谱应用能力的测试和认证,实现了从结构化数据、半结构化数据、非结构化数据的知识抽取到知识应用、知识维护与管理的全流程,占总数的比例为76%。尽管各功能模块间集成水平有待提高,但构建形成覆盖全流程、各环节相互衔接的知识图谱应用系统趋势已显现。
(2)基础性能和功能指标全部满足率依然较低
《知识图谱构建平台认证技术规范》《知识图谱应用平台认证技术规范》结合各企业实践,提出了基础性的功能和性能指标。然而,通过全部知识图谱构建平台测试指标的平台数量占比仅为11%,通过全部知识图谱应用平台测试指标的平台数量占比为36%,各平台整体能力仍有提升空间,如图1.8和图1.9所示。
图1.8 通过全部知识图谱构建平台测评指标的平台数量占比情况
图1.9 通过全部知识图谱应用平台测评指标的平台数量占比情况
(3)知识图谱应用平台已覆盖了通用领域及金融、医疗、制造业等重要细分领域
已通过认证的平台不仅包括了面向通用或跨行业知识图谱构建、应用与管理的平台,也包括了聚焦典型领域应用需求的知识图谱平台,共覆盖了智慧金融、智慧医疗、智能制造、智慧运营商、信息安全、科技情报、智慧司法、智慧公安细分领域。已通过认证平台数量的领域分布情况如图1.10所示。由图1.10可知,细分领域渗透率稳步提升。
图1.10 已通过认证平台数量的领域分布情况
(4)知识图谱构建平台中知识融合、知识计算及非结构化数据的知识抽取能力相对薄弱
已通过知识图谱构建平台认证的平台或系统在知识获取、知识表示、知识存储、知识建模、知识计算、知识融合等多个环节已建立相应的功能模块,同时面向知识图谱构建的平台化产品已逐步成型,有利于复制推广与整体交付。
在能力分布方面,已通过认证的平台或系统仍存在差距。其中,知识计算中可选检测项平均通过率仅为47%,知识融合中可选检测项平均通过率为68%,尤其在实体类型、关系和属性名对齐与融合,知识推理等方面通过率较低。此外,在非结构化数据知识获取方面,受限于数据类型差异大、获取难度大等问题,获取的准确率、召回率有待进一步提升。综合考虑各维度检测项通过率及检测项数量,已通过知识图谱构建平台认证的平台能力平均分布情况见图1.11。
图1.11 已通过知识图谱构建平台认证的平台能力平均分布情况
(5)知识图谱应用平台中可移植性和易用性有待强化
已通过知识图谱构建平台认证的平台或系统在安全性、可靠性、响应性、可移植性、易用性等方面设计了相应的功能模块,但在顶层本体模型及Schema的在线导入、导出,多维度知识图谱内容可视化展示等方面通过率较低,有待继续强化,以提升平台与外部专家、知识内容审核人员、知识内容管理人员等人员间的协同交互效率。综合考虑各维度检测项通过率及检测项数量,已通过知识图谱应用平台认证的平台平均能力分布情况如图1.12所示。
图1.12 已通过知识图谱应用平台认证的平台平均能力分布情况
5.标准化挑战
1)知识图谱质量评估与测试相关标准缺失
知识图谱质量的保障不仅涉及知识图谱构建过程中的知识表示、知识建模、知识获取、知识存储、知识融合、知识计算等各环节的质量评估,而且涉及知识图谱应用系统各模块功能和性能的测试。因此,从知识图谱的内容和系统两个层面构建较为完备的质量评估体系和质控指标,并结合当前企业实践情况给出指标通过准则,进而为知识图谱应用系统策划、开发与部署过程提供指导和参考。
2)本体模型构建与联动更新相关标准缺失
本体模型及其 Schema 构建过程涉及对领域知识的高度抽象化建模,无法简单固化或设定,需领域专家的深度参与。而且,由于知识图谱应用系统部署实施后,随着时间推移、领域研究深度、广度的拓展,以及业务模式的变化,本体模型也可能需要不断演进,以保障其准确性和适用性。因此,有待规范本体模型的描述格式及联动模式,以保障本体模型应用和更新的可持续性。
3)跨域知识交换与融合相关标准缺失
随着知识图谱应用系统在各领域、各企业的逐步建设和完善,目前已出现了一批优秀的成果。然而,由于建设初期相关系统着重于聚焦企业内部需要,顶层本体模型的构建流程和表达方式差异大且知识表示形式多样,导致建成后各系统间知识交换、知识图谱集成与融合困难,加深了集团内企业/部门间的信息壁垒,阻碍了行业内知识的流通。与数据交换相比,知识交换中不仅涉及知识本身,而且涉及配套的概念、语义等,因此,通过规范化的知识交换与融合协议,对本体模型、知识表示、知识访问、交换模式等多个方面进行统一。
4)知识图谱中知识查询格式与语言相关标准缺失
目前,知识图谱尚无统一的查询语言,各厂商多根据自身需要进行设计和选择,存在较大的差异性。这导致不同厂商无法对同一知识图谱进行直接操作,增加了用户企业在后期维护和升级知识图谱应用系统过程中的投入成本,也阻碍了通用知识检索或计算工具的研制与开发,有待相关标准进行支撑。
5)知识图谱服务方能力评估相关标准缺失
由于知识图谱应用系统在建成后将逐渐成为企业内部的重要知识服务基础设施,在构建过程中不仅需大量企业内、行业内专家的介入与支持,而且需要与企业内必要业务系统进行集成调试,并可能涉及多源异构数据的清洗等问题。这对知识图谱服务商在项目管理、系统集成、知识图谱构建、数据安全保障与数据治理等能力均提出了相应要求。因此,应对其能力进行合理评估与分析,以保障最终知识图谱应用系统的可靠交付。
除上述问题外,细分行业中还面临专业术语集或术语库匮乏,并面临知识图谱应用系统与业务系统集成、知识服务部署、知识图谱实施与评估等方面的标准化需求与挑战。
随着知识图谱和智慧金融、智慧医疗、智慧能源、智能制造等领域的快速融合,我国知识图谱产业化应用发展取得了明显成效,并初步呈现出知识图谱供应商、知识图谱集成商、知识图谱用户企业及知识图谱基础工具服务商、数字基础设施提供商、支撑服务提供商等知识图谱生态合作伙伴协同发展的产业生态体系框架。结合当前部分企业实践情况及机器学习、自然语言处理、机器视觉等其他AI 技术对知识图谱产业化应用的支撑作用,图1.13给出了知识图谱产业图谱示意。其中,基础工具供应商包括开源框架供应商、数据库供应商、开源知识库供应商、知识建模工具供应商,数字基础设施供应商包括基础计算设备供应商、大数据服务供应商、机器学习等其他AI技术供应商、数据供应商,支撑服务供应商包括标准化机构、安全服务供应商、研究机构、网络供应商。此外,需要说明的是,监管机构及数据治理服务商也是知识图谱产业生态的重要组成部分。
根据知识图谱产业体系内各利益相关方之间的协作关系,知识图谱整体技术框架可用图1.14表示。其中,知识图谱供应商是指使用数据和已有知识构建知识图谱以满足特定需求,并提供基于知识图谱的基础产品或服务的组织;知识图谱集成商是指提供对知识图谱应用系统中的各子系统整合服务的主体,确保各子系统运行正常,整合后的系统功能完整且输出符合预期需求;知识图谱用户是指应用基于知识图谱的产品或服务以满足自身需要,并保证其可持续运营的一类组织,可以是企业,也可以是个人;生态系统合作伙伴是指为供应商、集成商和用户提供独立于核心知识图谱技术并为其构建和应用知识图谱所必需的信息基础设施、数据、工具、方法、标准、规范和机制的参与者集合。
知识图谱用户可对外输出必要的数据/知识,其输入主要包括系统对各类用户的使用接口和规范,以及由知识图谱提供的各类服务。根据自身任务和需求的不同,知识图谱用户还可以进一步细分为知识提供者、知识维护者、知识使用者、系统维护者。生态系统合作伙伴与知识图谱其他相关方的关系如下。
图1.13 知识图谱产业图谱示意
图1.14 知识图谱整体技术框架
生态系统合作伙伴围绕知识图谱其他相关方的需求和标准,通过整合已有资源并开展相关工作,最终提供满足用户需求的成果物,如技术咨询报告、IT基础设施、数据和知识、安全保障服务、监管服务、评估认证服务、运维服务等。知识图谱其他相关方在知识图谱构建、集成和使用过程中,对技术、IT基础设施、数据和知识、安全保障、监管、评估认证、运维等方面产生的实际需求,是推动生态系统合作伙伴参与供给活动的基本动力。
知识图谱的高品质构建既有赖于知识表示、知识建模、知识获取、知识融合、知识存储、知识计算等核心环节的协同,又有赖于质量评估等支撑环节的保障,知识图谱构建流程如图1.15所示。知识图谱构建所需的前端输入包括应用需求、应用场景、业务数据、专家知识、行业知识、质量指标、支撑技术与服务,以及安全、监管、测评要求等。知识图谱构建形成的知识图谱产品或服务将用于语义搜索、演化分析、知识问答、对话理解等通用知识图谱应用,以及智慧金融、智慧医疗、智能制造等行业知识图谱应用。
针对前端输入,应用需求主要用于明确所形成知识图谱产品或服务的整体架构、应用方向、应用场景和验收考核指标等;业务数据包括基础训练与测试数据、业务数据等,主要用于支持知识表示学习、知识获取等环节算法模型的设计、训练测试,以及后续知识图谱的构建;专家知识、行业知识主要用于支持知识建模、知识融合、知识计算等环节架构、算法,以及实现途径的设计、开发与验证;质量指标主要用于评估和控制知识图谱构建过程各环节的质量以满足应用需求;支撑技术与服务主要用于支持各环节实现过程中所需自然语言处理、机器学习、大数据等技术的融合与应用;安全、监管、测评要求等主要用于第三方管理或认证测评机构对知识图谱构建过程及最终输出产品或服务的质量监督等。
图1.15 知识图谱构建流程
注:知识溯源、知识演化为非必需的环节。
根据国家标准 GB/T 42131—2022《人工智能 知识图谱技术框架》,知识图谱构建流程中各活动初步定义和任务组成描述如表1.5所述。
表1.5 知识图谱构建流程中各活动初步定义和任务组成描述
续表
知识图谱生命周期根据构建过程,以及系统开发与部署过程的差异,从技术构成与工程实施视角,可细分为知识图谱构建生命周期和知识图谱系统生命周期两个维度。其中,知识图谱构建生命周期包括知识表示、知识建模、知识获取、知识融合、知识存储、知识计算、知识应用和维护等阶段。知识图谱系统生命周期包括需求分析、方案设计、功能开发与验证、图谱构建与集成部署、运营推广、使用维护、退役更新等阶段。
由于关注内容不同,知识图谱系统生命周期的不同阶段涉及的知识图谱构建生命周期的环节存在差异。知识图谱系统生命周期流程图如图1.16所示。
(1)在需求分析阶段,主要对知识计算、知识应用和维护的场景及相关性能要求进行分析和梳理,明确拟建设知识图谱系统的输入数据、需衔接的支撑系统、业务系统等,并在必要时对数据治理提出需求。
图1.16 知识图谱系统生命周期流程图
(2)在方案设计阶段,根据梳理后的需求和应用场景中涉及的知识类型,对知识表示方式、知识模型框架、知识获取要求、知识融合约束、知识存储结构等方案进行逐一解构,并形成知识图谱系统的相关方案。
(3)在功能开发与验证阶段,根据形成的方案,对知识图谱系统中各模块及其中配置的算法模型进行功能开发和训练,并根据必要的基础数据对各项功能进行验证和修正。
(4)在图谱构建与集成部署阶段,对知识图谱系统各项功能与应用场景相关支撑系统和业务系统进行集成,并根据获取的业务数据、专家知识、行业知识等完成知识图谱系统的构建,在应用现场进行实际部署和联合调试。
(5)在运营推广阶段,基于已部署完成的知识图谱系统,对知识图谱系统管理和应用相关人员进行全面培训,并在企业或行业内部进行持续的推广,以持续提升知识图谱系统的性能和服务能力。
(6)在使用维护阶段,根据知识图谱系统长期使用过程中发现的问题,对知识模型、知识表示方式、知识计算能力、知识应用功能进行调整和完善,以保障知识图谱系统在较长应用周期内的有效性和适用性。
(7)在退役更新阶段,当知识图谱系统功能和性能难以满足用户需求时,基于成本、技术复杂度、实施周期等条件,对知识图谱系统构成进行全面评估,以判断是否进行知识图谱系统的全面更新或退役。
1.战略保障
由于知识图谱在建成后将逐渐成为企业内部的重要知识服务基础设施而且在构建过程中需大量企业内、行业内专家的介入与支持,因此,还需企业在战略层面提供必要的保障措施,如长周期战略规划、专家资源投入、技术创新能力拓展等。此外,企业内多源异构数据的治理、信息安全制度衔接、风险管控、系统试运行与测试评估等方面也需要进行系统性规划,最终保障交付产品的易用性和可靠性。
2.质量保障
由于构建全量的领域知识图谱成本很高,在真实的场景落地过程中,知识图谱有待进行持续的完善和演化,才能够保证新知识的持续积累和对应用场景的长期服务。因此,在知识图谱项目或系统策划、开发与部署过程中,需要对后期较长时期内的适用性、兼容性、可扩展性、继承性和可迁移性等方面进行分析和需求梳理,并参考知识图谱测试评估相关标准及自身需求,明确配套的质量评估体系和管控指标。
3.系统间知识交换
随着知识图谱系统在各领域、各企业的逐步建设和完善,目前已出现了一批优秀的知识图谱系统。然而,由于建设初期相关系统着重于聚焦企业内部需要,顶层知识模型的构建流程和表达方式差异大且知识表示形式多样,导致建成后各系统间知识交换、知识图谱集成与融合困难,加深了集团内企业、部门间的信息壁垒,阻碍了行业内知识的流通。与数据交换相比,知识交换中不仅涉及知识本身,而且涉及配套的概念、语义等,因此有赖于规范化的知识模型、知识表示、知识存储接口等多个方面,并需配套的系列标准和工具进行支撑。知识图谱系统间知识交换示意如图1.17所示。
4.知识图谱运维
针对知识图谱初次构建完成之后,知识图谱运维也是系统实施的重要组成部分,是指根据用户的使用反馈、不断出现的同类型知识,以及增加的新的知识来源,进行全量行业知识图谱的演化,运维过程中需要保证知识图谱的质量可控及逐步丰富演化。知识图谱运维的过程是个工程化的体系,覆盖了知识图谱的从知识获取至知识计算等的整个生命周期。
知识图谱运维包括两个方面的关注点:一个是从数据源方面的基于增量数据的知识图谱的构建过程监控;另一个是通过知识图谱的应用层发现的知识错误和新的业务需求,如错误的实体属性值、缺失的实体间关系、未识别的实体、重复实体等问题。这些运维暴露的问题会在知识图谱构建的流程、算法组合、算法调整、可新增业务知识优先级排列等方面进行修正,提升知识的质量和丰富知识的内容。知识图谱运维需要基于用户反馈和专家人工的问题发现及修正、自动的运行监控、算法调整后的更新相结合,因此是人机协同、专家和算法相互配合的一个过程。
图1.17 知识图谱系统间知识交换示意
注:当前知识图谱系统间的知识交换尚未取得较大范围的实践应用。
1.概述
知识图谱在实现技术演进和产业化应用的同时,也在数据准备、构建与维护、应用系统集成与部署知识图谱应用系统建设的三大阶段分别面临一系列共性挑战,有待关注并在项目规划中予以综合考虑。知识图谱存在的共性挑战如图1.18所示。
图1.18 知识图谱存在的共性挑战
(1)在数据准备阶段,场景专业化、数据精细化挑战突出。数据是一切技术构建的前提,在数据来源、数据对接、数据标注、数据处理、数据融合等过程中,存在着各式各样的问题。此外,不同行业存在着不同的专用术语、语法与逻辑,尤其像司法、金融等特殊行业,其应用场景对于专业知识水平均有较高要求,知识图谱需在通用化与个性化中进行取舍和平衡。
(2)在构建与维护阶段,更新实时化、推理智能化挑战突出。知识图谱在具体应用中需对其知识内容进行不断更新,甚至在部分场景中需实现实时更新与自动获取,来保证数据的时效性和准确性。此外,基于特定的业务需求和已有的数据,建立精确、高效的推理计算模型并输出正确的结果,决定了知识图谱应用的高品质和有效性。
(3)在应用系统集成与部署阶段,部署规范化、维护便捷化、系统互通化挑战突出。知识图谱只有与必要的功能模块共同组合形成知识图谱应用系统,才能够在企业中部署和运营。此外,知识图谱还可能涉及与关键业务系统的集成,以获取重要数据或提供知识服务支撑。这些都需要以工程化视角进行建设,并形成完备的交付材料,以保障服务方撤出后,企业能够实现自我管理和基础维护。
2.数据准备阶段的相关挑战
1)多源异构数据质量不高
数据是知识图谱构建的基石,其来源可分为自有数据和外源数据。自有数据是建设者自身拥有的数据,大多数为公司数据库里产生的业务数据;外源数据是通过互联网爬取、数据交易或公开共享等渠道所获得的数据。在实际应用中,多源异构的数据往往依托于不同的业务需求和工具而产生,缺乏统一的业务数据模型标准和行业描述规范,使得多源数据存在歧义、噪声大、质量不高等问题。其中,数据歧义体现在实体和概念属性描述缺乏精确性、一致性,或实体间关系扭曲,进而可能导致概念描述重复、语义描述冲突、推理机制混乱等问题。
2)数据分散度高,关联性不明确
关联是知识图谱的核心和特征之一,是指使用本体对各种类型的数据进行抽象建模。构建“实体类型—实体—属性—关系”的数据类型是构建知识图谱的基础工作。数据间的关联性是否明确决定了知识图谱实体关系清晰、完整。然而,现有的公共知识库并没有按照领域数据的特点分类,无法完整表达文本、图片等知识和它们的关联,在一定程度上给本体构建带来了挑战。
3)数据类型和格式繁多
不同结构类型的数据有着不同的挑战。从结构化数据库里获取知识需要处理复杂的表数据,而从链接数据中获取知识需要解决数据对齐的问题。从半结构化(如网站)数据中获取知识,需要对包装器进行定义、生成、更新与维护。从非结构化数据中获取知识的难度最大,且大部分数据都是非结构化的,其中包含了文本、图像、语音等不同形态的数据。从文本来获取数据,涉及大量自然语言理解的问题;从图像来获取数据,涉及大量视觉识别相关的问题;从语音来获取数据,涉及大量语音识别相关的问题。
4)数据安全与保障措施有待强化
随着知识图谱中知识规模和维度的增加,涉及的数据范围不断拓展。部分数据可能会包含隐私信息,特别是金融、医疗等领域的知识图谱,须在数据安全方面基于法律法规、国家标准建设体系化的保障措施,提升知识图谱的安全性。
5)专业术语集/库不完备
专业术语集是知识图谱构建中重要的数据基础之一。通用知识图谱和领域知识图谱的目标对象不同,知识图谱构建所需的专业术语集有一定的差别。通用知识图谱的术语集更注重百科知识的科普性,而领域知识图谱的术语集更强调行业知识的专业性。目前,大多数企业的数字化程度都不够,无法自主沉淀出完备的专业术语集。这主要有三大原因:第一,专家知识往往是隐性的,难以直接从文本中抽取出来;第二,专家知识有着一定的门槛,只有少部分行业的从业人员才能完成专家知识的众包工作;第三,各个行业内缺少统一的术语制定规范和知识共享平台。因此,面对复杂多样的知识百科和成千上万个细分行业,当前构建的专业术语集和知识库还远远无法满足应用需求目标。
3.构建、管理与维护的相关挑战
1)本体模型质量有待提升,更新难度大
(1)本体模型开发工具不完善
随着知识图谱构建的需求增多,许多机构通过抽象知识图谱构建过程来尝试搭建本体模型开发工具(以下简称“工具”),用以辅助构建本体。主流的本体构建工具包括 Ontolingua Server、WebOnto、OilEd 等。各种工具在技术水平上具有各自的优缺点,几乎没有一种工具可以提供完备的功能支持。例如,WebOnto、WebODE不提供备份管理功能,OilEd不提供协作构建本体的环境。知识图谱本身属于人工智能领域较新的技术方向,目前工具水平参差不齐。专业工具的匮乏降低了本体构建的效率,因此,如何构建完整、易用的工具成为业内面临的重要挑战。
(2)本体模型设计与构建完备性不足
对于领域知识图谱,构建一个标准的知识本体是一项巨大的工程,对业务人员的行业理解能力要求较高。建设者为尽可能地建模场景元素,既要了解业务细节,如复杂实体如何拆分,属性和实体关系如何区分等问题,又要宏观把控业务,针对问答、检索等不同的需求构建不同的本体。现阶段本体模型的构建,大多需领域专家对概念体系和关系进行评估后,才能形成较为完备的本体模型。但由于各个领域的本体数目众多、关系复杂,且实体类型等设计具有主观性、缺少统一的标准,导致人工构建的本体模型往往存在缺陷。
(3)本体模型动态变迁困难,维护成本高
随着本体层知识的动态变化或更新,本体应及时做出响应。而且,本体的变化极大地影响着实体和实体关系的变化。例如,某领域内用户产生新需求或产生某种新认知,可能带来本体的扩展性差、对用户响应慢等负面情况。而且对领域知识图谱来说,业务变化和业务人员的认知水平变更也会增加本体构建的不确定性。在维护、更新本体,以及实现对数据、数据模式动态变化的支持等方面还存在诸多挑战。
(4)领域知识体系比较封闭,公开获取渠道少
受细分领域内组织自我保护等因素限制,领域知识图谱体系比较封闭,知识获取的开放途径少,专业知识分散度高而且存在内容滞后等问题。然而,本体构建需参考的语料库不仅包括相关的专业文献、专利、字典和工具,而且包括领域流程、工艺、市场和用户等多方面的知识体系。这导致本体构建可用的领域知识不充分,可用程度不高。
2)大规模知识融合、演化和管理能力有待强化
(1)大规模实体消歧和标识管理有待强化
知识图谱中的一些实体具有非常相似的名称,如具有相同或相似标题的电影、歌曲和书籍。但每一个实体应具有唯一的规范化标识。如果没有正确的链接和消歧,实体将与错误的事实相关联,并导致下游的错误推断。在一个数据规模较大的系统中进行标识管理时,如何进行标识描述,使不同的团队能够达成一致,并知道其他团队在描述什么;开发人员如何确保有足够的可读信息来判定冲突等问题,在上述场景中将变得更具挑战性。
(2)大规模知识演化和知识管理有待强化
当前,知识图谱构建的方法和技术重点聚焦于知识获取、知识处理和知识融合,较少关注知识演化和知识图谱应用系统的维护管理。由于知识图谱构建的步骤繁多,针对整体系统的运维和管理也非常复杂。例如,一个有效的实体链接子系统,就需要根据其不断变化的输入数据进行有效的更新。虽然部分知识图谱应用系统已配置了知识图谱的版本管理能力,但是距离知识图谱中高度动态的知识管理仍然有一定差距。因此,针对知识图谱应用系统的维护管理工具需要加强开发。
(3)知识质量控制难度大
知识质量控制包括质量评估、问题发现和质量提升。评估数据质量需要确定一组数据质量维度和相应的度量方式,但知识图谱的质量评估尚未形成统一的维度标准。针对不同的下游任务和不同的数据集,知识图谱的质量评估往往会有不同的质量要求,这给评估工作带来较大的挑战。
而且,现存的质量评估方法大多是针对静态知识的,缺少对动态知识的评估手段。手动方式依赖于任务设计和用户参与,效率低、成本高,不适用于大规模图谱;半自动方式涉及规则的自动发现和人工验证的结合,目前还没有得到很好的研究;全自动方式由于完全脱离人工校正,准确率和可信度有待提高。质量提升因其复杂性较高,还未得到很好的研究。
3)复杂规则表达困难,深层隐性知识计算能力有待强化
(1)多元关系中复杂的隐含信息挖掘有待强化
知识计算的主要对象多是二元关系,通常处理多元关系的方法是将其拆分为二元关系进行推理。然而,将多元关系拆分会损失结构信息,如何尽可能完整地利用多元关系中复杂的隐含信息进行推理是知识计算的一大挑战。
(2)小样本或零样本学习的知识推理有待强化
现有的知识计算往往基于大量高质量的数据集进行训练来得到有效的推理模型,并通过在测试集中测试、优化模型来完成推理任务。除了数据集获取成本高的问题,训练出的推理模型的泛化能力也极为有限。而在现实世界中,人类通过少量样本的学习即可完成复杂的推理。因此,如何模仿人脑机制实现小样本或零样本学习的知识推理也是一大挑战。
(3)基于动态约束信息和复杂规则的动态推理有待强化
知识图谱中知识的有效性往往受到时间、空间等动态因素的约束。如何合理利用知识的动态约束信息完成动态推理是知识计算的一大挑战。此外,实体和关系构建的语义网络复杂,导致知识图谱中的规则表达困难,知识计算开销巨大,自动化推理的难度也相应增加。
4)多模态、跨语言的知识图谱构建能力有待提升
(1)多模态的知识图谱构建难度大
知识图谱技术已经广泛用于处理结构化数据和文本数据,但对于图像、视频、音频等多模态数据的知识提取缺乏有效的技术手段。因此,目前针对多模态数据的知识图谱构建难度较大,包括多模态下的实体构建,多模态实体间的语义关系构建,不同模态信息间的互补、融合,多模态知识的实体消歧、跨模态之间的语义对齐等问题。
(2)跨语言的知识图谱构建技术基础薄弱
全面的知识图谱必须涵盖以多种语言表达的事实,并将多种语言表达的概念融合在一起。然而,不同文化在描述世界的方式上有一定的差别,这会给多语种数据的知识抽取和融合带来不少挑战。XLORE是第一个中英文知识均衡的大规模跨语言知识库,它提供了一种通过利用维基百科中的跨语言链接来构建跨任何两种语言的知识图谱的新方法。虽然 XLORE 已经拥有比较均衡的双语知识量,但仍有大量缺失事实需要补充,存在特征可扩展性差(只能把特定的词汇或结构当作特征)和链接稀疏(现存的跨语言链接很少)的问题。
4.应用系统集成与部署的相关挑战
1)知识图谱应用开发与集成效能有待提升
(1)知识图谱应用系统边界与性能要求不清晰
一是因用户和技术开发方对领域知识范围理解不对等,导致系统开发时无法有效地明确知识图谱应用的系统边界;二是因用户缺乏技术开发方法和工具的甄别能力,导致知识图谱应用系统的性能需求模糊;三是缺乏针对知识图谱应用系统边界与性能的评价方法和工具。
(2)企业对将自身业务逻辑转化为知识图谱的应用算法存在困难
用户业务特定环境和工艺路线的复杂性,决定了其业务知识和技能的专业性,知识图谱的应用算法工程师对于其认识存在一定局限性。此外,用户、企业和专家对知识图谱构建的基础知识缺乏必要的了解,这导致企业自身业务逻辑在迁移和转化为知识图谱的应用算法过程中存在困难。
(3)部分领域知识图谱的应用深度不足
目前,制造业、农业等领域知识图谱的应用多停留在知识问答、智能推荐、智能检索等通用应用阶段,与领域融合程度较为有限,还未触及领域的核心痛点,有待进一步突破。
(4)缺乏必要和权威的开发规范
知识图谱应用系统的开发与集成需要系统化、规范化的规程指导,以降低用户企业与外部服务方之间的对接沟通成本。而且,由于企业内部已建设有信息化系统,并且已拥有一系列管理规定,明确和权威的开发规范有助于促进知识图谱相关项目与用户企业已有的信息化系统建设要求的匹配与结合,提升管理的实效性。
2)跨部门、跨场景、跨领域的数据联通难度大
跨领域的组织通常具有自我保护和弱相关性等特点,导致领域间的数据共享存在壁垒。此外,跨场景和跨部门知识流动时,存在业务逻辑差异、数据模型不一致、知识体系不协调、接口不匹配等问题,而且知识交换与融合协议缺失,阻碍了领域知识图谱应用系统间知识的联通与流动,抑制了知识价值应用的最大化。
3)各利益方任务边界不清晰,协同难度大
(1)用户对于知识图谱构建所需基础能力和资源投入评估不足
知识图谱应用系统的建设与长期运行需要数据、资金、人员、软硬件资源、机制保障等多方面的投入。这要求企业在初期从系统的建设规模、基础条件、知识获得渠道、经济支持额度等需求做出准确的评估,合理规划建设周期,明确建设难度及自身短板。
(2)用户需求定位和表达模糊,部分场景中对性能期望过高
明确和清晰的业务应用场景和定位是设计知识图谱应用系统架构和算法模型的基石之一。然而,当前用户对知识图谱的应用带有一定的主观性和模仿性,而且,知识图谱在技术和工程化方面仍存在一些挑战。这会导致用户对应用场景识别不足、规划不清及期待过高等问题。
(3)用户对于基础数据的归集、整理与储备有待强化
数据作为知识图谱构建的基础,服务方的数据积累无法替代用户须提供的专业数据资源。而且,部分领域由于用户缺乏数据归集和治理相关的思想意识,导致数据质量不足,有待用户与服务方共同协作从知识图谱应用系统角度出发进行数据处理。
(4)开发和实施过程中各方任务构成及要求不清晰
在知识图谱应用开发和实施过程中不仅需要用户参与,也需要服务方投入项目经理、技术开发人员、算法建模人员等不同类型的人员以保障全流程的顺利完成。对于各环节的任务构成和要求不明确的问题,容易导致各方相互间角色认识差异、任务推诿等问题。
4)知识图谱应用系统交付与验收要求不明确
(1)知识图谱质量测评体系不明确
从用户角度看,对知识图谱推理结果和应用效果的评价带有主观性,缺乏一致性的用户评价指标体系。从技术方角度看,知识图谱应用系统开发和部署的成功与否,缺乏第三方监理和验收的评价指标体系。
(2)知识图谱应用系统的质量评估和验收要求不明确
知识图谱应用系统的验收交付需涉及知识图谱本身、知识图谱应用系统各功能模块、使用说明书、维护手册等内容,而且需要对其试运行期间性能进行评估,以确保用户对系统的全面了解和掌握。然而,当前缺乏明确的验收方法和程序等,交付与验收效果有待强化。
5.理论及人才储备的相关挑战
1)知识图谱行业专业人才紧缺
由于教育体系和技能培训机构对人才培养的滞后,以及社会需求的旺盛,知识图谱的构建、部署、应用等阶段需要的专业技能人才十分紧缺。
2)知识图谱相关理论不完备
知识图谱构建所需的知识建模、知识抽取、知识融合、知识推理等理论有待完善,工程化实施部署中缺乏系统性标准支撑。
随着人工智能对数据处理和理解的需求逐日增加,知识图谱应用领域日趋广泛。这不仅对知识图谱的各种共性技术有了更高的要求,针对不同的行业领域,知识图谱技术也面临着各种风险和挑战。下文以智慧城建、智慧司法、智慧教育、智慧金融四个行业为例,分析知识图谱技术在不同细分行业中可能存在的挑战。
1.智慧城建中面临的挑战
1)数据来源问题
知识图谱在智慧城建的应用中,数据来源仍然是首要难题,主要包括数据公开不全面、数据源单一、数据源缺失、数据类型差异较大等问题。城乡之间、地区之间在人口数据信息、城市基础设施信息、城市经济发展信息的建设和公开方面仍存在很大差异;不同领域、不同部门间数据的部门化、碎片化严重;跨地区、跨层级、跨部门的数据共享交换面临着信息孤岛和数据壁垒的问题。这些问题使得知识图谱技术在智慧城建上的应用情况离理想状态还有一定差距。
2)数据对接问题
智慧城建相关的数据非常多。如何将各种类型的数据(比如音频数据、视频数据等)和知识图谱进行对接,并从数据中提取有效的知识,与知识图谱已有内容进行整合,以达到有效使用知识图谱的目的是当前面临的一大挑战。
3)高级推理建模问题
知识图谱中的知识推理,一般是通过知识的表示学习来补全知识图谱中缺失的实体或关系,并对未来可能发生或存在的关系进行推理。然而,智慧城建涉及的数据面较广,如何综合利用海量、高维的数据来建立推理模型,是当前还未解决的难题。因此,基于特定社会场景下研究面向智慧城建领域知识图谱的计算和复杂推理技术,既有意义也有挑战。
2.智慧司法中面临的挑战
1)语义关系的多样性和复杂性
知识图谱中的知识是按照语义关系连接的,它们的关系是多样的。首先,词汇关系是多样的。例如,法官与司法工作人员是上下位关系,而审判庭和法院是整体和部分的关系。其次,文本关系也是多样的。又如,张三驾驶机动车撞上李四,导致李四失血过多死亡是因果关系;而张三为了非法占有,盗伐李四承包经营的林木是目的关系。因此,多样且复杂的关系抽取,是智慧司法知识图谱建设的一大挑战。
2)法律术语的专业性
法律知识图谱具备独特的专业特征。一方面,法律本身具有严密的逻辑性和严谨性,从某种程度上来说,法律和知识图谱有着天然的联系,如犯罪构成体系就是一种刑法的认知体系。另一方面,法律术语的专业性使得司法图谱的构建更需要行业专家的人工标注。目前的机器学习模型还无法取代人脑来理解专业的法律术语,难以保证学习和推理的正确性。因此,如何对海量且多样的法律术语和司法表述进行标注、训练和学习,是司法知识图谱的另一个挑战。
3)法律知识的动态更新
知识是不断发展的,人类发展的进程就是一个不断纠正或改进原有认知的进程。知识图谱作为对人类知识、经验的集合,也应相应地进行更新。法律知识也一样。例如,《民法典》的颁布及其一系列司法解释的出台,会导致民法方面的法律知识结构发生变化,其所构建的知识图谱也需要更新。
3.智慧教育中面临的挑战
1)学科知识验证挑战大
垂直领域的知识图谱构建强调知识的深度和精确度。尤其是面向教育领域的学科知识图谱,其数据来源必须权威且准确,并且得到教育领域专家和教师的认可。然而,学科知识图谱缺少相应的知识验证算法和模型,来确保学科知识之间的一致性与准确性。其中一致性指正确的知识应该与其他知识是相容的而不是矛盾的,准确性指没有拼写错误、不存在重复数据等问题。
2)学科知识融合挑战大
学习资源是知识的载体,是教学和学习活动的基础与参照。不同机构将构建针对不同学科、不同学段的学科知识图谱。但是如何将来自多源的知识图谱进行融合,从而使得学科知识图谱能够在教育中发挥更大作用,将会是学科知识图谱面临的一大挑战。
3)图谱的自适应可视化挑战大
相同的知识点针对不同学段的学习者,其教学目标、教学内容以及教学资源等都是不同的。如何针对学习者画像提供自适应的学科知识图谱可视化服务,与学习者已经有的知识体系建立关联,同时支持学习者自身知识体系的动态演进,具有一定的挑战性。首先,学科知识图谱的可视化内容需要根据学习者的知识体系、画像特征等确定;其次,学科知识图谱的可视化设计具有一定的难度。针对相同的学科知识图谱,学习者的认知方法和学习方法等方面的差异对可视化设计提出了更加复杂多样的要求。
4.智慧金融中面临的挑战
1)数据存在噪声和冗余
金融数据中存在着很多噪声,即使是已经存在数据库里的数据,也不能保证完全准确。一方面是数据本身有误,这部分数据需要纠正,最实用的纠正方法是不一致性验证。另一方面是数据的冗余。例如,银行借款人甲填写的公司名称为“快捷”,借款人乙填写的公司名称为“快捷金融”,借款人丙填写的公司名称为“快捷金融信息服务有限公司”。这3种填法都表示同一家公司,但由于填写的名字不同,计算机会认为其是不同的公司。
2)知识的自动获取难度大
理想的知识图谱应用是基于低成本的方式获得高质量的数据,并且形成准确的预测或判断模型,从而辅助人类做出智能化的应用。不同类型的数据结构获取知识的难度是不一样的。结构化高的数据获取的成本相对较低,结构化低的数据获取的成本相对较高。然而,在金融领域中,结构化高的数据规模非常小,且在获取知识后,还会存在精度和覆盖率的问题。
3)缺乏开源工具支持
由于缺乏开源工具的支持,金融知识图谱还停留在解决技术问题层面,没有大规模地解决业务问题。知识图谱主要有两部分:一是方法论,即知识图谱应用构建的工具;二是沉淀下来的知识库。一方面,从算法到工具还有很长的一段路要走,无论是大数据还是深度学习,都需要不断地精进。另一方面,对于金融场景的业务需求,目前知识图谱可以解决的问题还很有限。因此,未来还需要更多门槛更低、效率更高的开源工具和生态圈,让知识图谱技术更专注于业务层面问题的解决。
在国家政策的支持,及移动互联网、大数据、脑计算等新理论新技术的驱动下,知识图谱发展迅速,呈现行业融合、群智开放等特征。结合知识图谱在多个领域的成功实践,本案例集在第三篇选取了智能电网、智慧能源、智慧金融、智慧医疗、智慧教育、智慧营销、智能制造、智慧交通、智慧运营商、智慧司法、智慧公安、智慧传媒、科技文献13个领域的38个成熟实践案例,从需求背景、功能亮点、系统架构、技术路线、成效意义、下一步工作计划等多个方面解析案例,旨在及时总结和宣传推广一批好经验好做法,为知识图谱在细分领域的落地实践提供参考和借鉴,推动技术及产业健康发展。