



知识图谱应用系统的模块可以根据功能定位的不同,可以划分为面向知识图谱构建前的数据接入与处理相关模块,面向知识图谱构建中的知识获取、融合、存储等相关模块,以及面向知识图谱构建后的知识服务与管理相关模块。由于各功能模块定位不同,所涉及的选型准则存在差异。
面向知识图谱构建前的数据接入与处理相关模块,可聚焦数据准备相关需求,从数据类型、数据接入、数据治理、数据组织、数据服务、数据处理等维度进行选型,并根据业务需要对准则进行裁剪。数据处理相关模块的选型准则如图4.1所示。
图4.1 数据处理相关模块的选型准则
数据类型的多样性准则:支持多样化的数据类型,包括结构化数据、半结构化数据、非结构化数据,并可支持多种模态数据类型,如文本、图片、视频、音频等。
数据接入的统一性准则:具备统一的接入工具实现异构数据资源汇聚的过程;支持数据采集、汇聚等多种方式,为数据接入提供标准化、模块化、可适配的多源异构数据资源接入模式。
数据处理的规范性准则:支持数据的标准化、专业化管理,如元数据管理、数据质量管理、数据标准处理、数据血缘管理、数据资源目录管理等;支持对数据清洗、存储等治理流程的标准化管理,实现数据资产的有效组织和管理,为知识图谱上层各类业务应用提供支撑。
数据组织的适用性准则:支持数据组织,如组织原始库、主题库等。组织原始库是描述各种数据资源、支撑各项业务工作的公共数据集合。对不同来源的数据,按照数据的原始格式进行存储;主题库是根据数据的主题及应用需求建立,如车辆库、人员库等。
数据服务的就绪性准则:支持其他业务模块对数据的便捷访问,畅通数据的获取路径。
数据处理的安全性准则:保障数据处理过程中有效的身份识别和权限控制,确定其身份安全可信后,才可访问数据、应用和服务。
面向知识图谱构建过程的各功能模块,可聚焦知识图谱构建技术路径各环节和任务,进行模块选型并根据业务需要对准则进行裁剪,包括知识表示模块、知识建模模块、知识获取模块、知识融合模块、知识存储模块、知识计算模块。知识图谱构建相关模块的选型准则如图4.2所示。其中,每一个模块所包含的选型准则定义如下。
图4.2 知识图谱构建相关模块的选型准则
1.知识表示模块选型准则
知识表示模块可基于知识图谱应用需求、应用约束、质量要求等,实现对知识表示模型的设定,包括知识表示框架、知识表示元素、适用范围等。知识表示形式可采用属性图和 RDF (Resource Description Framework,资源描述框架)图等形式,其中,属性图中顶点表示实体和事件,顶点间的有向边表达实体/事件之间的语义关系;在RDF图中,顶点是具有唯一标识符的资源,顶点间的有向边也称为谓词或属性。
2.知识建模模块选型准则
知识建模模块可基于知识图谱应用需求、业务规则、专家或行业知识、企业数据现状等,形成涵盖实体类型体系、实体类型属性、实体类型间关系等的本体模型及其图式(Schema)。
3.知识获取模块选型准则
知识获取模块可基于接入数据和已有本体模型,完成实体信息、实体间的关系信息、实体的属性信息、本体模型中缺失信息等信息的自动提取。面向的数据类型包括结构化数据(如存储于关系型数据库中的业务数据)、半结构化数据(如百科数据等),以及非结构化数据(如文档、图片、视频、音频等)。
4.知识融合模块选型准则
知识融合模块可基于本体模型、知识获取输出的知识单元及外部知识图谱等,整合形成具有全局统一知识标识的知识单元,并识别本体模型中缺失的信息。
5.知识存储模块选型准则
知识存储模块需完成本体模型,知识获取、知识融合、知识计算、知识演化等模块形成的知识单元,业务规则、约束及算法模型等内容的存储,并为后续的知识查询、调用等提供服务。当知识图谱的规模庞大时,应考虑结合使用分库、选取分布式图存储的数据库、同类顶点聚合等方式作为知识图谱存储设计的准则。
同时,知识存储后数据查询的 DSL 表达能力也应纳入选型的范畴中。DSL(Domain Specific Language,领域特定语言)应足够简洁以降低使用者的技术水平要求,应足够灵活以应对多种使用场景,应足够强大以满足知识图谱专家和复杂分析计算对数据查询的要求。在知识存储架构设计和选型阶段,图数据库及其运行环境(如操作系统、硬件和指令集)的国产化也是衡量的重要方面。
6.知识计算模块选型准则
知识计算模块可基于知识表示模型、本体模型、已存储的知识单元、应用场景中的计算需求,输出计算获得的新知识并为下游任务提供知识图谱计算服务。例如,通过统计分析对知识图谱蕴含知识结构及其特征进行统计与归纳,通过推理计算从已有的事实或关系进行隐性知识的发现与挖掘。
作为知识图谱的重要应用,知识计算需要大规模地抽取顶点和边的数据到内存中进行计算,这对计算效率提出了非常高的要求。因此,能并行地、分布式地进行知识计算,以及计算性能能够垂直扩展和线性地水平扩展是知识图谱应用系统选型的关键。
面向知识图谱构建完成后的知识服务与管理相关模块,可聚焦知识服务、业务集成、知识管理与维护、系统安全保障等任务,进行模块选型并根据业务需要对准则进行裁剪。知识服务与管理相关模块的选型准则包括安全性、可靠性、响应性、可移植性和易用性,如图4.3所示。
图4.3 知识服务与管理相关模块的选型准则
1.安全性
知识图谱应用系统的安全性要求主要包含功能域安全要求和业务数据域安全要求。
功能域安全要求是指在应用系统的业务流程中涉及功能的安全要求,主要针对工作流中包含的各项功能流转的合法合规性,确保用户所属的角色能访问的系统功能和适用的安全策略不越界。
业务数据域安全要求是对用户、用户组、用户角色与数据条目访问授权的多对多映射,目的是确保每个用户能够且仅能够访问到对应密级的数据条目。
知识图谱应用系统的安全性要求不应只体现在应用系统中,还须贯穿于知识图谱构建中和构建后的各环节。例如,在知识存储、知识获取的环节中,就需使用数据域安全的要求限制、过滤请求的数据条目。进而,保证在知识融合、知识计算、知识演化和业务整合等后续步骤中不会将超出访问权限范围外的数据带入融合、计算、演化和整合结果中。
2.可靠性
可靠性是指衡量知识图谱应用系统在指定的场景和时间等条件下可稳定完成用户需求的程度。例如,是否可以在规定时间内完成预定功能,是否支持规定场景的查询、推理、计算等。
除上述知识图谱应用系统对可靠性的要求外,可靠性的一般性要求还有成熟性、容错性、易恢复性等若干特性和指标,可参考国家标准GB/T 29832.1—2013《系统与软件可靠性 第1部分:指标体系》中的定义。
3.响应性
响应性是系统高效完成用户业务目标的基本保障。响应性是度量形成的知识图谱应用系统在收到请求后返回的结果及返回结果的过程所表现出来的能力,既包括非耗时请求的即时响应时间,又包含耗时查询、计算的响应时间、反馈结果的质量等。此外,耗时查询、计算过程应通过进度条、预估剩余时间或状态更新来降低用户的等待焦虑。
4.可移植性
可移植性是度量形成的知识图谱应用系统在不同软硬件环境间移植的能力,主要目标是规范业务流程和接口定义,使得第三方应用接入和迁移成本相对较低。
知识图谱应用系统的外部开放接口在设计和实现上需达到足够的抽象程度,以适应不同的业务领域和使用场景。进而,避免第三方应用的重复开发,也能够确保同一个第三方应用在不同知识图谱应用系统迁移对接时的兼容性。
5.易用性
易用性是度量知识图谱应用系统在指定条件下使用时,知识图谱被理解、学习、使用和吸引用户的能力,并衡量使用者在利用系统解决业务问题时的难易程度。其既包括知识图谱应用系统各项功能对使用者的友好程度、工作流复杂程度,又包含知识图谱本身,以及业务建模对使用者所拥有领域知识掌握程度的要求。
围绕数据接入的标准化,相关模块的指标构成包括具备支持结构化数据、半结构化数据、非结构化数据的数据接入能力;数据接入工具符合统一的标准规范;支持多种标准化、模块化、可适配的数据接入模式,满足多源异构数据的采集与汇聚;支持数据批量接入。
围绕数据处理的规范化,相关模块的指标构成包括支持多源异构数据的处理;支持多模态数据的处理(可选);保障数据处理过程的模块化、规范化;保障数据的归一化、标准化;支持噪声数据的处理或补全;支持数据的批量处理。
围绕数据组织的适用化(可选),相关模块的指标构成包括支持多样化数据组织方式,如三元组、属性图等;支持数据的多样化展现方式,如图、表格等。
围绕数据安全的全面性,相关模块的指标构成包括从数据接入、数据传输、数据存储、数据处理等层面进行身份识别和权限控制;根据知识溯源的要求,进行数据的查阅和跟踪;保障数据采集、存储、处理、销毁等数据处理周期安全管控;支持访问控制、数据加密、数据备份、数据脱敏、数据水印等数据安全能力。
知识表示模块的性能构成包括支持图形化的知识呈现方式;支持三元组、向量和等知识表示形式等。
知识建模模块的性能构成包括支持以可视化、拖拽等方式构建本体模型;支持以增量方式构建本体模型;支持手动添加实体类型、关系类型、属性等;支持从外部文件中增量或批量导入Schema;支持对Schema进行维护管理,包括新增、修改、删除等;支持增量或批量导出Schema。
知识获取模块的性能构成包括支持从数据库表等结构化数据中抽取知识;支持从表格、网页、表单等半结构化数据中抽取知识;支持从文本、图像视频等非结构化数据中抽取知识;支持用户自主选择知识抽取方式,如单模型抽取、多文件多模型抽取;支持用户自定义知识抽取模型;支持查看知识抽取结果报表(包括当前及历史)及数据详情;支持查看知识生成结果(包括当前及历史);支持人工配置知识映射规则;支持用户自主配置数据源优先级;支持实体、关系、属性的编辑,如新增、修改、删除、查询等。
知识存储模块的性能构成包括支持实体、属性及关系的检索;支持自定义实体、属性、关系;支持实体、关系、属性的更新、删除;支持按照数据权限或知识图谱主题授权用户查看功能;支持数据审批流程可视化管理;支持系统操作日志管理;支持对删除后的实体、属性及关系的恢复;支持按照版本号对同一应用场景下的知识图谱进行管理;支持对算法模型的维护管理;支持元数据管理,例如,知识图谱在存储时需要在实体和关系上添加描述密级或权限规则的元数据,在有多个业务来源时也需要考虑将子图隔离存储。
知识融合模块的性能构成包括支持实例级(实例和属性值)的对齐;支持知识映射过程中的异常发现,如给出映射失败数据并给出映射失败原因;支持用户自主配置知识融合、消歧规则;支持不同应用场景下知识图谱间根据规则的融合。
知识计算模块的性能构成包括支持基础图计算功能,如社区发现、度中心性计算、紧密中心度计算、实体节点排名、中介中心度、最小生成树等;支持给出起始节点和目标节点的知识图谱路径集合;支持通过输入外部数据等人工干预方式训练知识抽取模型;内置语料库及语义分析模型;支持从节点属性推理补全知识图谱关系。
围绕安全性,相关模块的性能构成包括支持权限控制和安全隐私管理;支持知识图谱存储中实体和关系添加描述密级或权限规则的元数据;支持有多个业务来源时的子图隔离存储;支持用户角色权限管理、数据脱敏等;支持查询引擎返回用户数据前,检查数据权限合规性。
围绕可靠性,相关模块的性能构成包括支持在规定场景、规定时间内完成预定功能;支持平均故障间隔时间小于用户或行业要求;支持规定场景的查询、推理、计算等要求。
围绕响应性,相关模块的性能构成包括支持用户业务操作响应时间小于用户或行业要求;支持服务接口请求响应时间小于用户或行业要求;支持耗时查询、计算过程中通过进度条、预估剩余时间或状态更新来降低用户等待的焦虑感;支持知识体量、知识图谱复杂度的统计。
围绕可移植性,相关模块的性能构成包括支持基于特定业务场景切分数据,如子图拆分、多图融合等;支持常用的硬件环境;支持常用的操作系统;支持通过接口形式的数据调用。
围绕易用性,相关模块的性能构成包括支持良好的人机交互界面;支持根据业务场景利用复杂查询、图算法等方式对数据二次加工并提供服务;支持基于常用查询语言,提供可视化交互查询,并针对特有业务要求,提供具有行业特色的交互展示。