购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第7章
智能电网领域案例

案例1:联想电力供应链领域知识图谱系统

当前,电力企业的供应链业务信息在数据治理、全面分析等方面存在较多问题。这些信息被分散管理在不同的业务系统中,且各业务系统之间彼此独立,缺乏有效的数据互通和分析手段。无法实时地将设备维修、保养过程中存在的问题与需求迅速反馈到设备采购等供应链业务中,进而难以形成统一有效的数据治理、智能分析系统。

联想电力供应链领域知识图谱系统(以下简称“系统”)的核心技术为知识图谱,在算法方面使用了实体识别、关系提取等自然语言处理技术、图神经网络技术等;在工程方面使用了爬虫、容器管理调度、服务部署等技术;在功能方面使用了知识建模、知识抽取、知识融合、知识存储、知识应用等模块;在知识应用方面包括了供应链知识图谱的可视化与检索、企业画像、供应商精准推荐、设备维护/维修等。该系统在工程方面具备完善的部署与调度方案,实现了面向业务应用智能可解释的推理和分析,相比于传统大数据平台具备更高的效率。

1.案例基本情况

1.1 企业简介

联想集团是一家成立于中国、业务遍布全球180多个市场的科技公司,下分智能设备集团(IDG)、数据中心业务集团(DCG)、联想创投集团(LCIG)、数据智能业务集团(DIBG)四大业务集团,在全球约有6.3万名员工。2019—2020财年,联想集团的整体营业额达到507亿美元(约3531亿元)。作为企业数字化和智能化解决方案的全球供应商,联想集团积极推动全行业“设备+云”“基础设施+云”的发展模式,以及智能化解决方案的落地,结合自身的供应链整合能力服务于多个领域客户。

1.2 案例背景

随着互联网技术和大数据技术的兴起和日趋成熟,为贯彻《国务院办公厅关于积极推进供应链创新与应用的指导意见》的工作要求,积极打造现代(智慧)供应链体系,整合供应链上下游资源,构建智慧运营平台作为供应链大脑中枢,汇聚内外部数据指挥供应链各方协同运作,使电力运营部门对供应链中的物流、信息流、资金流闭环的实时监控变为可能。

由于大多企业的供应链业务信息存储在不同的业务系统中,具有庞大且繁杂的特点,缺少统一标准及高效的归集手段、数据时效性差,并且难以对目标企业进行深入、细致的分析,因此,在数据治理、全面分析等方面面临着巨大挑战。数据现状与需求举例如图1所示。

图1 [1] 数据现状与需求举例

与传统大数据平台不同,知识图谱侧重于构建面向图模型的结构化知识,即构建三元组数据,以实现对实体、关系、属性的建模,这样的图结构在处理复杂关系结构时游刃有余。在电力供应链领域,设备信息、生产、物流、仓储均与上下游存在千丝万缕的关系,这类关系模型的本质就是一张互联互通的图,然而传统数据库或大数据平台的底层存储是二维表结构,在数据规模较大的情况下,存在以路径关系追踪为核心的业务中搜索效率低、计算复杂度高的问题。

1.3 系统简介

系统数据流图如图2所示,主要包括知识集成、知识加工、知识存储和知识应用等。

图2 系统数据流图

系统是在国家电网有限公司现有数据建设的基础上,结合联想集团在供应链领域的技术积累,整合计算各物资供应商信息、合同履约信息、物资质量信息、物流仓储信息等构建的,其主要功能如下。

1.3.1 知识集成

系统支持数据库导入和本地文件导入,包括供应商的基础信息、财务信息、物资信息、物流信息、互联网舆情信息等结构化、半结构化及非结构化数据。在导入数据后,由数据中心进行统一存储。

1.3.2 知识加工

知识加工是构建系统的主要工作流程,主要包括知识建模、知识抽取和知识图谱融合,以实现知识图谱概念层的建立,保证知识图谱的数据尽可能真实地反映供应链状况,进一步推理得到新的知识。

1.3.3 知识应用

知识应用包括知识检索分析和AI业务应用。在知识检索分析方面,系统支持单个实体检索、路径检索、关联实体检索、图查询语句等多种方式进行可视化分析。在AI业务应用方面,系统支持API扩展,为各类具体业务相关的AI应用提供查询接口。

2.案例成效

2.1 构建成效

知识图谱侧重于构建结构化知识,并对其进行关联。在系统的构建过程中,存在多种异源、异构数据,这主要面临两个问题。一是来自不同数据源的数据之间是异构的,异构数据源之间可能在本体层面上有所不同(如属性名的表达不同);而且在实体层上也可能会有差异,表达同一实体会用不同的方式。二是不同数据源之间可能存在矛盾数据,由于某些不完整、错误、过时等问题导致数据之间的冲突可能会对信息的准确性产生影响。例如,“国家电网有限责任公司”“国家电网公司”“国网”是否指代同一家机构等。结合专家知识的决策树等机器学习算法训练结果,就可以判断两组词是否指代一个实体,或基于“嵌入式表示”(Embedding)的方法将不同词映射到统一的向量空间中,最后通过测量词向量之间的距离来执行“实体对齐”。此外,知识图谱的构建不是一蹴而就的过程,系统是一个随时间变化的知识图谱。当引入新知识时,为确保知识图谱满足需求,还需要补全、纠错、外链、更新等验证步骤,因此,知识图谱的构建是一个不断更新迭代的动态过程。

在系统构建过程中,检验其成效的考核指标主要是反映电力供应链领域知识的真实性程度,这可以从知识准确性、知识完整性、知识一致性与知识时效性等几个方面进行考核。具体来说,由于系统数据量庞大,一般抽取其中一部分知识进行考核。考核需要电力领域专家与知识图谱工作者协作,统计所抽取的知识反映电力领域客观事实的准确性、电力领域相关知识的覆盖程度(完整性)、知识之间相悖逆的情况(一致性),以及是否反映了当下电力领域的客观事实(时效性)。由于电力系统与国计民生相关,这对系统所反映的准确程度要求十分严格,因此,在知识最终存为知识图谱时,需要以抽查的方式由领域专家审核通过,以保证知识图谱构建的准确性。

2.2 应用成效

在供应链的不同业务阶段,存在不同的业务需求,如知识检索和可视化分析、企业画像、供应商精准推荐、设备维护/维修等。

2.2.1 知识检索和可视化分析

系统提供了智能搜索和数据可视化服务,对于待搜索的关键词,系统可以返回与其相关的全面信息,并以可视化的形式呈现出来。除了以单个实体为中心进行的检索功能,还包括关联查询、路径分析、图查询语句等检索方式。此外,可视化图查询的方式仅依靠拖放图形组件连接形成查询图,并设置图形组件的属性,就可以完成复杂的图查询任务。

2.2.2 企业画像

系统中除了包含供应商实体自身的属性信息及关系信息,还包括各类关系链接的其他实体、事件的信息。相较于传统单一维度的供应商个体画像,基于知识图谱的供应商个体画像(见图3)包括供应商基础信息、财务信息、物资信息、资质能力信息、生产供货信息、运行质量信息、互联网舆情信息等。将这些实体、关系、事件作为Graph Embedding算法的输入,输出的向量信息可以综合表示供应商信息。此外,基于知识计算的相关方法对这些信息进行深入挖掘、推理,从而构建更加深入、全面、细致、有效的供应个体画像。

供应商个体信息无法反映整个供应商群体的共性特征,而针对供应商群体进行研究才具备普遍的指导意义。因此,在供应链知识图谱的基础上,进行中心性评估,筛选出整个供应商群体中较为关键的供应商作为研究对象。此外,社区发现算法等图聚类算法易于将供应商群体划分为多类,再针对每类供应商进行分析,从而获得供应商群体的总体特征。

图3 基于知识图谱的供应商个体画像

2.2.3 供应商精准推荐

传统的推荐方法大多基于“序列”样本(如句子、用户行为序列等)。但在供应链场景中,实体对象之间的关系主要以图结构的形式体现。供应商精准推荐典型场景如图4所示,其中展示了供应商、产品、订单记录、检修记录等实体,以及事件之间的关系。基于DeepWalk、Node2Vec等算法可以得到图嵌入(Graph Embedding),其在推荐系统中可以直观地、可解释地体现出网络的同质性和结构性。同质性相近的实体可能是属性、概念等相近的实体,而结构性相近的实体则是与其相连接的实体或拥有相近事件趋势的实体,二者都是推荐系统中非常重要的特征表达。接下来,基于GNN(图神经网络)技术对整个供应链图结构下的供应商进行初步筛查,根据需求,选择匹配度较高的部分供应商作为备选单位进行推荐。

图4 供应商精准推荐典型场景

2.2.4 设备维护/维修

在设备维护/维修过程中最重要的是方法的正确性与时效性。设备故障的原因一般可分为直接原因与根本原因,相同的直接原因可能有多种潜在的根本原因,而同一故障现象可能由不同直接原因导致,这是设备维护/维修过程中的难点。为解决这些问题,基于历史维护/维修数据,提取设备型号、故障现象、故障原因、零部件、检修策略等信息,构建实体间的因果、影响、关联、从属等关系,建立设备维护/维修知识图(见图5)。根据该图中的关系,推断设备故障原因。对于可能有多种原因的故障,使用目标部件关联的整个网络特性,结合历史数据先验概率与其他现象,预测导致设备故障最可能的原因,并按优先级给出维修检查计划。该过程可能需要的应用包括可视化故障分析系统、设备故障检修智能检索(问答)系统、设备故障预测算法等。

对于此类基于知识图谱的应用,为检验其成效,应考虑应用场景的特殊性。对于知识检索任务,检索界面的易用性、数据增删改查对资源的消耗、所支持的可调用接口的编程语言类型等都是需要考核的对象。对于可视化功能,以可视化系统运行的可靠性、操作的易用性、系统反馈的响应性为核心考核对象。此外,还需考核所支持的图形化表示形式、是否支持自定义节点类型、能否调节可视化窗口的渲染速度、支持的最大可视化节点数、所支持的呈现方式(包括手机端、浏览器等)。对于企业画像、供应商精准推荐、设备维护/维修等,在符合功能要求的基础上,还须在应用可靠性、易用性和响应性方面优于传统大数据平台,从而为整个供应商上下游的决策、实施、管理、质量回溯等各方面提供支撑。

图5 设备维护/维修知识图

3.技术路线

3.1 系统架构

系统架构(见图6)主要由知识集成层、知识计算层、知识存储层和知识应用层组成。

图6 系统架构

3.2 技术路线

3.2.1 知识集成

知识集成是用来汇聚不同来源数据的子系统。目前汇聚的数据来源主要有三类:第一类是企业生产经营相关业务数据,第二类是第三方知识数据,第三类是互联网数据。其中,企业自有数据或第三方合作数据通过Datahub数据集成工具匹配库表导入/汇聚平台中,而网络页面数据通过爬虫采集后进行一致性与偏差检测、数据清洗后进入汇聚平台。结构化数据直接通过字段映射进入平台库表;非结构化数据需要通过知识抽取系统,进行结构化抽取,从而完成相关映射进行汇聚存储。

3.2.2 知识计算

知识计算是构建系统的主要工作流程,主要包括知识建模、知识抽取和知识融合。知识计算流程如图7所示。

知识建模是从顶层设计系统的知识本体模型。具体上,其根据电力供应链的场景需求,结合事件建模、规则建模、时空建模3种方式的特点,在领域专家的协助下,采用自上而下的方式,针对电力供应链场景中的结构化数据、半结构化数据构建本体模型。

知识抽取是将电力供应链中各种结构化数据、半结构化数据、非结构化数据,通过命名实体识别、实体链接、关系及属性抽取等技术,将提取的知识以RDF三元组形式存储到知识图谱库。在该案例中主要使用了特征词匹配的方法开展实体抽取,抽取的实体经过抽查方式的人工审核后存入数据库。关系抽取是在抽取的实体基础上利用 Schema 中关系定义及其他多种技术从数据中发现两两实体之间的关系,抽取的关系经人工审核后以RDF三元组形式存入知识图谱库。知识推理是扩展知识库的重要手段,通过已有知识推出新的知识,进一步丰富扩展知识库。

通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库。

图7 知识计算流程

3.2.3 知识存储

知识存储层用于存储由知识加工层得到的符合知识建模设计的实体、属性,即实体—关系—实体的结构化数据。知识存储架构示意如图8所示。

图8 知识存储架构示意

知识存储是针对知识图谱的知识表示形式设计的底层存储方式,以实现对大规模图数据的有效管理。一般来说,知识的存储不依赖于特定的底层结构,而按照数据与应用的需求选择相应底层存储方式。经过知识加工处理后的电力供应链实体及其属性知识一般以二维数据表的形式存在,其主要是通过关系型数据库存储。而关系知识一般以RDF三元组形式存在,这种形式能直接展示电力供应链图谱的内部结构,有利于结合图计算算法进行知识的深度挖掘与推理。

4.案例示范意义

在电力供应链领域,现有业务的IT系统越来越多,复杂度也越来越高,在执行数据查询时通常需要在多个表之间跳转,导致查询效率低、开销大等问题。有别于传统大数据平台,该系统侧重于结构化知识的构建及知识之间的关联,避免了传统数据查询的痛点,在确保数据不损失的情况下,避免了数据在多处冗余的情况。同时,电力供应链知识图谱中经过融合的知识,有效解决了原始数据中的歧义、别名的问题。该系统更加贴近业务,在业务、技术原数据概念的基础上,立足于业务流程,基于专家知识构建系统Schema图。在进行应用推理的过程中,推理过程均可以在知识图谱中直观地反映出来,相较于传统机器学习方法,该过程可解释性非常强,业务人员可以很方便地对结果进行分析。此外,电力供应链涉及多个部门、机构,如果各部门、机构之间数据流通不畅,易形成数据“孤岛”,该系统的构建有利于缩短业务人员的培训周期,同时也为电力供应链物流、仓储、采购策略的优化奠定了良好的基础。

4.1 构建面向电力供应链领域的知识图谱

供应链领域上下游涉及厂商、数据系统、生产、物流、仓库等系统,业务分布广泛,缺乏统一的数据收集方式,上下游数据同步时效性差,无法对整个链条进行统一分析。而知识图谱侧重于构建这类复杂的图结构关系,可以将这类复杂关系构建成互联互通的图,在数据规模较大,以及在知识检索、路径检索和相关应用实施的情况下,能实现相较于传统大数据平台更优异的性能。

4.2 面向业务应用的智能可解释的推理和分析

知识图谱推理是指在已有知识的基础上,通过一定的技术手段来获取满足语义的新知识和结论的过程。在电力供应链业务应用中,该系统主要使用知识图谱智能推理来完成电力供应链知识图谱补全及推理分析,主要包括基于本体的推理和分析、基于规则的推理和分析,以及基于表示学习(图结构)的推理和分析。在该系统中,基于本体的推理与基于规则的推理主要是在开源的推理引擎中开展。本案例基于推理引擎使用知识建模构建的 OWL 本体开展本体推理,这是在概念层进行的推理,主要用来对实体级的关系进行补全。本案例中使用了OWL本体推理的概念互斥性和概念可满足性,可以分析歧义矛盾。例如,定义不同电力供应商为互斥的概念,当三元组中出现某用户由A供应商提供服务,同时又由B供应商提供服务时,概念存在歧义或矛盾,需要进行“消歧”后重新入库。基于OWL本体推理还可以推理出隐含知识,针对Tbox的推理,即可计算新的概念包含关系。例如,某电厂属于某电力公司A,而电力公司A是电力公司B的子公司,则可以推理出某电厂属于电力公司B,推理完成后将新推理出的三元组存入知识图谱库,完善知识图谱网络。

知识图谱中的数据结构往往都是非欧几里得结构的,传统深度学习无法完整地学习这类数据。可以将其看作一种存在多种关系的、特殊的图数据,其中,每个节点都有若干个属性和属性值,实体与实体之间的边表示的是节点之间的关系,边的指向表示了关系的方向,而边上的标记表示了关系的类型。例如,在电力供应链知识图谱中,图中节点是地区、具体的地点、设施等,边代表实体间的关系,特征代表实体的性质。这种图结构在智能推理时更加接近人类的思维方式,与传统基于机器学习方法的智能推理相比,基于知识图谱的智能推理分析具有非常强的可解释性,业务人员可以对产生推理分析结果的过程进行深入细致的分析,最大限度地利用已有数据解决业务问题。

基于电力供应链知识图谱推理出新的知识或者识别出错误知识,可以对该系统进行更好的补全。电力供应链知识图谱推理需要融合多源信息,通过结合文本语料和已有的知识图谱,利用更多的额外信息进行有效推理,降低知识图谱的不连通性和稀疏性。同时,该系统还通过融合共同建模规则、结合神经网络的强学习和泛化能力与规则方法的高准确率和高可解释性来实现知识推理;通过更深层次地混合不同方法,实现优势互补,提升推理性能。

4.3 完善的部署与调度方案

电力供应链知识图谱系统要完成数据采集、分析和展现等多组件之间的复杂调度,主要依托于 Kubernetes 相关公共组件。Kubernetes 具有完备的集群管理能力,包括多层次的安全防护和准入机制、透明的服务注册和服务发现机制、内建的智能负载均衡器、故障发现和自我修复能力、服务滚动升级和在线扩容能力,以及多粒度的资源配额管理能力。同时,Kubernetes 提供了完善的管理工具,这些工具涵盖了包括开发、部署测试、运维监控在内的各个环节。因此,Kubernetes 是一个全新的基于容器技术的分布式架构解决方案,这为电力供应链知识图谱服务系统的调度和运维部署,提供了良好的支撑基础。

4.3.1 容器调度

容器调度以自动化方式完成整个集群的资源管理、Pod调度、弹性伸缩、安全控制、系统监控和纠错等。知识加工相关的服务将被打包成镜像,封装在Pod并被Kubernetes管理,通过指定的控制器和调度策略依据实际资源完成对一组Pod副本的创建、调度及全生命周期的自动控制任务,实现知识加工相关的服务自动更新及软件模式的负载均衡,保障调度性能。

4.3.2 服务部署

知识展示服务通过“Ingress+Nginx”方式,对外提供知识查询接口。Kubernetes通过容器将展示服务创建到多个Pod中,按需增加Pod副本,再将Pod部署到多个节点,外层封装Service服务和“Ingress+Nginx”实现7层代理,完成对外接口安全访问,对内负载均衡与高可用。服务高可用弹性伸缩如图9所示。

图9 服务高可用弹性伸缩

5.展望

该系统拥有数据处理、知识建模、信息检索、知识推理等功能,应用场景广泛,内容全面,电力供应链相关工作人员可以利用系统进行信息检索、推理可能的供应厂商等。未来,该系统可以从以下两个方面进行优化。

5.1 “联邦”化的知识图谱

建立全面、准确的供应链知识图谱,需要融合多个业务系统进行分析,但出于安全性和数据权限管理方面考虑,往往不能将所有数据直接汇聚在一起。下一步,将设计一种满足隐私、安全和性能要求的“联邦知识图谱”。所有参与构建知识图谱的企业、机构或部门,须在统一的Schema图下,将自身拥有的数据加工为“各自为政”的子图;各个子图的维护者通过统一的知识访问接口进行“匿名路径”访问,联合建立一张完整的图谱。

5.2 深化GNN的应用

知识图谱作为认知智能的关键技术,是大数据时代十分重要的一种知识表达方式,为机器语言编程提供了强大支撑,使得计算机实现认知智能成为可能。认知智能的主要特点是擅长归纳背景知识,结合上下游情况提供精准的策略分析能力。图神经网络(GNN)作为深度学习发展的产物,可以运用知识图谱中的各种子图结构,基于有监督、半监督、无监督深度学习与强化学习进行业务落地。其输入不限于完整图结构数据,还提供了图嵌入功能,依靠深度学习模型对复杂拓扑结构进行处理,产出分析结果。在本案例中,GNN的应用仍有较大的提升空间。通过 GNN 模型进行更广泛的知识加工与推理拓展,可为风险防控、物流/仓储优化、供应决策分析等供应链应用赋能。

*专栏:电力供应链行业/领域标准化现状与需求

1.电力供应链行业/领域标准化现状

(1)电力领域

·IEEE P2807.3 Guide for Electric-Power-Oriented Knowledge Graph .

·GB/T 30149—2019《电网通用模型描述规范》。

·GB 38755—2019《电力系统安全稳定导则》。

·GB/T 35682—2017《电网运行与控制数据规范》。

·GB/T 33590.2—2017《智能电网调度控制系统技术规范 第2部分:术语》。

(2)供应链领域

·GB/T 38702—2020《供应链安全管理体系 实施供应链安全、评估和计划的最佳实践 要求和指南》。

·GB/Z 26337.1—2010《供应链管理 第1部分:综述与基本原理》。

·GB/T 26337.2—2011《供应链管理 第2部分:SCM术语》。

·GB/T 25103—2010《供应链管理业务参考模型》。

·GB/T 24420—2009《供应链风险管理指南》。

(3)电力供应链领域

暂无。

2.电力供应链行业/领域知识图谱标准化需求

(1)电力供应链领域知识图谱的准则、数据与架构等标准化的需求。

(2)电力供应链领域知识图谱的构建过程标准化的需求。

(3)电力供应链领域知识图谱性能评估方案标准化的需求。

(4)电力供应链领域知识图谱应用方案标准化的需求。

案例2:基于知识图谱的设备故障智能维修决策实践

随着电力输电网中电压等级的提高和交直流特高压混联电网格局的形成,电网安全生产面临严峻挑战。特高压电网存在诸多风险,国网浙江省电力有限公司创造性地提出“三型两网、世界一流”的战略目标,对安全生产提出了更高要求。以110kV及以上交流变压器、断路器、GIS、电流互感器为主的电网主设备的安全运行是安全生产的重中之重。设备故障案例完整记录了不同阶段设备故障信息,在同类设备故障处理时具有较高参考价值。挖掘和处理故障案例信息对提高设备本质安全水平、保障安全生产具有重大意义。目前,国网浙江省电力有限公司已搜集整理了上千份设备故障案例,但未被有效利用,自然语言信息的提取、表示、分析尚存在一些问题需要解决。为解决这些文本数据信息无法被充分利用的问题,本案例基于自然语言处理和知识图谱技术,为指挥和检修人员提供智能辅助决策,提升问题处置能力,实现智能信息检索和推荐来帮助设备、线路异常监测、故障诊断,以及处置后的设备再评价。

1.案例基本情况

1.1 企业简介

1.1.1 国网浙江省电力有限公司

国网浙江省电力有限公司(以下简称“电力公司”)是国家电网有限公司直属运行单位。在信息化建设方面,该公司以智能运检管控平台为代表,建立了集设备监视、流程管控、资源调配、人员评价、生产指挥于一体的新一代生产管理信息系统。该系统具备设备状态全景化、评价分析智能化、业务流程信息化、生产指挥集约化等特点。良好的软/硬件设施,以及大数据的积累,为基于知识图谱的设备智能管控高级应用打下了坚实的基础。

1.1.2 阿里云计算有限公司

阿里云计算有限公司(以下简称“阿里云”)持续在云计算、大数据和人工智能进行研究和实践,阿里云飞天(Apsava)曾获得中国电子学会科技进步奖特等奖。阿里云工业知识图谱团队致力于实现人与机器之间用自然语言进行有效沟通的各种理论和方法,包含自然语言处理核心技术,如分词、词性、句法、语义等多语言基础模块,以及情感分析、信息提取、机器翻译和机器阅读理解等技术的研究。本案例主要由阿里云工业大脑—工业知识图谱产品团队负责实施。

1.1.3 华北电力大学

华北电力大学团队隶属于新能源电力系统重点实验室和高电压与电磁兼容北京市重点实验室。新能源电力系统国家重点实验室于2011年3月由科技部批准建设,于2014年9月通过专家验收。华北电力大学团队自2014年以来获得国家级和省部级特等奖、一等奖、二等奖共十余项。在本案例中,华北电力大学团队参与了部分核心算法的研发与实施。

1.2 案例背景

随着电力输电网中电压等级的提高和交直流特高压混联电网格局的形成,电网安全生产面临严峻挑战。特高压电网呈现“强直弱交”特征,直流故障下存在受端交流支撑不强、潮流转移能力不足、电压支撑弱等风险;特高压直流部分设备处于质量不稳定期,一旦发生故障,可能造成特高压设备损坏甚至着火,存在重特大设备事故风险;电力公司电网处于发展过渡期,跨区七大直流群输送容量大,部分输电通道密集分布,电网结构性风险突出。2019年,国家电网有限公司创造性地提出了“三型两网、世界一流”的战略目标,强调要进一步凸显其在保障能源安全方面的价值作用,强化安全生产管理,这对电力安全生产提出了更高要求。以110kV及以上交流变压器、断路器、GIS、电流互感器为主的电网主设备的安全运行,是电力公司安全生产的重中之重。

设备故障案例完整记录了设备故障现象、处理过程、解决措施等不同阶段的设备故障信息,包含了丰富的设备质量问题信息及专家处理经验,在同类设备故障处理时具有较高的参考价值。通过对设备故障案例信息进行挖掘和处理,可以加快设备故障的处理进度,发现同类设备潜伏异常或缺陷,对提高设备本质安全水平、保障公司安全生产具有重要意义。

目前,电力公司已搜集整理了上千份设备故障案例,这些案例一般以文本形式存储在纸质或电子媒介中,在信息表达时采用自然语言进行描述。然而,自然语言信息的提取、表示、分析尚存在一些问题需要解决。一是信息准确提取技术的难度较大。由于专业特点与编写人员风格不同,故障案例所用词汇俗称、简称较多,故障处理中活动繁杂,且各活动间往往存在多层嵌套关系,对实体、关系的准确抽取技术难度大。二是缺乏面向复杂逻辑的有效知识表示方法。常用的知识表示方法有产生式表示法、逻辑表示法、知识图谱表示法等,但均具有一定的局限性,单一的知识表示方法无法独立完成故障处理信息的复杂逻辑关系知识表示。三是知识应用技术与运检管理业务融合模式尚不清晰。智能问答是目前知识应用的重要方式,但智能问答的效果与提问者的问题关注点、知识背景直接相关,如何建立基于知识图谱与智能问答技术的主设备智能诊断与运检策略辅助决策体系尚待进一步探索。

为解决故障案例、处置方案、规范、导则、标准、科研论文等海量文本数据信息无法充分利用的问题,本案例基于自然语言处理和知识图谱技术,将过去存在于文件和专家大脑中的方法和经验沉淀到设备运维知识库中。当设备出现故障和缺陷时,能够为指挥和检修人员提供智能辅助决策,提升问题处置能力,实现智能信息的检索和推荐,便于进行设备、线路异常监测和故障诊断,以及处置后的设备再评价。

1.3 系统简介

基于知识图谱的设备故障智能维修系统(以下简称“系统”)主要采用文本特征提取技术、知识发现技术及智能问答技术。文本特征的有效、准确提取是实现知识图谱的基础和关键环节,文本特征提取技术主要包含本体构建技术、基于深度学习的信息自动化抽取、多源异构信息融合。知识发现技术可以实现信息间的关联分析,主要包含规则构建与执行、知识挖掘与发现及数据/知识质量评估与治理。智能问答技术可实现用户(电网运维人员)与已有知识图谱的问答交互,主要包含特征标签分析、图搜索及智能问答引擎。系统的整体架构如图1所示。

系统中的数据源包含设备台账数据、状态监测数据、缺陷描述文本、故障案例报告、手册、标准、导则、规范、处置方案、科研论文等海量文本数据信息。

系统中面向电力领域的专业文本,基于改进的语言模型、信息抽取算法,提出了适用于电网主设备的文本特征提取技术,解决了电力领域文本中专业俗称多造成的文本精确识别问题,实现了电力行业常见文本高精度语义分层与去重,以及文本有效信息的高效提取。

图1 系统的整体架构

知识发现技术实现了基于规则引擎和知识发现的信息提取与表征,提升了电网主设备中电力文本的故障机理与原因抽取准确率,构建了主设备故障知识图谱,突破了故障机理与原因隐含在文本、数值、逻辑规律及复杂公式中难以提取的瓶颈。

智能问答技术建立了基于知识图谱与智能问答技术的主设备智能诊断与运检策略辅助决策体系,推动了电网主设备质量信息分析与故障诊断智能化,建成了设备、线路异常智能监测软硬件系统,实现了对不同故障现象的智能化运检的辅助决策。

2.案例成效

2.1 图谱规模

针对6类主要的电力设备,系统包含1800多篇文档,生成建立知识图谱的实体约7万个、关系约4万条。

2.2 响应指标

在硬件资源充足且索引合理的情况下,系统可以实现亿级节点及边规模的多维度查询。在5层关联查询范围内,在返回结果集大小一定的情况下(一般小于1000条),可实现毫秒级返回。对于复杂的子图匹配场景,根据不同的召回策略和精排策略,系统的性能表现有所不同。而当一般匹配规模在300个子图以内时,可实现秒级返回。

2.3 应用效果

(1)核心业务类NER算法F1-score=80%,其中,设备类NER算法F1-score=85%。

(2)工业指标、数值与时间类NER识别算法F1-score=90%。

(3)实体链接算法F1-score=88%。

(4)属性值抽取算法&属性值推理算法:top5属性值抽取F1-score=70%;状态属性推理F1=82%。

(5)故障文本分类算法F1=91%。

(6)故障诊断问答TOP3的准确率为86.20%

3.技术路线

3.1 系统架构

系统的主要工作流程:首先,通过分析电网主设备(110kV及以上交流变压器、断路器、GIS、电流互感器等一次设备)的质量信息数据,对海量非结构化的文本数据中包含的词、语法、语义等信息进行标识、理解和抽取,挖掘其中存在的知识、规律;通过文本数据特征提取技术,提取文本数据中设备参数、地点、时间、原因及处理措施等关键信息的文本特征。其次,通过电网设备故障类信息关联分析技术,融合知识网络与规则引擎,完成质量信息知识图谱的建立、关联分析和原因推荐。最后,通过电网主设备故障类事件智能问答技术,完成电网主设备质量事件特征标签分析,并实现人机间的智能交互问答。

3.2 技术路线

该系统依托于电网系统中已有的数据基础与数据处理能力,对设备故障智能维修系统所依赖的结构化与非结构化数据分别进行采集、存储。

结构化数据主要包括电网设备台账数据、电网设备位置坐标数据、电网运行数据、在线监测数据、气象预报数据、雷电监测预警数据、山火监测预警数据、覆冰预警数据、台风预报数据等。

非结构化数据主要包括设备检修规程、故障案例库报告、设备出厂检测报告、现场试验检测报告、现场巡视记录、离线试验报告、设备入网检测报告、全过程技术监督报告等,数据来源包括电网生产管理系统、智能运检管控平台、移动作业、离线导入等。

3.2.1 结构化数据导入

基于提前设计好的设备本体,借助结构化数据导入工具(D2R),通过数据源、表名、实体、关系等字段的配置,将结构化数据自动转换为图结构形式的数据结构,并存储在图数据库中。结构化数据导入具体包括以下环节。

(1)实体映射配置。用户选择已连接的某个数据源的某个数据表(一个实体节点只能对应一个表的某一个字段),并选择图谱节点中的某一个节点作为目标节点,两者配对映射,支持数据过滤筛选。实体映射如图2所示。

(2)关系映射配置。数据表选择方式与实体相同,关系的映射为边的映射配置,支持对边的属性映射配置。关系映射如图3所示。

图2 实体映射

图3 关系映射

(3)查看数据同步状态。当用户完成数据映射配置后,可提交运行,系统可监测数据同步完成进度和执行状态,并查看导出后的图谱实例。

3.2.2 非结构化数据处理

在完成数据导入与存储后,需进一步对非结构化数据部分进行处理,为后续知识挖掘、分析、应用等环节提供有效的数据支持。非结构化数据处理主要包括本体模型构建、基于深度学习的信息自动化抽取、多源异构信息融合3个部分。基于深度学习的电网设备故障类文本抽取技术总体流程如图4所示。

图4 基于深度学习的电网设备故障类文本抽取技术总体流程

1)本体模型构建

在知识图谱技术研究范围内,领域本体是指对特定领域之中某套概念及其相互之间关系的形式化表达。例如,当知识图谱刚得到“变压器”“断路器”“局部放电”这3个词组的时候,会认为它们3个之间并没有什么差别,为了具体构建知识图谱中上层和下层的概念,需要生成一个本体。当领域本体构建后,知识图谱就会明白“变压器”“断路器”其实都是电网主设备下的分支,它们和“局部放电”并不属于一个类别。可以说,领域本体是知识图谱的骨架和基础,而领域本体模型的构建就是对本体自身及本体之间的关系进行形式化描述。为此,本案例通过以下步骤实现了领域本体的有效构建。

(1)确定开展本体构建方法。通过文献搜索,研究总结了其他领域中成功的本体构建方法,如基于本体工程的构建方法(IDEF-5法、Methontology法、骨架法、七步法等),基于叙词表的领域本体构建方法(自下而上法),以及基于顶层本体的领域本体构建方法(自上而下法),掌握了各种本体构建引擎的总体流程和操作规则。电力设备领域本体如图5所示。

(2)针对领域本体构建引擎进行评价。基于现有成熟的本体模型构建了相关引擎,本案例中选取生命周期、技术成熟度、方法难度、方法特点以及应用情况这几个方面进行比较,分析得到了各方案在电网设备故障类信息本体模型构建方面的优缺点。

(3)优选本体模型构建引擎。本案例中综合考虑了电网设备故障类信息体量大、类型多、价值密度低和变化快的特征,重点关注领域本体构建与实际应用的联系,进而提出了适用于电网的领域本体模型构建引擎。

图5 电力设备领域本体

注:此图为截屏图,只为读者展示本体构建的效果,故图中文字保留原样,未做处理。

(4)通过制定本体评价标准对本体模型的概念体系及逻辑结构进行了评价和修正,并由领域专家和现场运维人员从专业角度对模型进行了审核与评价,最终形成了电网设备故障类信息本体模型构建方法(见图6)。

2)基于深度学习的信息自动化抽取

大量电网设备故障相关的信息是以故障案例、处置方案、规范、导则、标准、科研论文等文本形式呈现的,而文本内容是人类所使用的自然语言,缺乏计算机可理解的语义。基于半自动化标注的电网设备故障类信息抽取与知识图谱构建技术如图7所示。本案例中利用文本特征提取技术,构建文本语言与计算机语言间的联系,具体步骤如下。

(1)对故障案例、处置方案、规范、导则、标准、科研论文等文本数据进行广泛收集。本案例通过多部门协调合作,收集、整理了大量电网设备故障类相关文本。

(2)将基于信息抽取的知识图谱构建过程分为4个主要步骤,分别为实体识别、句子切分、事件单元抽取和事件关系推理。

(3)本案例结合电网企业已建立的电网主设备缺陷分类标准、设备状态评价导则、状态检查、维修试验规程等文本人工标注结果,完成了对信息抽取模型的修正和评估。

通过上述步骤,最终建立了设备质量信息实体、关系、事件的实时自动抽取模型。半自动化标注工具概览如图8所示。

3)多源异构信息融合

电网设备故障类信息往往是以多种形式并存的,既有大量的结构化数据,如电压、电流、电能损耗、电能质量信息的数据库等,还有大量的非结构化数据,如故障案例、处置方案、规范、导则、标准、科研论文等。在构建知识图谱时需要充分考虑多源异构数据的融合。为此,本案例通过以下步骤实现故障信息融合。基于深度学习的电网设备故障类信息融合如图9所示。

(1)开展电网主设备多源质量信息融合需求分析。本案例中通过调研掌握了电网设备故障类信息的来源和特点,并根据信息来源、时空特性等对信息表现形式进行了划分,如历史数据与实时数据,传感数据与社会数据等。本案例分析了各类表现形式的质量信息对于知识图谱构建的权重,并采用隶属度函数法提出了电网主设备多源质量信息融合需求。

(2)开展深度学习框架下的多源异构数据融合机制设计。基于信息融合需求,本案例构建了可泛化的深度学习框架,并对框架中使用到的特征变换、特征选择、特征分类方法进行了研究,有效构建了深度特征学习模型。考虑到机器学习模型的灵活性和异构数据融合自身的复杂性,在模型构建过程中分析了数据层融合、特征层融合、决策层融合和混合融合的输出效果。

(3)开展基于深度学习的电网设备故障类信息融合算法研究。本案例深入探索了共同训练、多核学习、子空间学习、概率依赖和迁移学习等融合算法的差异性,通过优化设计融合算法,最终形成了信息融合引擎。

通过上述研究,面向电网主设备的结构化、半结构化、非结构化数据,实现了基于异构数据的设备质量信息融合。

图6 电网设备故障类信息本体模型的构建方法

图7 基于半自动化标注的电网设备故障类信息抽取与知识图谱构建技术

图8 半自动化标注工具概览

图9 基于深度学习的电网设备故障类信息融合

3.2.3 电网故障设备类知识的挖掘

在利用文本特征提取技术完成电力文本数据中设备参数、地点、时间、原因及处理措施等关键信息的提取后,本案例基于知识挖掘方法,建立信息逻辑关系;基于电网设备故障类信息关联分析技术,融合知识网络与规则引擎,成功实现了质量信息知识图谱建立、关联分析和原因推荐。融合知识网络与规则引擎的变电设备故障类信息知识发现流程如图10所示,主要包含规则引擎构建、知识发现、数据质量评估和数据治理。

图10 融合知识网络与规则引擎的变电设备故障类信息知识发现流程

3.2.4 知识建模与问答

为形成可部署在电网主设备管控系统中的软件模块,本案例利用设备质量信息文本实现了基于数据挖掘的电网设备故障类事件智能问答,搭建了实用化、可交互的电网设备故障类事件智能问答软件原型,为电力公司的设备技术管理及泛在电力物联网基础建设提供了数据支撑。基于数据挖掘的电网设备故障类事件智能问答流程如图11所示。一是利用数据挖掘技术对电网设备故障类事件数据进行特征标签提取与标签归类分析,实现对事件样本的数字化特征精准描述。二是基于特征标签与图搜索形成对电网设备故障类事件的智能问答方法,构建完整的电网设备故障类事件智能问答引擎,实现用户(电网运维人员)与已有知识图谱的问答交互与反馈更新。面向电力维修工程师的故障问答辅助系统界面如图12所示。

图11 基于数据挖掘技术的电网设备故障类事件智能问答流程

图12 面向电力维修工程师的故障问答辅助系统界面

数据挖掘技术是通过处理大量的数据,并从中抽取有价值的潜在信息的一种新的数据分析技术。本案例中的数据挖掘技术是指前述步骤中基于大量电网主设备故障与缺陷文本,相关标准、规范、导则及历史质量事件案例报告等的数据挖掘技术。

为实现电网设备故障类信息知识库在应用层上的开发与集成,推动主设备质量事件智能问答系统的软件化、终端化应用,需要提高数据挖掘的效率和准确性,将大量电网主设备历史质量事件作为样本,对故障判定与诊断的知识挖掘模型进行训练。本案例在对已有的知识图谱进行知识挖掘过程中,对众多质量事件样本中提取的实体进行了特征转换与标签归类,准确地根据故障现象判断故障原因并提出了相应的建议措施。

当电网中出现新的主设备质量事件时,运维人员通过文本对事件中的故障现象进行描述。本案例中的智能问答系统(见图13)通过基于预先构建的知识图谱及质量事件的特征标签分析和图搜索算法,寻找故障特征所对应的标签,分析故障现象背后的故障原因并提出建议措施。

图13 智能问答系统

4.案例示范意义

本案例分析了电网设备故障类信息数据,对海量非结构化的文本数据中包含的词语、语法、语义等信息进行标识、理解和抽取,建立了文本特征提取模型,实现了多模型案例知识汇聚,避免了知识断层;掌握了文本数据特征提取技术、电网设备故障类信息关联分析技术,深度挖掘了文本中存在的知识、规律,构建了知识网络与规则引擎,建立了质量信息知识图谱;构建了电网设备故障类事件智能问答体系,实现了质量事件特征标签分析和可视化智能问答,为后续生产运行和状态评估提供了重要支撑。

1)提升设备安全水平

本案例基于自然语言处理技术,对海量文本进行智能分析,构建AI知识库,并利用人工智能将过去存有文件和专家大脑中的方法和经验沉淀到运检AI大脑中。在变压器等设备出现故障和缺陷时,该知识库给指挥和检修人员提供智能辅助决策,提升工作人员的问题处置能力,提升设备的安全性。

2)节省数据资源

本案例分析了电网设备故障类信息数据,对海量非结构化的文本数据中包含的词、语法、语义等信息进行标识、理解和抽取,建立了文本特征提取模型;研究了文本数据特征提取技术、电网设备故障类信息关联分析技术,挖掘了文本中存在的知识和规律,构建了知识网络与规则引擎,建立了质量信息知识图谱,从而解决了常规结构数据分析无法对质量信息数据进行分析的问题,节省了大量宝贵的数据资源。

3)降低运维成本

目前,运检作业过程还无法实现通过智能信息检索和推荐进行设备、线路异常监测,以及故障诊断。而本案例在输变电专业中应用自然语言处理构建AI知识库,实现了多源数据的融合,可以模拟人脑、替代专家,给普通运检人员指出潜在的故障风险,提供故障案例,并将案例进行可视化形象显示,给出后续处置建议;减少了决策周期,提高了决策准确率,实现了针对性检修,节省了停电时间,降低了运维成本,提高了设备利用率和可靠性。

5.展望

在技术方面,需要进一步提高信息抽取的准确率,以及信息的获取速度。在产业上,需要覆盖更多类型的电网设备,进一步完善系统并成为示范应用。

(1)设备质量信息实体、关系、事件抽取准确率仍需要进一步提高。应对文本特征提取技术进行修正改进,进一步完善自修正技术,逐步提升自动化抽取的比例与准确率。

(2)所完成系统仅可对变压器等电网主设备进行故障诊断,未能覆盖全部种类电网设备(如断路器、线路等)。后续须建立涵盖不同变电主设备质量、设备状态管理和设备处置相关规定的设备质量信息规则引擎。

(3)提高信息获取速度,缩短系统响应时间,加速完成故障类型判断与处置方案推荐,深化知识体系的沉淀、融合与应用,最终实现运检质量与效率的提升。

(4)将基于知识图谱分析的主设备智能诊断与运检策略辅助决策系统在电网公司内形成示范应用,并根据应用反馈信息对系统进行完善。

案例3:电力行业基于知识图谱的认知理解知识问答实践

伴随电网规模不断扩大、电压等级不断升高、电网业务不断扩宽,急需加强制度建设和标准管理,进一步提升企业智能化管理水平。通过智能搜索技术,实现对员工获取制度标准需求的快速响应和智能推送;通过知识图谱技术,形象描述知识资源,并挖掘、分析、构建、绘制和显示知识及它们之间的相互联系;通过深度学习技术,实现对管理内容的科学研判和智能决策。在业务层面,不仅要实现对业务流程制度标准全面的支持,更要实现智能分析、主动推送和制度标准资源信息的共享,加强不同业务板块之间制度标准的关联分析,为业务操作的准确性提供决策依据。在管理层面,通过项目的建设,大幅度提升制度标准在公司治理体系中的作用,助推公司管理能力质的改善,推动管理创新思路的飞跃。

1.案例基本情况

1.1 企业简介

国家电网有限公司(以下简称“国家电网”)企业管理协会是国家电网直属单位,负责国家电网内部电力行业制度标准的制定、发布、管理与培训等工作,对电力行业制度标准与规范的精益化管理、精准化服务有着强烈的需求。

阿里云创立于2009年,是全球领先的云计算及人工智能科技公司,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让云计算和人工智能成为普惠科技。工业知识图谱团队致力于实现人与机器之间用自然语言进行有效沟通的各种理论和方法,包含自然语言处理核心技术,如分词、词性、句法、语义等多语言基础模块,以及情感分析、信息提取、机器翻译和机器阅读理解等技术的研究。本案例主要由阿里云工业大脑—工业知识图谱产品团队负责实施。

北京中电普华信息技术有限公司(以下简称“中电普华”)成立于2004年年初,是专业致力于电力及其他行业集团型企业信息化建设的信息技术产品和服务提供商。中电普华深入理解中国电力企业管理特点和业务知识、业务流程,以软件技术、现代企业管理理念和电力行业专业知识为核心,为国家电网及其他电力企业提供信息化技术和行业应用软件整体解决方案,具有多年面向集团型企业的应用软件研发与实施运维的成功经验。中电普华参与了本案例的案例集成与落地工作。

1.2 案例背景

电力行业存在多口径、大规模、常更新的各项制度标准,这些制度标准是员工日常作业的重要信息。传统依靠员工对业务知识、经验的记忆和文档查阅,难以适应未来泛在电力物联网实时、在线、海量数据处理的需求,必须改变知识传承和使用的模式。

目前,国家电网企业标准制度协会对已发布的制度标准管理现状进行了现场调研和书面调研,涵盖国家电网各业务领域和各层级岗位。调研结果显示当前国家电网制度标准存在执行难、执行不好等突出问题。在内容方面,通用性不强、可操作性缺乏、协同性偏弱;在制度执行方面,查询检索不便捷、宣贯培训不到位、缺乏行之有效的执行方式;在监督检查方面,监督检查流于形式、问题反馈渠道不畅通等。针对上述问题,本案例提出了制度标准数据化、智能化管理的解决方案。将制度标准的具体条款与员工行为、管理流程、业务场景精确衔接和适配,为员工提供易获取、互动性强、学习效率高的知识平台,提升员工获取制度标准的便捷性和有效性,量化制度标准执行情况分析,使制度标准内化为员工的自觉行动,大力推动公司治理体系完善和治理能力提升,为国家电网“依法治企”提供数字化引擎。

1.3 系统简介

智能问答系统如图1所示。该系统的主要工作流程包括以下几个步骤。首先,通过对制度标准文档数据进行预处理,同时识别和抽取出独立要素(段落、图片、表格、公式等),形成规范的数据内容及上下文关系,用于后续的人工标注和NLP识别处理。其次,结合本体构建技术和知识抽取技术对海量非结构化的文本数据中包含的词、语法、语义等信息进行标识、理解和抽取相应的条款和制度标准,挖掘其中存在的规定和要求,提取条款中的关键文本特征,构建制度知识图谱。最后,通过电网制度智能问答技术,对用户输入的自然语言问句进行语义解析,理解关键诉求,结合知识库中的知识条款,实现人机间的智能交互问答。

图1 智能问答系统

智能问答系统中的知识生产模块对制度标准根据定义的图谱结构进行信息抽取并入库。抽取技术面向电力领域专业文本,基于改进的语言模型、信息抽取算法,适用于电网制度的文本特征提取,可以高效提取文本有效信息。

智能问答系统中的知识构建模块主要针对电力制度领域提供知识图谱构建的基础框架,提供包括基础部署环境、知识图谱本体构建管理、知识图谱抽取前端交互功能、知识图谱查询和计算服务、知识图谱存储,后台的系统管理和调度运维服务等组件,为知识图谱生产、存储和查询计算提供支撑能力。

智能问答系统中的智能问答技术建立了基于知识图谱与智能问答技术的语义理解和智能搜索体系,推动了电网制度管理的智能化,可以通过结合对问题上下文语义的理解实现人机交互问答。

2.案例成效

2.1 图谱规模

完成基于设备、流程、岗位和制度标准条款的知识图谱架构设计。共拆解匹配102类设备(节点1556个)、1330项流程(节点18000个)、岗位520类并建立关联关系,将约2000余项制度标准条款拆解为规定10万余条、实体130万余个,并建立关系300万余条。

2.2 响应指标

在硬件资源充足且索引合理的情况下,智能问答系统可以实现亿级节点及边规模的多维度查询。在5层关联查询范围内,以及返回结果集大小一定的情况下(一般小于1000条),能实现毫秒级返回。对于复杂的子图匹配场景,根据不同的召回策略和精排策略,系统的性能表现有所不同,而当一般匹配规模在300个子图以内时,能实现秒级返回。

2.3 应用效果

该系统含有人工标注问题29185个。该系统建成后,供电检修公司组织检修班和电气试验班2个班组人员、共计10人对制度标准智能精益管理功能进行测试。测试结果显示,共计问答1495次,准确率为81.5%。此外,来自13个不同省份的技术专家对该系统进行了测试,共收集测试问题904个,准确率为80.8%。

3.技术路线

3.1 电力制度领域知识本体构建

本案例通过以下步骤实现了电力制度领域知识本体的有效构建。

(1)创建类。如公司、部门、设备、岗位等。类之间可以定义为互斥关系。例如,国家电网属于公司,不能属于部门。类设计的原则包括独立性和共享性。前者指独立存在而不依赖特定领域,后者指所设计的类是可复用的。此外,本体的类应该尽量最小化。

(2)定义类之间的关系。如公司包括部门、公司包括岗位等。

(3)创建数据的属性。数据属性连接的是文本而不是实体。数据属性是叶子节点。

通过上述步骤,基于制度标准 Excel 数据结构,以及用户的查询使用需求分析,二者结合后,通过数据工程梳理,围绕规定名称、岗位、适用设备等制度标准核心概念,梳理制度标准概念及其关系,设计制度标准管理的图谱本体,实现本体的通用性和适用性等特性。国家电网企业管理协会制度标准本体如图2所示。

图2 国家电网企业管理协会制度标准本体

3.2 电力制度领域知识生产

国家电网企业标准制度协会制度标准数据属于非结构化并夹杂半结构化数据,需要业务专家拆解得到中间状态的半结构化数据,通过知识图谱抽取功能进行抽取。抽取工作分为两个阶段:先期通过人工协助数据标注,沉淀数据,用于算法训练;算法提升后,后续逐步减少人工标注,通过系统来完成自动化抽取,最后数据经审核后入库。国家电网企业标准制度协会制度标准数据生产过程如图3所示。

图3 国家电网企业标准制度协会制度标准数据生产过程

对于非结构化数据源或者半结构化数据源,要先发布抽取训练任务,由管理员定义好抽取规则、抽取目标及抽取数据源,再以“众包”模式发布抽取训练任务给执行人,由执行人借助非结构化抽取工具,训练NLP相关抽取算法引擎,进而训练一套专项抽取算法模型,用于机器自动批量抽取数据。基于半自动化标准的制度类信息抽取与知识图谱构建技术如图4所示。

图4 基于半自动化标注的制度类信息抽取与知识图谱构建技术

基于信息抽取的知识图谱构建过程主要分为实体识别、句子切分、事件单元抽取和事件关系推理4个步骤。

3.3 电力制度领域知识问答应用

本案例基于国家电网企业标准制度协会制度标准知识图谱,结合智能识别、自然语言处理技术,搭建起员工与制度标准之间友好交互桥梁,解决员工查阅不便、检索困难等痛点。一是实现员工对制度标准条款的查询。二是基于知识图谱建立制度标准条款与岗位、流程之间的关联关系,实现精准定位查询。图5为智能问答算法流程,员工可以通过语音、文字、图像等多种形式对制度标准进行精准查阅和学习。使员工与制度标准间的沟通更具形象化、人性化,为员工现场作业及业务工作开展提供辅助智能决策能力。

首先,问答系统利用语义解析在线抽取得到的问句的子图信息,并和文本信息相结合,然后对问句的大类意图进行判别,基于不同的意图在已有的知识图谱上对问句关键信息进行搜索,筛选可能包含答案所需的制度子图。搜索技术包括了交互式的文本匹配模型、篇章排序模型,倒排索引检索技术以及图结构的相似性匹配等。根据问句意图和知识图谱系统中专家的先验知识,给问句不同部分和不同的匹配方法分配了不同的权重和阈值。实现了问句语义在已有知识图谱中的准确匹配,从而获得了基于现有数据库的具有最高置信度的答案范围。

其次,问答系统通过意图和答案颗粒度的匹配程度,结合了知识问答系统和阅读理解模型为问答引擎提供了多层次的精确问答,前者完成了结构化制度条款的查询与问答,后者完成了更细粒度的细则级别的精确答案搜索。针对同一本制度标准条款,工作人员的问询意图可能不同,根据数据来源不同采用不同的路径寻找答案,机器阅读理解在此基础上,解答跟文本信息相关的问题。业务上,可以帮助业务人员从大量文本中快速聚焦相关信息,降低人工信息获取成本。具体做法为,基于第一步篇章排序的结果,研究构建MRC机器阅读模型,理解自然语言,从文档/段落中抽取一个连续片段,根据给定的上下文回答问题。机器阅读理解可以形式化为一个关于(文档,问题,答案)三元组的监督学习问题,研究聚焦在“片段抽取式”方法的机器阅读理解任务。

图5 智能问答算法流程

最后,为不断修正和提升知识问答的准确率,在知识问答系统中引入反馈模型。通过收集用户对问题答案的相关性反馈,结合主动学习、在线学习等方法,本案例中智能问答系统可以不断调整算法参数和专家系统的权重,并利用运维人员和用户对专家知识补充,挖掘之前知识图谱中不存在的新知识和答案,形成新的实体及关联,迭代提高智能问答引擎的语义认知和理解能力。

4.案例示范意义

4.1 推动制度标准管理智能化

以制度标准为基础,应用人工智能、大数据等技术,建成制度标准智能管理体系,将单维度的制度标准转化为多维度、智能化的知识资源,形成制度标准与员工之间动态感知、快速响应、按需使用、友好互动和辅助决策的良性管理生态,推动制度标准管理智能化的全面升级,有力保障公司枢纽型、共享型、平台型企业建设,有力推动国家电网泛在电力物联网建设和可持续发展。

4.2 提高员工认知水平和工作效率

制度标准智能管理体系将制度标准资源转化为机器可以认知的知识图谱,为广大员工提供更加友好的智能化制度标准服务,有利于将制度标准中隐性知识显性化,并且内化到员工心中。制度标准智能管理体系通过人工智能、大数据等技术的应用,实现制度标准智能搜索、智能推送、多轮问答等服务应用,实现执行情况分析、条款差异分析、知识运营管理等管理应用,将工作中需依据的制度标准条款推送给用户,使用户不是在考核时才去看制度标准,而是通过主动服务使用户在工作中潜移默化地消化吸收。

4.3 提升人才培养和管理效能

制度标准智能管理体系通过智能、友好的交互技术,实现文字、语音、图像等多种与用户的互动方式,主动为员工提供友好且人性化的工作学习氛围,将促进国家电网制度标准管理方式由考核型管理向主动服务型管理转变,有利于形成学习型组织、知识化企业。建成制度标准智能管理体系,实现人工智能落地应用、促进管理方式转变、全面提升员工的知识水平,将为国家电网迎接智慧时代打通技术路径、提升管理效能、夯实知识基础,最终为国家电网建设成为具有卓越竞争力的世界一流能源互联网企业提供关键支撑。

5.展望

在技术上,要提高图谱自动化问答的准确率,扩大系统对复杂问题的回答范围和提高上下文理解能力。在产业应用上,要扩展覆盖不同领域的制度,服务不同岗位的员工,将问答应用和交互技术结合,提升制度标准管理效率。

(1)图谱构建需要大量的专家意见和人工标注,后续应进一步完善自修正技术,逐步提升制度标准图谱实体、关系、事件的自动化抽取的比率与准确率。

(2)后续需建立涵盖不同类型制度、适用不同岗位员工的系统,同时提升系统在不同领域之间快速迁移的能力。

(3)在继续增加制度标准图谱数量的基础上,继续开展推广工作,扩大系统适用范围,增强提升AI能力。深化知识体系的沉淀、融合与应用,最终实现对制度标准管理效率的提升。

(4)进一步提升系统对复杂问题的理解、回答的准确率,充分结合上下文信息和语义理解技术,提高对包含逻辑推理、统计推理、比较推理等更复杂问答场景式交互问答的准确率,使得知识问答系统对用户问题的认知理解能力更强。

(5)将基于制度标准知识图谱的智能问答应用与友好的交互技术结合,实现文字、语音、图像等多种与用户的互动方式,主动为员工提供友好、人性的工作学习氛围,将智能知识问答系统做成示范应用。

案例4:电力运检领域知识图谱应用案例

电力运检知识管理与认知推理系统(以下简称“系统”)是以电力运检领域知识图谱为核心,具备制度标准智能搜索、工作票自动生成、修试记录语义比对等功能的辅助决策系统。该系统基于深度神经网络、词嵌入技术、知识表示学习、多目标检测识别、主动学习及迁移学习等自然语言处理与人工智能基础技术,实现电力运检业务标准智能搜索、工作票生成、修试记录语义比对等功能。该系统的应用可有效解决由于运检人员知识储备的差异性导致的设备故障处理精准度低、时效性差等问题,进而促进电力运检业务从传统人工巡检到智能运检的跃升,开拓人工智能技术在运检领域的新应用。目前,该系统已经在四川、浙江、天津等省、市多家公司部署并验证应用。

1.案例基本情况

1.1 企业简介

中国电力科学研究院(以下简称“中国电科院”)依托国家电网知识图谱相关科技项目,针对电力系统多维度、多模态、扁平化知识信息,开展了概念、实体、关系、属性等知识元素的挖掘、存储、链接技术研究,突破了电力领域知识本体构建、知识图谱构建关键技术,在电网调度、电力运检、电力客服、科技管理等业务领域进行了应用尝试,探索了知识图谱、自然语言处理等人工智能技术在电力系统中的应用模式。在工程应用方面,国家电网完成了基于知识图谱的电网调度辅助决策技术研究,在国网冀北电力有限公司、福建省电力有限公司、国网四川省电力公司开展电力一次、二次设备智能辅助系统落地应用,完成了基于知识图谱的电力客服问答系统研发;在国家电网客户服务中心、国网浙江省电力有限公司开展落地应用,完成了基于知识图谱的电力运检辅助决策系统研发;在国网天津市电力公司开展落地应用。国家电网在电力知识图谱研究和应用落地方面,具备良好的理论基础和落地实践经验。

1.2 案例背景

2009年,国家电网提出了建设坚强智能电网的发展目标,并启动了智能电网试点工程建设。截至2016年年底,中国已建成世界上规模最大的电网,66kV及以上输电线路达120万千米,建成投运110kV及以上电压等级智能变电站3000多座,建设总量巨大。目前,智能电网建设和增强供电可靠性已上升为国家战略。电力设备状态检测、监测作为近几年发展起来的新兴行业,有着巨大的成长潜力和发展空间,智能电网建设已进入全面快速发展的新阶段。输变电设备运维通过对输电网及变电站设备进行巡视、检测、维修和管理,保障电力安全可靠传输,是维护电网安全稳定运行的关键环节。同时,运检业务需要深化智能化应用,推广无人值班变电站,输电线路无人机自主巡检等智能手段,对设备进行实时监控和智能状态分析,为设备运维管理提供全面的优化和决策依据支持,提高设备管理效率和水平。因此,打造“全业务、全天候、服务专业化、管理精益化、发展多元化”的智能运维具有重要的意义。

当前,输电、变电设备运维业务的开展主要依靠人工监视和经验分析,运检作业人员需要进行全面、系统的专业业务培训来掌握相关专业知识。运检人员对知识储备的差异性可能导致其发现、分析和处理设备潜在缺陷或故障精准度不同,因而有必要构建完备的知识库用以辅助一线运检工作人员。此外,现场运维保障人员由于经验和专业技能的欠缺,运维辅助决策措施不足,故障处理消缺力度不够,严重影响运检业务的检修质量,亟须开辟新的知识管理系统,支持运检作业人员快速查询知识并智能辅助决策,减轻运检人员的巡视、检修和应急压力。

目前,国家电网已拥有设备运维知识库来支撑运检人员进行巡视、检测、维修和管理工作。上述知识库内的数据内容尽管已经通过知识采编过程进行统一的结构化处理,但受到系统架构与检索技术的限制,实际应用效果不甚理想,难以支撑电力运检领域经验知识的积累、固化与传承需求。同时,随着电网侧、电源侧、用户侧的交互内容和交互形式越来越多样化,机械化、条目式的传统知识检索已无法适应目前运维工作的开展,亟须引入知识图谱技术,开展电力运检领域知识库的适应性升级改造。

1.3 系统简介

系统相关方示意如图1所示。从业务角度而言,该系统可以形成针对发展规划、运维检修、电网调度、电力客服、工程监管、质量管控等业务的能力支撑;对外有望与房地产、电商、家电、保险等行业深度合作,将电力相关数据、知识打包成为数据产品,在园区管控、智慧楼宇、广告推销、新基建、设备咨询等业务板块实现电力行业数据资产的增值变现与相关行业的智能化发展。

图1 系统相关方示意

系统自2019年开始建设,结合领域知识图谱与自然语言处理技术,突破了电力运检领域知识图谱自动构建、自主更新、知识推理等核心技术,提供了电力运检业务标准智能搜索、工作票生成、修试记录语义比对3个核心功能模块,适用于输电、变电、配电、用电等多种电力工程中的设备资产智能运维,具体功能如下。

1)智能搜索

智能搜索模块(见图2)支持电力运检领域台账、规程、标准、技术规范、导则、细则等知识库信息,以及检修工单、工作票、修试记录等文本数据的大规模存储与异构数据库交互检索,实现相关制度标准文本的智能检索。

图2 智能搜索模块

2)工作票生成

工作票生成模块(见图3)通过向量词表中输入的缺陷类型、设备、地点的信息,映射出对应的工作票内容,如工作票类型、地点、设备、工作内容等,实现工作票的自动生成。

图3 工作票生成模块

3)修试记录语义比对

修试记录语义比对模块基于长短时记忆(LSTM)模型,通过深度匹配的文本局部性表达和全局性表达技术,对比工作票与对应修试记录的语义相似度,实现检修任务完成情况的智能量化。语义比对工作票示例如图4所示。

图4 语义比对工作票示例

2.案例成效

通过对电力运检领域知识图谱技术的研究,极大地完善了现有设备运维知识库,有效扩展了运维作业人员的知识,减少了培训成本。此外,通过打造基于领域知识图谱的系统,实现对一线运检工作人员各类运维问题的快速解答,实现检修工单、工作票以及修试记录智能生成与比对,预计减少运检工作时间15%以上,节省年人力成本约2.7亿元。应用示意如图5所示。

图5 应用示意

系统的关键绩效指标如下:

(1)基于自然语言处理技术,实现对工作票、制度标准等数据的知识抽取与映射,其中实体识别准确率约为83.26%,实体关系识别准确率约为80.19%,属性关系识别准确率约为86.77%。

(2)覆盖至少7类电力设备,包括导线、绝缘子、金具、杆塔、地线、接地装置、基础,拥有实体数量超过2.7万个、关系超过11.4万条。

(3)可支持输电、配电、车网互动工程等不少于3个垂直电力运检业务领域的工作。

3.技术路线

3.1 系统架构

系统架构(见图6)覆盖数据获取、图谱构建、知识计算、图谱应用4个层级。

图6 系统架构

3.2 技术路线

3.2.1 数据获取

数据获取层负责对电力领域半结构化、非结构化数据进行数据标注,以及对结构化数据、第三方合作数据进行数据解析。其中,数据解析泛指对xlsx、csv、json、xml等文件进行导入、读取及结构化存储;数据标注主要指对文本数据进行概念、实体、关系、属性等语义信息的标注工作。

3.2.2 图谱构建

图谱构建层作为系统架构的核心层,承载自然语言处理、知识抽取、知识融合及知识加工等功能。同时,采用图数据库存储实体(属性值)、概念、关系(属性)、事件并实现多对多关系管理;采用关系型数据库管理文件、视频、图像、音频等多媒体数据以及一对多关系。

3.2.3 知识计算

知识计算层负责集成表示学习、关系推理、属性推理、事件推理、路径计算、比较排序等通用算法模型。作为系统架构的关键技术层,主要根据实际业务需求,研发适配电力领域的算法模型,为图谱应用层提供算法支撑。

3.2.4 图谱应用

图谱应用层负责提供智能搜索、智能问答、智能推理、智能决策、知识管理及第三方应用,作为系统架构所产出的最终功能模块与实际应用场景进行对接。

4.案例示范意义

4.1 构建电力运检领域知识图谱,实现运检业务知识的积累传承

采用领域知识图谱可优化公司运检领域知识管理模式,主要方法是通过梳理现有输电、变电工程等运检业务数据、知识和专家经验,结合电网实际运行状况,构建电力运检领域语料基础库。系统通过关联分析和智能检索,可根据运维作业人员的需求自动做出快速解答,实现运检领域知识的积累、固化与传承,提高运检作业效率与准确率,支撑开展智能运维。

4.2 辅助电力运检业务,助力电网本质安全的全面提升

基于海量的运维语料基础库和大规模的领域知识图谱,采用自然语言处理、计算机视觉等技术,构建的智能系统,可解决一线运检作业人员知识储备参差不齐的问题;摆脱传统工单、工作票以及修试记录制度,根据多媒体信息智能生成工单、工作票以及修试记录,语音合成指令报送运维作业人员,并在检修完成时智能比对并分析消缺进度,从而提高输变电运维管理体系的执行效率。

5.展望

未来,系统将融入国网天津市电力公司的电网设备运行状态监测与诊断平台。同时,人工智能算法还将以容器化部署方式融入“人工智能两库一平台”,不断更新迭代,并依托国网天津市电力公司建立的职工创新基地,在系统内其他省、地(市)公司进行推广应用。

*专栏:电力行业/领域标准化现状与需求

1.电力行业/领域标准化现状

目前正在开展的工作有中国电科院牵头申报的行业标准编制项目,标准名称拟定为《电力领域知识图谱技术导则》。

2.电力行业/领域知识图谱标准化需求

电力领域知识图谱的构建所涉及的技术(如知识提取、知识加工、知识管理、知识计算和知识应用)存在标准化需求。通过标准的制定,为电力运检、电力营销和电力调度等特定电力领域知识图谱构建提供技术标准,以及为电力领域知识图谱与应用提供评价准则。

[1] 为保持每个案例的相对独立性,每个案例的图序都按图1、图2、……、图 n 顺序进行编排;相应对表序、层次序号也照此处理。 f0wSqd7I5Jo7hc3ISm2FJIDwa+Vn13APY+3b0PbGvf6GIn+0kEnPGmLs5sdR+RTA

点击中间区域
呼出菜单
上一章
目录
下一章
×