电力大数据平台为大数据应用提供数据基础和存储、计算、分析等技术能力,是大数据在电力系统应用的基础和技术支撑。
早期的供电企业数据中心局限于物理环境建设,侧重于提供清洁宽敞的机房环境、高性能的计算机和服务器、足够的网络带宽和数据储存空间等。在实施大数据战略的过程中,供电企业对数据资产的认识逐步清晰,对数据越来越重视,大数据技术已成为供电企业开展管理、运营和决策服务的重要基础,依托国家电网当前“总部-省公司-市县公司”三级/四级电网管理格局,电力大数据平台的建设一般规划构建三级数据中心,包括:
第一级数据中心:公司总部数据中心。
第二级数据中心:区域级/省级分公司数据中心。
第三级数据中心:地区供电公司级/发电厂级和其他直属单位级数据中心。
三级数据通过网络互联互通,数据实时交换和统一更新,保证供电企业内部及时获取系统运行、资源计划的历史和实时信息,实现不同业务系统间数据共享和数据应用。
国家电网有限公司以SG186工程和SG-ERP工程为代表的企业信息化建设取得了显著成绩,信息系统已实现由分散到集中、由孤岛到共享转变,硬件定制化、软件开源化的电力大数据平台已初具规模,向信息化企业和智慧企业迈进。
电力大数据平台一般采用x86架构,核心分布式存储与计算组件采用Hadoop技术体系分布式存储(HDFS、Hbase、Hive等)、分布式计算框架(MapReduce)及Spark等开源产品或技术。典型的电力大数据技术架构示意图如图2-1所示。
图2-1 典型的电力大数据技术架构示意图
电力大数据的数据来源主要有数据中心、业务应用和关联系统数据。其中,数据中心主要涉及地理位置信息、历史数据等;业务应用包含各业务系统和量测系统产生的相关业务数据;关联系统数据主要涉及物联网、社交网络、移动互联等途径获取的各类数据。将采集的海量数据进行整合,形成文件数据、分布式数据和实时消息队列数据,存储为关系数据库和内存数据库,形成数据挖掘的数据基础。集成Kafka和Flume等流式,实时处理技术可实现日志实时解析,通过高并发读写请求可传递实时数据接入内存计算在线处理,采用数据抽取和同步等批数据算法处理大规模的非实时数据。高性能计算主要是通过Hadoop分布式计算技术,采用MAP-REDUCE模型建立分布式计算集群或Yonghong Z-Suite等高性能工具,对电力数据进行分布式计算和处理;数据挖掘技术是通过数据准备、规律寻找和规律表示等步骤寻找隐含规律。
管理信息平台提供网络传输、数据资源、信息集成、应用构建和访问控制等资源和服务支撑,包括集群运维、服务监控、资源监控、异常告警等模块,管理员可以通过信息网对服务器的利用率和健康状态进行监控、日常管理和维护。同时,通过集成监控告警模块,执行报警功能和发送故障告警信息。
业务信息平台涵盖电网业务、非电业务、资源管理、智能决策等方面。提供数据存储、分析计算、辅助决策和可视化展示等各类服务,支持通过WebService方式访问,提供可嵌入式业务系统的大数据展示组件。
数据安全防护平台集成隐私保护机制、增强分布式存储安全等功能,可满足有效的信息风险监控预警和数据安全智能防护,可实现“可观可控、精准防护、可视可信、智能防御”。
电力大数据平台以先进的数据存储技术、数据分析技术、数据处理技术、数据展现技术等为支撑,实现经营管理态势判断和趋势预测,增强在线管控能力,提升经营管理效率。