信息能源系统的安全高效运行离不开大规模信息化技术采集到的运行数据,然而在现实中由于传感器失效、网络通信中断造成数据缺损不可用的情况时有发生。此类情况的出现会直接影响用于碳排放计算的数据质量,因此数据完整性是必须要考虑的问题。
对于信息能源系统来说,采集的运行数据来源于不同能源子系统。单一节点的变化会通过耦合设备的连接,引起系统内跨时间、空间的一致性关联变化。因此,本节以耦合能源数据为基础,通过生成对抗网络(GAN)学习时空关联变化的能源数据抽象特征,实现缺损数据补偿。
针对系统缺损数据,本节通过设计生成器及判别器网络结构,增强训练过程中生成器特征提取能力,从而提高数据补偿的精准性。具体实现过程如下。
假设信息能源系统中有
h
个采集到的能源数据变量,对于每个采集到的数据变量序列
而言,
∈
,其中,
x
j
为
j
时刻采集的能源数据。进一步地,为了表征数据缺损情况,与数据变量序列对应的掩码序列定义为
=(
m
1
,
m
2
,…,
m
j
)∈
,序列中的值为{0,1}。对于数据变量序列中的缺损数据来说,其对应的掩码序列值为0。接着,考虑到多元数据变量序列的时空关联变化,相应的数据矩阵
X
和掩码矩阵
M
定义如下。
首先,构造
n
个
的相邻数据变量序列,描述为
x
1
,
x
2
,…,
x
n
。其中,相邻序列的采样时间差为
。例如,假设
x
2
=(
x
1
,
x
2
,…,
x
j
),那么
x
1
和
x
3
可以分别表示为
和
。相同地,
x
1
,
x
2
,…,
x
n
的掩码序列定义为
m
1
,
m
2
,…,
m
n
。然后根据数据补偿需求,选择
k
个数据变量序列重复上述步骤。最后,将
R
G
(
R
G
=
k
×
n
)个数据变量序列按照时间顺序进行排列,从而形成
X
∈
。通过类似的方式,可以得到用于数据补偿研究中的掩码矩阵
M
∈
。因此,针对信息能源系统的实时数据补偿问题就可以描述为当掩码矩阵
M
中元素为0时,对数据矩阵
X
中相应元素进行数据替换的问题。
由于卷积神经网络能够很好地提取数据矩阵 X 中隐含的时间演化特征和空间变化相似性,因此本节采用以卷积核为基础的深度神经网络结构进行数据补偿。图2.5展示了本节所提方法结构,其包含三个神经网络,分别为生成器 G 、全域判别器 D ma 和区域判别器 D mi 。在数据补偿问题中,由于生成器 G 的输入为高维矩阵 X 和 M ,无法直接对其进行操作,因此需要通过低维特征的联合共享及逐层反卷积采用实现缺损数据的补偿。基于此,本节采用U型卷积神经网络作为生成器结构。相较于普通自编码网络,U型卷积神经网络通过跳跃连接将编码器第 i 层与解码器第 n-i 层神经网络进行连接,将第 i 层网络拼接到第 n-i 层中实现不同网络层的特征传递,形成对应特征强化,实现高维缺损数据的生成。
判别器 D ma 和 D mi 的功能是对原始矩阵和生成矩阵进行特征提取并实现样本来源的判断。如图2.5所示,考虑到提取的特征包含丰富的能源数据潜在特征,因此判别器 D ma 用于分析全域数据特征,而 D mi 则用于判断区域数据特征的变化情况。通过三个网络的共同训练,具有深度神经网络结构的 G 可以补偿 X 中的缺损数据部分。
图2.5 GAN结构示意图
尽管卷积核可以通过局部感受野对复杂的数据分布进行建模,但建模的数据关系不能关注特征的全局范围。由于缺乏整个系统的时空信息,这种特征提取机制对于缺损的数据补偿是需要进一步完善的。为了能够使得 G 关注到系统全局时空关联变化,在原有U型卷积神经网络的基础上,采用自注意力机制对生成器输入进行全局时空关联特征提取。如图2.6所示,通过添加位置注意力模块对所有位置的特征进行加权,进而选择性地聚合每个位置的特征。同时将通道注意力模块用于对所有通道映射的相关特征进行选择性地强调,从而确保相互依赖的通道映射关系。最终,通过注意力机制把两个模块的输出特征进行相加,完成特征表示,最终作为 G 中神经网络层的输入进行下一次的特征提取。
图2.6 自注意力机制示意图
对于判别器结构,通过采用双判别器形式实现了全域-区域的时空关联变化一致性的判断,其具体结构如图2.7所示。全域判别器
D
ma
的输入为全域矩阵(
或
Y
),通过卷积神经网络提取系统整体性输入是否一致,从而驱使生成器
G
尽可能地接近缺损数据的原始值。因此
D
ma
保证了缺损数据在全局范围内的时空关联变化合理性。为了保证在局部范围内缺损数据与相邻数据间的时空关联变化一致性,区域判别器
D
mi
用于判断数据间的时间一致性和空间一致性。首先将全域矩阵(
或
Y
)进行分割,从而得到区域矩阵
,其中,
T
L
的值由实际需求确定。然后,对于区域时间关联分析,区域判别器
D
mi
的输入通过复制
个相邻数据变量序列形成一致性矩阵
,其中,每个数据变量序列的复制次数为
r
。对于区域空间关联分析,区域判别器
D
mi
的输入是选择
个不同数据变量序列构成一致性矩阵
。在完成一致性矩阵构造的基础上,通过不同层卷积核进行特征提取,可以得到缺损数据在区域范围内的时空关联一致性情况。最终,采用sigmoid函数将双判别器的输出约束在[0,1],并且将双判别器输出进行叠加,得到整个系统的时空关联一致性。
图2.7 联合判别器结构示意图
在描述网络结构的基础上,接下来介绍生成器和双判别器的损失函数。在GAN中,
G
的作用是尽可能使缺损数据相似于原始数据。因此为了得到更加精准的数据补偿结果,本节同时考虑了对抗损失和恢复损失两方面内容,对生成器损失函数
L
G
进行设计。对抗损失
L
a
是指生成全域矩阵
的真实性,其值反映了
与真实数据间的差距,其公式定义为
恢复损失
L
r
是
和
Y
非缺损数据间的均方误差。因为缺损数据是通过
中非缺损数据的时空关联变化特征进行补偿得到的,因此需要确保生成器
G
能够准确地捕捉到数据中隐含的信息。针对非缺损数据的恢复损失
L
r
的表达式为
式中,·为点乘运算符。
最终,生成器 G 的损失函数 L G 定义为
式中, λ 为权重参数。
双判别器的目标在于通过提取到的特征,区分输入数据是来自于生成器 G 还是原始数据。因此,全域判别器 D ma 和区域判别器 D mi 的损失函数定义为
综上所述,本节所提的数据补偿方法训练过程如下所示。在每次迭代训练过程中,首先通过式(2.18)对生成器 G 进行训练。然后将 G 中的网络参数固定,采用训练集中的数据对 D ma 和 D mi 进行训练,通过式(2.19)和式(2.20)更新两个判别器的网络参数。通过两个阶段的不断更替训练,三个网络的参数一同训练,直至达到最大训练次数 I train 。最后,训练好的 G 就可以用于实时数据补偿。
为了证明所提方法的有效性,本节采用IEEE 33节点、天然气20节点及热力32节点构建的信息能源系统进行仿真,其网络拓扑结构及耦合设备连接如图2.8所示,同时选取电力系统节点电压 v 、天然气系统节点气压 Π 及热力系统管道质量流 m 为相应系统测量值进行研究,从而使得系统节点与测量变量间形成一一对应的关系。
图2.8 信息能源系统结构图
为了能够提取采集的能源数据隐含特征,本节所构建的生成对抗网络除了每个网络最后一层卷积核步长为1×1以外,神经网络其余层的卷积核步长为2×2。其余参数设置如下:最大训练次数 I train =9000, R L = T L =50, R L =170, T G =180, λ =100。需要说明的是,生成对抗网络的输入数据尺寸取决于系统数据变量数量和序列长度。然后,根据输入数据的维数,确定生成对抗网络的结构和相关训练参数,得到补偿数据。在选择过程中,需要采用试错法以获得更好的实时数据补偿性能。总的来说,生成对抗网络的参数是根据训练过程和实际系统结构选取的。
在构建样本集的过程中,首先通过调整系统内能源节点需求,生成不同情况下的系统能源数据变量序列,从而得到4600个不同数据样本作为数据来源;为了能够更好地比较补偿效果,体现补偿数据与真实数据间的差距,并且考虑到不同节点、不同缺损数量的情况,本节将得到的4600个数据样本的不同节点数据进行随机性删除,并且将该部分数据设置为0,也就是说,将节点缺损数据用0替换,从而保持数据维度不变,并且替换的长度在20~50之间;经过处理后,存在数值为0的节点数据即可认为是运行过程中出现的缺损数据。将原始数据和修改后的数据一一对应构成数据对,相应的4600个数据样本对即为构建的样本集,用于本节所提方法的训练和验证,其中随机选取3680个不同类型样本作为训练样本,其余样本为测试样本。
为了评价本节所提方法的数据补偿效果,算例结果采用平均绝对误差(Mean Absolute Error,MAE)、均方误差(Mean Squared Error,MSE)及平均百分比误差(Mean Percentage Error,MPE)三个不同的指标进行分析。其中,MAE用于评估原始数据与生成数据间的绝对误差,反映了补偿值误差的实际情况;MSE是原始数据与生成数据间的标准误差,体现了数据的变化程度;MPE则是绝对误差的平均值,表明了补偿值与真实值间的偏离程度。三个指标的表达式定义如下:
式中,
z
(
i
,
j
)和
分别为第
j
个数据变量序列中第
i
个生成数据和原始数据;
h
为缺损数据变量序列的数量;
v
为缺损数据的长度。
进一步地,本节从缺损数据补偿有效性和多节点数据缺损补偿两个方面进行了分析。
1)缺损数据补偿有效性。假设在信息能源系统内电节点17负荷变化过程中,电节点16的网络通信传输存在间歇性中断情况,因此该节点的数据变量序列存在缺损情况。如图2.9所示,图2.9a和c分别展示了电节点16电压幅值间断缺损及持续缺损两种不同的情况,纵坐标为电压幅值,图2.9b和d为相应数据补偿结果及原始数据。从输入输出关系出发,图2.9a和b分别为电节点16数据间断缺损情况及通过所提方法得到的数据补偿情况。从直观上看,补偿数据和原始数据有很高的相似度并且部分数据可以基本实现重合。从统计指标上看,图2.9b补偿结果的MAE、MSE及MPE分别为1.5788×10 -5 、1.4929×10 -5 及1.9434×10 -5 ;图2.9d补偿结果的MAE、MSE及MPE分别为1.7573×10 -5 、1.6617×10 -5 及2.1693×10 -5 。通过上述曲线展示及统计指标可知,对于不同情况的单一节点数据缺损情况,提出的方法均能够较好地实现缺损数据补偿。
图2.9 电节点16数据变量序列曲线
a)数据间断缺损 b)数据间断补偿 c)数据持续缺损 d)数据持续补偿
2)多节点数据缺损补偿。为了进一步讨论所提方法对于不同数量的缺损数据变量序列的补偿效果,选取节点数量缺损情况分别为1、3、5、7、9的五种情况进行研究,具体结果见表2.3。
表2.3 不同数量的缺损数据补偿结果
根据表2.3可知,当系统内节点数量缺损少于5时,生成器对于缺损数据的补偿效果基本相同,但是随着缺损数量的增加,输入数据的缺损部分也越来越多,使得输入生成器中的完整数据变量序列的数量也越来越少,生成器 G 的深度神经网络无法从相邻数据中提取到充足的数据特征,因此相应的数据补偿性能指标也随之变差。但是从整体效果来看,所提方法仍然能够对缺损数据进行相应地补偿。
综上可得,本节所提方法对生成器和判别器结构进行改进,分别通过增加注意力机制及双判别器方式使其能够对全局数据特征进行提取;进而,在生成器损失函数方面,除原始损失函数以外,增加了原始数据补偿效果的评判,从而确保生成器能够准确得到系统隐含的时空关联变化情况。通过上述两个方面的考虑,所提方法能够适应于能源缺损数据变化特点,使得补偿后的数据能够进一步用于后续的研究当中。