2.1节介绍了碳中和转型过程中数据处理的分类以及基本方法,由于信息能源系统多时间尺度特性以及数据多元异构特性,它们都为其数据处理带来了不小的难度。不同于单一能源网络,在信息能源系统中,多种能源网络耦合使得系统出现能源运行机理不清、动态行为复杂等一系列问题。数据驱动的研究方法可以不依赖于精确的运行机理,而依靠大量数据及统计学知识发掘系统特征间规律,实现对系统的拟合、状态识别及预测。但是数据驱动方法对历史数据的依赖性较大,面对异常工况这类出现频率低、数据样本量小的情况,数据驱动方法将难以发挥作用,导致对异常工况识别准确性的降低。因此,生成不同运行场景的信息能源系统数据,解决运行数据样本数量小的问题,对信息能源系统数据处理的研究意义重大。
综合考虑信息能源系统的数据特征和多场景数据生成的任务目标,数据生成算法主要面对的问题有三个方面:一是数据量大,系统分布空间范围广;二是系统数据为多源异构数据;三是生成数据的场景多样性难以实现。只有在构建算法过程中充分考虑和解决上述三个问题,才能得到性能良好的信息能源系统多场景数据生成模型。
为了解决上述提到的三个问题,本节提出了一种基于多网络混合协作的生成对抗网络(mixed-GAN)结构。该结构具有强大的建模能力,可以学习原始数据的内在分布,而不会失去数据的多样性。传统生成对抗网络(Generative Adversarial Networks,GAN)需要同时构建并且训练两个模型:一个模型用来学习数据分布特征,称为生成模型,用 G 表示该模型;另一个模型是用来评估输入数据是来自训练数据集而不是来自生成模型 G 的输出的可能性,称为判别模型,在本节中用 D 来表示该模型。模型 G 的训练目标是使其生成的数据作为输入数据而让 D 无法判断来源,也就是使其无法区分输入是生成数据还是真实数据。整个训练目标的数学表达如下:
式中, x ~ p data 和 z ~ p z 分别为真实数据分布和 G 输入的噪声分布; G (·)和 D (·)分别为 G 和 D 的输出。
然而,在传统生成对抗网络的训练方式下,生成器可以通过仅生成单一场景的数据就可以使判别器无法判断数据来源,而这种现象会造成模式塌陷,导致生成器生成的数据模式单一而不再多样化,偏离预期目标。为了让生成模型能更好地适应信息能源系统中数据的多源异构特性以及保证生成数据的多样性,本节提出了mixed-GAN相对于传统GAN进行的以下三点改进:
1)集成不同类型生成网络来生成多场景数据。需要注意的是,本方法是在不同类型生成网络混合协作的情况下生成数据,每个网络都可以共享其参数并且在每次迭代过程中寻找和更新全局最优参数,避免了梯度消失问题。
2)在迭代过程的执行中嵌入了能源子系统数据约束,促使每个生成的数据都能充分表达不同场景的特征和信息,从而为获得真实的生成数据并用于数据驱动的异常工况检测等数据处理奠定基础。
3)在生成模型的学习过程中引入了异构的参数更新机制,包括粒子群算法(Particle Swarm Optimization,PSO)和梯度下降算法。通过这种方式,基于多网络混合协作的多场景数据生成方法在训练过程中具有多样化的网络参数选择,扩大了参数搜索范围。
图2.1给出了mixed-GAN的网络结构。首先,利用多类型网络参数搜索方法寻找合适的参数,生成不同场景数据;然后,在数据评价准则中设计了数据时空约束和功率约束,以满足多场景工况数据在系统中的耦合要求。接着根据数据评价结果,选择最优参数并应用到 G 中,完成迭代过程。接下来,为了驱使 G 产生更好的异常工况数据,利用 D 来区分生成数据和原始数据。 D 的损失函数对应公式为
图2.1 基于mixed-GAN的网络结构
多类型网络参数搜索方法的模型由不同类型的生成网络组成。在训练过程中,每个独立的生成网络各自探索如何更好地根据生成数据的评估结果来改进其参数,进而使得多类型的生成网络逐渐生成更真实的数据,最终获得与真实数据分布一致的分布。多类型网络参数搜索方法的细节描述如下:
1)进化函数。进化算法是一种有效的网络参数调整方法,具有鲁棒性强、收敛速度快、全局搜索能力强等优点。PSO算法是一种通过迭代计算改变候选解的随机优化方法。该算法通过对一群粒子进行初始化,将粒子群的位置作为问题的候选解,通过移动粒子的位置在搜索空间中寻找适应度函数的最优解来解决问题。在更新过程中,每个粒子的运动受其当前最佳位置的影响,并被引导到搜索空间中的最佳位置。PSO算法重复此过程,直到最终获得满意的解。
对于mixed-GAN,在搜索空间中 G 参数的每个潜在解定义为粒子的位置 P ,粒子在搜索空间中以速度(变化量) v 移动,以找到更好的解。将目标函数 D 作为PSO算法的适应度函数,更新粒子在第 i +1次迭代时的速度向量 v 和位置向量 p 如下:
式中,
i
为迭代次数;
ω
表示惯量;
c
1
和
c
2
分别为个体最佳位置
和全局最佳位置
的系数;
r
1
和
r
2
是在[0,1]区间服从均匀分布的两个随机数。在迭代过程中,采用线性递减调整策略更新参数
ω
,调整方程为
式中,
ω
max
和
ω
min
分别为最大惯量和最小惯量;
为PSO的最大迭代次数。
2)Minimax函数。传统GAN采用Minimax目标函数来最小化生成数据分布与原始数据分布之间的Jensen-Shannon散度。虽然该方法存在梯度消失问题,但它可以有效地解决梯度下降的问题,并尽可能地缩小两个不同数据分布之间的距离。因此,本节选取了Minimax函数作为生成网络 G 的目标函数之一,定义为
3)Nonsaturating函数。由于Heuristic函数的目的是最大化 D 的对数概率,所以在梯度计算中不存在饱和。也就是说,与Minimax函数不同,Heu ristic函数可以在训练过程中提供有效的梯度来更新生成网络。因此,本节采用了Heuristic函数确保在训练过程中避免梯度消失,其定义如下:
4)Least-squares函数:为了进一步避免梯度消失的问题,本节同时考虑了采用Least-squares距离帮助 G 提高生成数据质量。与Jensen-Shannon散度相比,Least-squares距离保证了 G 不会在混淆 D 的情况下产生远离决策边界的数据,具体函数表达式为
综上所述,首先PSO算法用于搜索 G 网络参数的潜在解。由于PSO算法是一种进化算法, G 的更新依赖于启发式搜索,而不是损失函数。因此,在初始迭代中不存在生成损失及梯度消失情况。然后在后续迭代中,利用梯度算法实现 G 的参数更新。由于训练过程中有三种不同类型的生成器,因此生成损失函数由如下三部分组成:
需要注意的是,在后续迭代中,有三种类型的生成器用于处理可能出现的梯度消失问题。当 D 以高可信度( D ( G ( z ))→0)对生成数据进行区分时,Nonsaturating函数和Least-squares函数可以提供用于更新 G 的有效梯度值,此外,Least-squares函数也可以在一定程度上避免模式塌陷。当 D 无法区分数据源( D ( G ( z ))→1)时,Minimax函数可以为更新 G 结构提供有效梯度值。因此,对于梯度计算和更新问题,三种不同类型的网络函数是互补的。
虽然 D 能够区分不同生成器在同一迭代过程中生成数据的真实性,但它不能处理数据的多样性和数据物理约束问题。此外,为了在每次迭代中选择 G 的最优参数,本节提出了数据评价准则对不同类型生成器的生成数据进行评估。然后根据生成数据的评价结果,确定训练方向,并为每种类型的生成器赋予相应的参数,从而确保下一次迭代过程的顺利进行。数据评价准则首先考虑了生成数据真实性和多样性两方面内容。将 D 的输出衡量生成的数据是否足够真实,并且将对应的生成数据评判结果作为数据真实性指标。此外, D 的梯度用于评估生成器场景塌陷情况和提高训练稳定性。因此,本节定义的数据质量函数 Φ d 的表述如下:
式中,▽ D 表示 D 的梯度;ς 1 是生成数据真实性与多样性之间的权重系数;‖·‖是L2正则化算子。
式(2.9)中,第一项
表示输出值
D
的生成数据;第二项是生成多样性评价的一部分,以保证
G
能够生成不同类型场景的数据;第三项
是计算数据多样性的对数形式表达。与
D
(
G
(
Z
))相比,第三项采用了对数范数来缩小满足▽
D
的取值范围。另外,第三项是数据多样性评价的一部分,第一项用于评价数据的真实性。所以式(2.9)中第一项和第三项的目的是不同的。因此,虽然在公式中存在相似表达,但式(2.9)中仍将第一项和第三项分开。
由于信息能源系统的多场景数据是工业数据,因此在数据评价准则中也考虑了物理约束。信息能源系统是由电力、天然气、热力子系统耦合而成的,不同能源系统内的能量变换传播速度不同,因此其时空相关性也不相同。在对天然气、热力系统采用时空约束的同时,本节也对不同子系统间存在的能量转换进行功率约束限制。
在天然气和热力系统中,若系统中出现泄漏或者出现其他使得压力改变的情况,那么相邻管道接收到数据变化情况的传播时间 t 为
式中, l 为管道长度,是常量。因为传播时间 t 由波速 a 来决定,所以波速 a 可表述为
式中, K 为流体的体积弹性常数; E 为管道弹性模量; e 为管道壁厚; C 为管道约束相关修正系数。
此外,传播时间 t 不是一个固定值。如果相邻数据变化的时间差在允许时间内,也可以认为生成的数据能够满足时空约束的基本要求。生成数据的时空约束如下:
式中, t inf 和 t sup 分别表示管道的最小和最大允许传播时间。
接下来考虑功率约束问题。电、气、热子系统之间的节点以及系统和负载之间的节点在实际系统中是由不同种类的能量转换设备构成,根据功率平衡以及转换设备存在的能量损耗可知,节点的输入和输出关系存在关联。假设信息能源系统有 m 个能量输入端口以及 n 个能量输出端口,其能量关系可以表述为
式中,[
p
imα
…
p
imζ
]=
P
im
表示
m
个能量输入端口;[
L
inα
…
L
inζ
]=
L
in
表示
n
个能量输出端口,
表示对应能量转换节点的能量转换效率。矩阵
C
inm
由系统中对应的能量转换设备的转换效率决定,且其中任意元素应满足0<
C
pq
<1(
α
≤
q
≤
ζ
,
α
≤
p
≤
ζ
)。
因此,数据评价准则的物理约束函数表达式如下:
式中,
ξ
1
和
ξ
2
分别代表时空约束和功率约束的系数;
和
分别为符合约束条件的生成数据。将数据质量和物理约束函数综合考虑可得最终的数据评估准则:
综上所述,本节所提的mixed-GAN算法流程如下所示。初始迭代中,利用PSO算法求解 G 的候选解。在每次迭代过程中,PSO算法可以选择大量的候选解,但是在后续训练过程中容易陷入局部最优,产生收敛速度慢问题。进而在后续迭代中,采用梯度更新算法来避免这一问题,并进一步扩大搜索范围来调整相应的参数。为了缩小生成数据与原始数据之间的数据分布差距,根据引入的数据评价准则,选择 G 的最优参数参与下一次迭代过程。然后,对数据进行 n D 次更新,以提高对生成的多场景数据识别和评判能力。最后,在交替迭代训练过程中,mixed-GAN可以得到满意的结果。
为验证本节所提算法的有效性,采用IEEE 14节点电力网络、20节点天然气网络和14节点热力网络构成的信息能源系统作为数据来源,各耦合节点的配置见表2.1。选取电力系统节点电压、天然气系统节点气压及热力系统管道质量流为各子系统的测量参数进行研究。同时通过改变不同能源子系统负荷、输入、参数等变量,得到不同场景的原始数据,并将其作为本节所需的原始数据集。
表2.1 信息能源系统各子系统耦合节点配置
此外,
G
和
D
的网络结构分别见表2.2a、b。同时,仿真所需参数设置如下:
n
m
=100,
b
=8,
n
PSO
=10,
c
1
=
c
2
=1.49,
ω
max
=0.6,
ω
min
=0.2,
=50,
n
D
=3,
α
=0.0002,
β
1
=0.5,
β
2
=0.99,
ζ
1
=0.002,
ξ
1
=0.05,
ξ
2
=0.05。
表2.2 生成对抗网络结构参数
为验证本节提出算法的有效性,三种不同场景(电节点负荷变化、耦合节点参数及气节点输入改变)的数据变化用于实现生成数据的分析。图2.2展示了通过训练好的生成器得到的生成数据(实线)及对应的原始数据(虚线)。需要说明的是,为方便展示,数据均做了归一化处理。从直观曲线趋势可知,生成数据与原始数据有类似的数值变化情况,也就是说,生成数据的分布与原有数据分布具有相似性。
图2.2 生成数据与原始数据
a)场景1 b)场景2 c)场景3
进一步地,为了更加准确地评价生成数据效果,不同的统计指标用于定量描述数据间的相似性。首先,图2.3采用柱状图的形式将生成数据和原始数据差值的平均值和标准差进行表示,其中,每个柱子均对应图2.2子图所得到的数据统计结果。从图中可知,生成数据与原始数据间的差值均值小于0.03,说明生成数据能够较为准确地反映不同场景的数据生成情况,并且标准差的变化较为平缓,表明生成数据与原始数据间的差异性不大。此外,累积分布函数也用于评价生成数据与原始数据间的概率分布相似性,相应的比较结果如图2.4所示。从图中可以看到,生成数据与来自原始数据的分布情况近乎一致,相似的变化情况表明mixed-GAN方法在数据生成方面是有效的。
图2.3 原始数据与生成数据间差值的统计值
a)均值 b)标准差
通过上述曲线展示及统计特性分析表明,在完成训练过程后,本节所提出的mixed-GAN能够充分考虑大规模信息能源系统的运行特征及数据特性,通过生成对抗网络生成不同场景数据,保证了数据的真实性与多样性。
图2.4 原始数据与生成数据的累积分布函数
a)场景1 b)场景2 c)场景3