购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.1 引言

在实现“碳中和”目标过程中,智能传感器及数字化通信传输技术的广泛应用,使得信息能源系统实现了电、气、冷、热等多种能源形式的互补融合,与此同时丰富的数字资源确保了分布式能源设备与能源消费侧多元主体的广泛参与。为了能够保证对碳排放有关的运行数据进行收集和管理,能源系统内以智能电表、能量管理终端为代表的新型终端设备投入应用,并且随着光纤通信和5G移动通信的高速发展,实现了高级感知、量测、传输及控制的全面信息连接,奠定了系统能耗减排的海量数据分析基础。然而现有数据分析体系大多面向特定运行场景及单一能源系统构建,相互之间缺少数据的协同和共享,数据分析壁垒和信息处理孤岛等问题突出;与外部环境变量的交互缺少有效途径,导致系统内庞大的数据量与连接的价值没有得到充分的挖掘;同时独立冗余的数据分析体系也耗费了大量计算资源,无法实现效率最大化。对于信息能源系统数据处理而言,既要实现系统内物理能源与信息数据的有机融合,又要实现系统不同运行变量间的协调交互;既要保证采集数据的可靠性与安全性,又要以统一共享的形态支撑全方位数据处理,由此带来了多方面挑战。

2.1.1 信息能源系统数据特征

信息能源系统数据是系统运行过程中以编码形式进行实时记录的变量数据,其特征符合大数据的4V显著特征,即量(Volume)、类(Variety)、速(Velocity)、值(Value)。“量”是指运行数据的维度及容量都足够大;“类”是指采集数据的种类呈现多源多态特性;“速”是指数据处理的实时性要求高;“值”是指存储的运行数据价值密度相对较低。在大规模全天候不间断的采集过程中,大部分数据为平稳运行数据,仅有少量数据存在异常情况,通过关联数据的挖掘、分析和提取,可以获得满足需求的高价值信息。

由于物理域、信息域相互耦合,数据的复杂性反映在多时间尺度上,动态过程包括毫秒(电磁)、秒(机电)、分钟(燃气)、小时(冷热)多个时间尺度;此外系统能源供给、存储、转换和消费都在不同终端完成,分布距离跨越从米到千米的多个空间尺度。在多时空尺度基础上,信息能源系统的数据特征总结归纳如下。

(1)开放交互的一体化耦合

在能源系统转型过程中,多能互补是实现系统脱碳的主要途径之一。信息能源系统中包含多种类型的电-热、电-气、气-热等异质能源耦合转换设备、传输网络(电网、供热网络、天然气网络),环境温度、大气压力、太阳辐照等外部条件会直接影响设备内部、设备之间、管网内部、管网之间的能流转换及传输的工况运行。多能流运行的多时间尺度、多主体利益、多目标约束特点,使得大规模海量异构能源主体的能量流和信息流互联互动更加紧密。在此基础上,遍布于整个系统的各种类型传感装置和智能终端,能够实时获取源端主体(如CCHP等)、中间主体(如P2G等)、终端主体(如水泵等)的多工况场景运行数据。由于所采集到的异构数据间状态参数形式各异且相互影响,因此数据特征表现出开放交互的一体化深度耦合特点。

(2)数据计算的边缘化

在清洁能源主导的系统控制及优化任务需求日益复杂、规模日益扩大的情况下,信息能源系统为实现海量数据的实时处理,将传统的复杂系统集中调控的辨识、感知、控制、协调等大部分功能转移到边缘终端,借助通信网络,通过边缘、边边、云边等多层级控制协同,保障复杂系统的自适应安全高效运行。其具体实施过程如下:利用边缘计算易于部署、实时性好及可靠性高的特点,根据5G时代云端算力下沉、终端算力上移的技术形态,在云端完成统一计划、规划、调度、决策、控制后,将部分任务放置在以能源主体为核心的边缘终端,对数据进行动态协作处理。在充分利用能源主体边缘算力的基础上,可以避免所有终端数据直接发往云端,导致通信成本和云端计算负担成倍增加。通过网络交互信息,在计算和存储资源约束下,可以实现复杂优化/学习与就地控制的有机集成,从而实现就近服务。由此可知,边缘化已成为信息物理系统数据计算的典型特征。

(3)数据感知的不确定性

不确定性一直是信息能源系统低碳/零碳运行过程中需要时刻面对的难点问题。在大规模感知互联的框架下,电-气-冷-热异构系统内源-网-荷-储的全面深度感知是系统显著特征之一。由于源侧可再生能源及荷侧用户负荷的高度不确定性,信息能源系统难以准确获取和预测下一时刻及后续数据变化情况。此外,在全域、多类型、多能源主体的互动场景中,为实现系统低碳高效的清洁能源运行目标,不仅需要分析外部环境的自然因素和随机用户行为带来的内生不确定性,还需要考虑低成本运行过程中,不同供能侧和用户侧的耦合主体带来的外生不确定性。这种多来源的不确定性会使得系统数据感知结果的不确定性大大增加;进一步,由于信息与能源系统的深度融合,大量传感装置的采集环节失效、网络通信传输堵塞及人为蓄意攻击等情况都会使得系统产生数据拥塞、延时及连锁故障,导致采集的数据不可靠,增加感知过程中数据的不确定性。综上可知,不确定性在数据特征中表现得尤为明显。

2.1.2 数据处理分类与基本方法

随着数据量测设备不断普及、数据处理技术不断提升,针对系统不确定性愈发凸显以及系统控制逻辑与参数模型不断复杂的情况,以数据处理为核心的基础性研究得到快速发展并显示出蓬勃的趋势。在总结归纳现有文献的研究对象选择及数据处理方法的基础上,信息物理系统数据处理可以主要归纳为以下4类。

(1)数据清洗

数据清洗是通过填充缺失值、去除噪声数据等方法,解决采集数据不一致的问题。通过利用数据统计特征来进行缺失数据的填充,是目前缺失数据填充领域中研究得最深入、最广泛的方法,其中,均值填充、回归填充、最近距离填充和EM算法填充等方法均可得到单一数据补偿结果。均值填充法是用所研究数据属性(或变量)的已观测数据均值作为缺失值的替代值;回归填充是利用变量之间的关系建立回归模型,对于包含缺失值的变量,通过建立缺失项对观测项的回归方程,利用该方程得到的预测值来填补缺失值;最近距离填充法是通过选取没有缺失数据的变量作为辅助变量,利用自定义函数,得到缺失变量最近的无缺失变量的对应值作为填充值。EM算法,也称为期望值最大化法,是由极大似然估计方法演化而来的,通过迭代计算得到的缺失数据条件期望值来代替缺失值。

此外,为了更好地体现缺失数据的不确定性及变量间关系,多重填充方法采用多次缺失值填充方式,综合分析得到统计推断结果,完成最终的参数估计。常用的多重填充方法有:①针对连续型变量的倾向得分法。该方法首先给予观测协变量特定的条件概率,然后用目标变量缺失值产生的倾向得分来表示采集数据缺失概率,并根据倾向得分对采集数据进行分组,最后对每一组数据应用近似贝叶斯自助法填充。②针对离散型变量的回归预测法。该方法以完备数据的变量和缺失数据关联的变量作为辅助变量,在建立回归模型的基础上,实现多变量的多重填充。③在任意缺失模式下的马尔可夫链蒙特卡罗方法。该方法先通过EM算法得到初步填充值,然后再根据数据扩增算法实现缺失值填充。

机器学习方法由于其广泛的应用场合及较好的数据拟合效果,近年来被普遍关注。其中,决策树填充、随机森林填充、支持向量机填充和深度神经网络是常见的填充方法。决策树填充是在建立决策树模型的基础上,将含有缺失数据的样本代入决策树模型,进而得到相应的插补结果。随机森林填充、支持向量机填充的步骤与决策树填充类似。深度神经网络方法是将除缺失数据以外的其余变量作为神经网络输入,将缺失数据作为输出,当神经网络训练完成后,通过输入对应的数据即可完成缺失值填充。

去除噪声数据是将混杂在数据信号中的干扰噪声过滤掉,还原采集数据信息。回归法是用一个函数拟合数据来光滑数据,用回归得到的函数值替代原始数据,从而避免噪声数据的干扰。均值平滑法是对具有序列特征的变量,用相邻数据的均值来替换原始含噪声的数据,对于具有正弦时序特征的数据具有很好的效果。此外快速傅里叶变换去噪、小波去噪、自适应去噪、经验模态分解等自适应滤波方法也得到了广泛应用。其本质是函数逼近问题,通过衡量标准找到对原始数据信号的“最优”逼近,区别原信号与噪声信号特征,然后通过特征提取与相应滤波处理即可得到去除噪声的数据信号。

(2)数据聚类/分类

数据聚类/分类是将具有相似特性的数据进行整体性分析,从而满足后续数据特性分析的需求。聚类/分类的目标均为实现“类内相似性,类间排他性”,因此欧几里得距离、曼哈顿距离、余弦相似度、二值/多值变量的汉明距离等不同距离计算,可以实现度量不同数据间的相似性。基于此,数据聚类算法可划分为传统聚类、智能聚类及大数据聚类三种不同算法。传统聚类主要以划分聚类和层次聚类为主。划分聚类是在创建初始划分的基础上,通过样本在类别间的迭代移动来改变聚类簇,最终通过设置的准则结束移动,完成聚类,其代表性算法是 K -means、混合密度聚类、图聚类及模糊聚类等。此外,基于密度的划分聚类方法是将数据集看作低密度区域隔开的若干个高密度簇的集合,代表性算法有DBSCAN、OPTICAL及DBCLASD等。层次聚类是通过相似性或距离,将数据自底向上或自顶向下进行分层划分,从而得到分层的树形结构,其代表性算法有BIRCH、CURE、ROCK及Chameleon等。典型智能聚类有通过网格搜索和随机搜索调节参数的人工神经网络聚类、非线性映射核函数映射聚类、时间序列/时空轨迹聚类以及基于复杂网络的启发式/社区结构聚类。此外,针对大数据聚类需求,分布式聚类、并行聚类以及高维聚类成为处理计算复杂度和计算成本、可扩展性和速度之间关系的解决方案。分布式聚类主要是使用MapReduce框架实现聚类,其代表性算法有PK-Means、MR-DBSCAN等。并行聚类则对数据进行划分,并将其分布在不同的机器上,这使得单一机器上的聚类速度加快,具备可扩展性,其代表性算法有DBDC、ParMETIS、G-DBSCAN以及G-OPTICS等。高维聚类是先将数据进行降维处理,进而在特征子集中实现数据聚类,其代表性算法有CLIQUE、ENCLUS、ORCLUS、FINDIT以及Biclustering等。

数据分类通常包含两步,第一步是通过已有标签的数据集来构造和训练模型,进而采用训练好的模型对未知标签的数据进行分类。经典的分类算法主要有决策树、朴素贝叶斯、支持向量机以及神经网络算法等。决策树算法是通过从一系列无规则、无顺序的样本数据信息中推理出“树”型结构来进行预测的分类规则,代表性算法有ID3、C4.5及CART等。朴素贝叶斯算法是基于贝叶斯公式,通过训练获得类别总体的概率分布和各类样本的概率分布函数。支持向量机是通过寻找满足分类条件的最优超平面,使得其将两类甚至多类样本分开,代表性算法有选块算法、分解算法及模糊支持向量机算法等。神经网络算法则是在学习阶段通过调整连接权重,得到能够使得最终输出值与真实值接近的模型,训练完毕后对输入信息进行动态响应,进而从输出端得到分类结果,其代表性算法有BP神经网络、RBF神经网络、自组织特征映射神经网络以及学习矢量化神经网络等。进一步针对不平衡数据分类,通过代价敏感法、单类学习法、集成学习法对分类算法进行改进,从而提高分类精度。基于代价敏感法的数据分类是以代价敏感理论为基础,关注错误代价较高类别的样本,并且以分类错误总代价最低为优化目标,相关算法有代价敏感直接学习和代价敏感元学习。基于单类学习的数据分类是只对多数类样本进行训练,形成一个针对该类别的数据模型,代表性算法有单类支持向量机、支持向量数据描述等。集成学习法是将多个基础分类器分类结果按设定的方式集成来提升分类器的泛化性能,其代表性算法有Bagging、Boosting等。

(3)数据生成

数据生成是通过借助辅助数据或者辅助信息,对原有小样本数据集进行数据扩充,以增加数据的多样性。最基本的数据生成方法是增加噪声。在已有少量数据中,在不影响数据整体性质和标签信息情况下,对不同数据的取值随机地添加一定的噪声来生成新的数据,且最常被用来添加的噪声是高斯噪声。此外,还有随机过采样方法,即通过随机复制小样本数据,单纯地使数据集内不同类型的样本比例达到相对平衡。SMOTE方法是经典的数据生成方法,其基本思想是在每一个小样本数据和其 K 邻近的小样本数据之间随机地生成一个新的样本,并且后续提出了如Borderline-SMOTE、N-SMOTE等一系列改进算法。考虑数据的整体分布信息,RACOG、wRACOG及分布随机过采样方法保证了数据生成后联合概率分布情况。高斯混合模型通过多个高斯分布函数的组合,对已有小样本数据分布进行拟合,进而通过拟合函数得到所需的小样本数据。MAHAKIL方法按照半监督的原理生成数据,计算每一个小样本数据和小样本中心的马氏距离,并按距离大小排序,通过迭代生成所需的样本数量。同时,为了减少噪声并提升生成样本的多样性,基于进化算法的数据生成是在选择合适小样本数据基础上,通过选择、交叉、变异等操作在问题空间寻找最优解,进而得到新的样本,代表性算法有ECO-Ensemble。进一步地,深度神经网络也应用于数据生成。其思想是通过深度神经网络提取数据特征作为基本特征,学习隐编码空间与数据生成空间的特征映射,进而在基本特征上加入一部分伪特征,在输出端重构产生新的样本。该类方法可以通过伪特征的加入增加样本的多样性,其代表性算法有自编码器、生成对抗网络等。

(4)数据决策

在获取完备数据情况下,为实现后续控制及优化需求,非侵入式检测通过事件检测、特征提取、设备辨识等步骤实现运行状态的准确感知。事件检测是通过一段时间内采集数据的变化情况,判断是否有事件发生。根据事件检测策略的不同,可以分为启发式、匹配滤波和概率模型三类不同的检测方法。启发式方法是基于简单的规则进行事件检测,通过与设定的阈值相比较,当变化值超过阈值时,即判定有事件发生。匹配滤波是指将特定的已知设备信号与采集的设备信号进行相关性分析,以检测对应的事件是否发生。基于概率模型的事件检测方法则通过事件发生前后的似然比测试进行判断,此外也可以采用基于序贯概率比检验的突变检测方法。针对特征提取步骤,可以细分为稳态特征、暂态特征和非传统特征三种不同情况。稳态特征是设备在各个稳定的工作状态下表现出来的特征,通过高斯混合模型、粒子滤波算法以及非负张量分解等方法分解得到功率、电压、电流等变化情况。暂态特征是指设备状态切换过程中采集的特征信息,也就是说,通过傅里叶变换、频谱分析、功率谱包络估计等变换技术,间接得到暂态变化过程中负荷功率变化、起动/停止设备电流波形等特征。非传统特征采用递归图分析、有限状态机及主成分分析等方式获得分解出的显著数据特征。设备辨识是实现非侵入式检测的最后一步,最终得到系统内设备运行情况。组合优化和模式识别是两类求解方法。组合优化是通过0-1化处理不同类型数据特征,在构建特征滤波器的基础上,将已有数据功率进行组合匹配,从而使得误差最小化。基于模式识别的方法则直接从已有数据集中学习设备的特征模式,进而完成对相关设备的辨识与分解。 K 近邻算法、Adaboost算法、稀疏编码等监督学习技术, K -means、DBSCAN等聚类方法以及集成学习方法是常用的分解方法。其中,隐马尔可夫模型、图信号处理、深度学习方法由于其突出的性能而受到广泛关注,以长短期记忆网络、降噪自动编码、CNN、RNN等神经网络为核心的深度学习方法通过大规模数据训练,增强了设备辨识的泛化性能。 vkJ6ohddOay2fCiWBvAdQ3MlMfp+NXBRASguYOu5BSd9htxJERGWAQOoESmnflkW

点击中间区域
呼出菜单
上一章
目录
下一章
×