智能电网中的风光储关键技术最新章节_李建林著

2.2 风电数据预处理方法

现实世界中的数据大体上都是不完整的数据，无法直接进行数据挖掘，或挖掘结果差强人意，为了提高数据挖掘的质量产生了数据预处理技术。

目前国内外关于风电输出特性的研究都是依据风电输出的历史数据，基于统计学理论展开，因此风电数据样本的有效性、完备性直接影响研究的结论。由于种种原因，在风电场采集数据过程中往往存在数据重复、失真和缺失的现象，这就要求提出有效的数据预处理算法，能够对采集到的风电历史数据进行必要的预处理。

2.2.1 数据预处理原则

基于对多个国内典型风电场数据的处理经验及参考国外相关文献可以看出，目前风电原始数据主要存在数据重复、失真及缺失这三个问题。

进行数据预处理的第一步，首先依据GB/T 18710—2002中计算原始数据的完整率的方法评价原始数据样本的完整率，计算公式如下：

式中，应测数目为测量期间小时数；缺失数目为没有记录到的小时平均数；无效数据数目为确认为不合理的小时平均值数目。

以浙江省某风场风速数据样本为例，该数据样本含2009年9～11月期间风机FJ1～FJ14的风速数据。每两个风速数据的采样时间间隔为30s，其中存在缺失数据情况，参照GB/T 18710—2002，缺失数据统计结果见表2-1。

表2-1 浙江省某风场风速数据缺失情况以及数据完整率

针对数据重复、失真和缺失这三大问题的判断依据及处理原则可参考表2-2

表2-2 判断依据及处理原则

其中，判断数据失真的判据，仅考虑了数据的采样时间间隔大于等于1min的情况，判断原则为超出边界条件或连续多个数据相同且不为零。风电出力数据的边界条件为[0，装机容量]，风速数据的边界条件为[0，40]（参考GB/T18710—2002《风电场风能资源评估方法》）。考虑到风速和风力发电机出力的间歇波动性，数据采样时间间隔不小于1min时，正常情况下，不会出现连续多个相同且不为零的数据，可通过对失真数据前面的连续五个数据取移动平均修正该失真数据。

在数据预处理过程中，针对缺失数据的处理较繁琐而且重要，在下一节中将重点介绍。

2.2.2 补齐缺失数据

由于采集数据的条件限制，经常会产生缺失数据的现象，如果缺失数据的产生与研究变量有关，则定义为不可忽略的；如果缺失数据是随机出现的，就将缺失数据产生机制定义为可忽略的。风电出力特性的分析基于风电的历史采样数据，所以风电出力数据的缺失时不可忽略的。

缺失数据是指粗糙数据中由于缺少信息而造成的数据的缺失、聚类和分组。它指的是现有数据集中某个或某些属性的值是不完全的。缺失数据模式描述了整个数据集中观测值与缺失值的对比情况，在整理出数据集不同变量之间的关系之后，对不同的缺失数据采用不同的填补算法。缺失数据的模式分几种情况：

（1）单变量缺失模式

单变量缺失模式如图2-1a所示。缺失的数据仅限于单个变量，如对于风力发电数据，S ₁ 表示风力发电功率，存在缺失数据，而S ₂ ，S ₃ ，S ₄ 分别代表风速、电压、时间，这些变量是可以完全观测到的，不存在缺失。

（2）多变量缺失模式

多变量缺失如图2-1b所示。从第 j 个变量开始，以后所有缺失数据都类似或相同，如风力发电功率和风速数据同时缺失。

图2-1缺失数据的模式

（3）一般缺失模式

一般缺失模式如图2-1c所示。数据的缺失具有偶然性，没有规律可循，这是最一般和最典型的数据缺失模式，如风力发电数据中某个时间段，功率、风速随机缺失。

对于不同的缺失数据模式，需要采用不同的数据填补方法。对单变量缺失模式，可采用最近距离插补法；对多变量缺失模式，可采用基于ARMA模型的数据填补方法。鉴于篇幅有限，本节仅对最近距离插补法进行介绍。

对于单变量缺失模式，可采用最近距离插补法。算法根据缺失变量在辅助变量上的接近程度来选择赋值单元，即利用辅助变量，定义一个测量各单元之间距离的函数，选择满足设定条件的、辅助变量中单元对应的变量 S 作为插补值。最近距离插补法原理是：两个具有最近距离实例的关系最密切。设风电功率单元 i 的目标变量值 y _i 缺失，但辅助变量风速数据 x _i 已知，则构造公式可定义为

式中， z _i 为第 i 个风电功率单元的插补值； X _i 为构造距离函数的矢量； f （ x ）为赋值函数。

输入值为 X _i 时，赋值函数返回满足 d （ i ， j ）=min d （ i ， j ）的 X _j 所对应的值为 y _i ，即缺失的风电功率单元。这里， d （ i ， j ）为单元 i 和 j 之间的距离函数。该距离通常用Minkowski距离来计算，它的计算公式为

式中， q 是一个正整数，当 q =2时，是欧式距离。通常不同的数据集，采用不同的 q 值，而采用不同的 q 值，会产生不一样的填充效果。表2-3是风电场数据样本。

表2-3 风电场数据样本

以表2-3为例，最近距离插补法的演算步骤如下：

1）表中第一行是样本单元 i ，这里选取10个风电场数据作为样本。

2）第二行是风速，它是辅助变量，没有数据缺失的情况。

3）第三行是风电功率，它为目标变量，其中*表示数据缺失。

4）第四行 S ^* 为最近距离插补值。例如 S ₂ 缺失，与其风速样本 x ₂ （6.3）距离最近的是风速样本 x ₁ （6.2），故用功率样本 y ₁ =409.8作为插补值，其他依此类推。

5）第五行 I ^* 表示最近距离的位置。例如功率样本 y ₈ 缺失，与其风速样本 x ₈ 距离最近的是风速样本 x ₇ ，依此类推。

6）第六行 C 表示功率样本 x _i 充当插补值的次数。