购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.2 基于灰色粗糙集的二阶段数据预处理方法

实际生活中,事物的组织结构相当复杂,人们受所掌握知识的限制,只能把握到研究对象的很少一部分信息所呈现出来的某种状态。灰色系统(Grey System)指的就是这种部分信息已知而部分信息未知的系统 [8]

2.2.1 关联度分析方法的基本理论

灰色关联分析法是一种基于系统态势发展量化的分析方法 [9] ,它通过对数据序列的几何关系和物理形状进行分析比较,采用两者之间相似程度的大小作为一种衡量标准。相似程度越高,那么两数据序列的物理形状越相近;反之,则越不相近。

1. 灰色关联分析公理

X 0 =(x 0 (1),x 0 (2),…,x 0 (m))为系统特征序列,且记

img

为相关因素序列。给定实数γ(x 0 (k),x i (k))且 X ={ X s | s=0,1,2,…,n,n≤2},若实数 img 满足以下4点:

(1)规范性:0≤γ( X 0 X i )≤1,γ( X 0 X i )=1⇒ X 0 = X i

(2)整体性:对于 X i X j ∈X,有γ( X i X j )≠γ( X i X j ),i≠ j。

(3)对偶性:对于 X i X j ∈X,有γ( X i X j )=γ( X j X i )⇔X={ X i X j }。

(4)接近性:x 0 (k)-x i (k) 越小,γ(x 0 (k),x i (k))越大。

则称γ( X 0 X i )为 X 0 X i 的灰色关联度,γ(x 0 (k),x i (k))为 X 0 X i 在k点的关联系数,而规范性、整体性、对偶性和接近性4个条件就被称为灰色关联的4条公理[10]。

由上面的公理可知:

(1)规范性表明,对于系统中的两个任意指标序列,是不可能完全没有关联的,而对于每个指标自身而言,又是完全关联的;

(2)整体性表明,在不同的环境作用下,个体的关联度也是不同的;

(3)对偶性表明,当且仅当系统中只有两个指标序列时,它俩是对称的;

(4)接近性则是一种量化条件,用于约束关联度。

2.灰色关联分析方法的评价步骤

(1)建立评价指标体系,并收集实验数据[11]。

img

式中,m为指标个数,n为评价人数, X i =(x i (1),x i (2),…,x i (n)) T

(2)确定参考数据列。作为一个比较基准,它与实际问题相关联,参考序列可以选取各指标序列的最优值(或最劣值),记作 X 0 =(x 0 (1),x 0 (2),…,x 0 (n)) T

(3)依次计算对象的各指标列与已确定好的参考序列 X 0 的绝对差值,即计算x 0 (k)-x i (k) (k=1,…,m;i=1,…,n)。

(4)计算 imgimg 的值。

(5)计算关联系数。由式(2.3)计算数据序列中每一属性相对于比较序列的关联系数。

img

其中,ρ∈(0,1)为分辨系数。如果{x 0 (k)}为最优值数据列,ζ i (k)越大越好;反之若{x 0 (k)}为最劣值数据列,ζ i (k)越小越好。

(6)计算关联度。按式(2.4)计算相对于参考序列的各数据序列的关联度r i

img

(7)将步骤(6)得到的结果进行排序,依据关联度得出整体综合的评价结果。

2.2.2 两阶段数据预处理算法流程

首先求得数据集的灰色关联度,对属性集进行第一次择优,选取满足预设阈值的属性集;然后使用粗糙集进行第二次择优 [12、13] 。先要对属性集进行数据离散化,求出其差别矩阵,然后将其中的单个元素,即核属性赋予到变量Core中;接着按一定规则更新差别矩阵,将不可分辨的属性元素扩充到约简属性集Red中,最后得到的就是二次约简结果 [14、15]

输入:实验数据data和信息系统S=(U,A,V,f)。

输出:Red,是一个属性约简结果。

(1)输入实验数据data,求其灰色关联度,进行第一阶段属性择优;

(2)计算属性集的差别矩阵;

(3)求出差别矩阵中所有单个元素,并将其赋予变量Core;

(4)将差别矩阵中所有与核有交集的项删除,并更新差别矩阵;

(5)令 Red=Core,若 IND(Red)=IND(A),转到步骤(7),否则继续顺序执行;

(6)在新的差别矩阵中找到出现次数最多的元素a,令Red⇐ Red Y { a })

(7)若IND(Red)≠IND(A),将差别矩阵中所有与a有交集的项删除,并更新差别矩阵,转到步骤(5);

(8)算法结束,输出Red。

二阶段数据预处理算法的流程图如图2-1所示 [16]

img

图2-1 基于灰色粗糙集的二阶段数据预处理算法流程图

2.2.3 算法有效性验证

为验证上述二阶段数据预处理算法的有效性,本章采用MATLAB编程,以气象状况的数据实例作为验证对象,采用本章算法进行约简运算。

数据如表2-1所示,论域U={1,2,…,8},C={a 1 ,a 2 ,a 3 ,a 4 ,a 5 ,a 6 }是条件属性集,D={d=a 7 }是决策属性集,其中,a 1 为Weather,a 2 为Temperature,a 3 为Humidity,a 4 为Wind,a 5 为Dust,a 6 为Pollution index,a 7 为决策属性。

表2-1 天气状况表

img

对于多决策属性的情况,可通过转换成单个决策属性来分步累加计算。为了简化实验,本章仅验证具有单一决策属性的情况。

第一步,按照自定义格式,将数据结果离散化,转成数字,如表2-2所示。

表2-2 离散化结果

img

第二步,使用MATLAB编程,计算各属性的灰色关联度,结果如表2-3所示。

表2-3 各属性值的灰色关联度

img

由表2-3可知,经排序,灰色关联度最低的属性不满足预设阈值被约简掉,即Humidity(a 3 )和Dust(a 5 )被去掉。

第三步,使用MATLAB编程,通过区分矩阵求出属性核,结果如表2-4所示。

表2-4 基于区分矩阵的属性核

img

由表2-4可知,区分矩阵求出的属性核为Core={a 1 ,a 4 }。

通过MATLAB编程实验,验证基于灰色粗糙集的二阶段数据预处理算法是行之有效的。 RCrdpCA1E8kRL/2nLcamOUI8GSpASasVQJKnYuEoZ6iAiOdMEcU4SYzc9DZdznK+

点击中间区域
呼出菜单
上一章
目录
下一章
×