|
2.2 基于灰色粗糙集的二阶段数据预处理方法 |
实际生活中,事物的组织结构相当复杂,人们受所掌握知识的限制,只能把握到研究对象的很少一部分信息所呈现出来的某种状态。灰色系统(Grey System)指的就是这种部分信息已知而部分信息未知的系统 [8] 。
灰色关联分析法是一种基于系统态势发展量化的分析方法 [9] ,它通过对数据序列的几何关系和物理形状进行分析比较,采用两者之间相似程度的大小作为一种衡量标准。相似程度越高,那么两数据序列的物理形状越相近;反之,则越不相近。
1. 灰色关联分析公理
设 X 0 =(x 0 (1),x 0 (2),…,x 0 (m))为系统特征序列,且记
为相关因素序列。给定实数γ(x 0 (k),x i (k))且 X ={ X s | s=0,1,2,…,n,n≤2},若实数 满足以下4点:
(1)规范性:0≤γ( X 0 , X i )≤1,γ( X 0 , X i )=1⇒ X 0 = X i 。
(2)整体性:对于 X i , X j ∈X,有γ( X i , X j )≠γ( X i , X j ),i≠ j。
(3)对偶性:对于 X i , X j ∈X,有γ( X i , X j )=γ( X j , X i )⇔X={ X i , X j }。
(4)接近性:x 0 (k)-x i (k) 越小,γ(x 0 (k),x i (k))越大。
则称γ( X 0 , X i )为 X 0 与 X i 的灰色关联度,γ(x 0 (k),x i (k))为 X 0 与 X i 在k点的关联系数,而规范性、整体性、对偶性和接近性4个条件就被称为灰色关联的4条公理[10]。
由上面的公理可知:
(1)规范性表明,对于系统中的两个任意指标序列,是不可能完全没有关联的,而对于每个指标自身而言,又是完全关联的;
(2)整体性表明,在不同的环境作用下,个体的关联度也是不同的;
(3)对偶性表明,当且仅当系统中只有两个指标序列时,它俩是对称的;
(4)接近性则是一种量化条件,用于约束关联度。
2.灰色关联分析方法的评价步骤
(1)建立评价指标体系,并收集实验数据[11]。
式中,m为指标个数,n为评价人数, X i =(x i (1),x i (2),…,x i (n)) T 。
(2)确定参考数据列。作为一个比较基准,它与实际问题相关联,参考序列可以选取各指标序列的最优值(或最劣值),记作 X 0 =(x 0 (1),x 0 (2),…,x 0 (n)) T 。
(3)依次计算对象的各指标列与已确定好的参考序列 X 0 的绝对差值,即计算x 0 (k)-x i (k) (k=1,…,m;i=1,…,n)。
(4)计算 和 的值。
(5)计算关联系数。由式(2.3)计算数据序列中每一属性相对于比较序列的关联系数。
其中,ρ∈(0,1)为分辨系数。如果{x 0 (k)}为最优值数据列,ζ i (k)越大越好;反之若{x 0 (k)}为最劣值数据列,ζ i (k)越小越好。
(6)计算关联度。按式(2.4)计算相对于参考序列的各数据序列的关联度r i ,
(7)将步骤(6)得到的结果进行排序,依据关联度得出整体综合的评价结果。
首先求得数据集的灰色关联度,对属性集进行第一次择优,选取满足预设阈值的属性集;然后使用粗糙集进行第二次择优 [12、13] 。先要对属性集进行数据离散化,求出其差别矩阵,然后将其中的单个元素,即核属性赋予到变量Core中;接着按一定规则更新差别矩阵,将不可分辨的属性元素扩充到约简属性集Red中,最后得到的就是二次约简结果 [14、15] 。
输入:实验数据data和信息系统S=(U,A,V,f)。
输出:Red,是一个属性约简结果。
(1)输入实验数据data,求其灰色关联度,进行第一阶段属性择优;
(2)计算属性集的差别矩阵;
(3)求出差别矩阵中所有单个元素,并将其赋予变量Core;
(4)将差别矩阵中所有与核有交集的项删除,并更新差别矩阵;
(5)令 Red=Core,若 IND(Red)=IND(A),转到步骤(7),否则继续顺序执行;
(6)在新的差别矩阵中找到出现次数最多的元素a,令Red⇐ Red ( Y { a }) ;
(7)若IND(Red)≠IND(A),将差别矩阵中所有与a有交集的项删除,并更新差别矩阵,转到步骤(5);
(8)算法结束,输出Red。
二阶段数据预处理算法的流程图如图2-1所示 [16] 。
图2-1 基于灰色粗糙集的二阶段数据预处理算法流程图
为验证上述二阶段数据预处理算法的有效性,本章采用MATLAB编程,以气象状况的数据实例作为验证对象,采用本章算法进行约简运算。
数据如表2-1所示,论域U={1,2,…,8},C={a 1 ,a 2 ,a 3 ,a 4 ,a 5 ,a 6 }是条件属性集,D={d=a 7 }是决策属性集,其中,a 1 为Weather,a 2 为Temperature,a 3 为Humidity,a 4 为Wind,a 5 为Dust,a 6 为Pollution index,a 7 为决策属性。
表2-1 天气状况表
对于多决策属性的情况,可通过转换成单个决策属性来分步累加计算。为了简化实验,本章仅验证具有单一决策属性的情况。
第一步,按照自定义格式,将数据结果离散化,转成数字,如表2-2所示。
表2-2 离散化结果
第二步,使用MATLAB编程,计算各属性的灰色关联度,结果如表2-3所示。
表2-3 各属性值的灰色关联度
由表2-3可知,经排序,灰色关联度最低的属性不满足预设阈值被约简掉,即Humidity(a 3 )和Dust(a 5 )被去掉。
第三步,使用MATLAB编程,通过区分矩阵求出属性核,结果如表2-4所示。
表2-4 基于区分矩阵的属性核
由表2-4可知,区分矩阵求出的属性核为Core={a 1 ,a 4 }。
通过MATLAB编程实验,验证基于灰色粗糙集的二阶段数据预处理算法是行之有效的。