粗糙集理论是一种新的处理模糊和不确定性知识的数学工具。其主要思想就是在保持分类能力不变的情况下,通过知识约简,导出问题的决策或分类的规则。目前,粗糙集理论已经被成功地应用于数据挖掘领域,并成为数据挖掘中的有效方法与手段。
1.粗糙集理论的产生和发展
1982年,Z.Pawlak发表了经典论文Rough Sets,宣告了粗糙集理论的诞生。粗糙集理论迅速成为一种处理含糊和不精确性问题的新型数学工具。1992年,第一届关于粗糙集理论的国际学术会议在波兰召开,至今每年都召开以粗糙集为主题的国际会议,推动了粗糙集理论的拓展和应用。目前大约有2000多篇粗糙集方面的研究论文发表于国际重要期刊和国际会议刊物上,国际上也成立了粗糙集学术研究会。粗糙集理论不仅为信息科学和认知科学提供了新的科学逻辑和研究方法,而且为智能信息处理提供了有效的处理技术。
2.粗糙集理论的基本概念
1)粗糙集理论中的知识定义
在信息系统中,一般认为知识是人类实践经验的总结和提炼,具有抽象和普遍的特征,是属于认识范畴的概念,任何知识都是对其事物运动状态及变化规律的概括性描述。然而这个定义不能算是一个完全的、精确的表达,这是因为知识本身具有多种意义,特别是在不同的领域中进行讨论更是如此,因此要根据认知科学的一些观点来理解知识。
在粗糙集理论中,知识被认为是一种将现实或抽象的对象分类(Classification)的能力,人们的行为是基于分辨现实的或抽象的对象的能力。这样在粗糙集理论采用的方法中假设知识是基于对对象分类的能力。对象(Object)指任何可以想到的东西,如实际物体、状态、抽象概念、过程、时刻等。知识直接与真实或抽象世界有关的不同分类模式联系在一起,这里称为论域U(Universe)。
假定具有关于论域的某种知识,并使用属性(attribute)及其值(value)来描述论域中的对象。例如,空间物体集合U具有“颜色”和“形状”两种属性,“颜色”的属性值取为红、黄,“形状”的属性值取为方、圆。从离散数学的观点看,“颜色”和“形状”构成了U上的一族等价关系(Equivalent Relation)。U中的物体,按照“颜色”这一等价关系,可以划分为红色的物体、黄色的物体等集合;按照“形状”这一等价关系,可以划分为方的物体、圆的物体等集合;按照“颜色+形状”这一合成等价关系,又可以划分为红色的圆物体、黄色的方物体等集合。如果两个物体同属于红色的圆物体这一集合,它们之间是不可分辨关系(Indiscernibility Relation),因为描述它们的属性都是“红”和“圆”。不可分辨关系的概念是粗糙集理论的基石,它揭示出论域知识的颗粒状结构。
定义3.1:
给定一对象的论域U,对于任何子集有
,可称之为一个论域U中的概念或范畴,并且论域U中的任何概念族称为关于论域U的抽象知识,简称知识(Knowledge)。
定义3.2:
设有限非空集合U是一个论域,
是U上的一个等价关系族。系统
被称为一个知识库(Knowledge Base)。
定义3.3:
设
为一个知识库,若
,则
(
P
中全部等价关系的交集)也是一等价关系,称为
P
上的不可分辨关系,记为ind(
P
),且有
(3-1)
2)粗糙集理论中的近似集合
粗糙集理论延拓了经典的集合论,把用于分类的知识嵌入集合内,作为集合组成的一部分。一个对象 a 是否属于集合 X 需根据现有的知识来判断,可分为三种情况:对象 a 肯定属于集合 X ,对象 a 肯定不属于集合 X ,对象 a 可能属于也可能不属于集合 X 。集合的划分密切依赖于所掌握的关于论域的知识,这是相对的而不是绝对的。
粗糙集可以近似地被定义,为了达到这个目的,使用两个精确集,即粗糙集的上近似集和下近似集来描述。
给定知识库为
,对于每个子集
和一个等价关系
,定义两个子集:
(3-2)
(3-3)
分别称它们为 X 的 R 上近似集和下近似集。
集合
称为
X
的边界;
称为
X
的
R
正域;
称为
X
的
R
负域。显然,
。
正域
或
X
的下近似
是对于知识
R
判断肯定属于
X
的
U
中元素组成的集合;
是根据知识
R
p
判断可能属于
X
的
U
中元素组成的集合;
是根据知识
R
既不能判断肯定属于
X
又不能判断肯定属于
U
-
X
的
U
中元素组成的集合;
是根据知识
R
判断肯定不属于
X
的
U
中元素的集合。
下列性质是显而易见的:
(1)
X
为
R
可定义集,当且仅当
;
(2)
X
为
R
粗糙集,当且仅当
。
3)非精确性的数字特征
集合(范畴)的不确定性是由边界域的存在而引起的。集合的边界域越大,其精确性则越低。为更精确地表示这一点,引入精度(Accuracy Measure)的概念,且定义为:
(3-4)
其中,
,
表示集合
的基数。
精度
用来反映对于了解集合
的知识的完全程度。显然,对于每一个
R
和
,有0≤
≤1。当
=1时,
的
R
边界域为空集,集合
为
可定义的;当
<1时,集合
有非空
边界域,集合
为
不可定义的。
可用
的另一种形式,
粗糙度
来定义集合
的不确定程度,即:
(3-5)
的
粗糙度与精度相反,它表示的是集合
的知识的不完全程度。
可以看出,与概率论和模糊集合论不同,不精确性的数值不是事先假定的,而是通过表达不精确性的概念近似计算得到的,这样不精确性的数值表示是有限知识(对象分类能力)的结果。因此不需要用一个机构来指定精确的数值去表示不精确的知识,而是采用量化概念(分类)来处理,用不精确的数值特征表示概念的精确度。
4)知识表达系统
知识表达系统的基本成分是研究对象的集合,而这些对象的知识是通过指定对象的基本特征(属性)和它们的特征值(属性值)来描述的。
一个知识表达系统
可以表示为:
(3-6)
其中,
是对象的集合,
是属性集合,不相关的子集
和
分别称为条件属性集和结果属性集,
是属性值的集合,
是一个信息函数,它指
中每一对象
x
的属性值。
知识表达系统的定义可以用表格表达法来实现。知识的表格表达法可以看作是一种特殊的形式语言,用来表达等价关系,这样的数据表也被称为知识表达系统,有时也被称为信息系统属性值表。
在知识表达系统数据表中,列表示属性,行表示对象(如状态,过程等),并且每行表示该对象的一条信息,数据表可以通过观察测量得到。容易看出,一个属性对应一个等价关系,一个表可以看作是定义的一族等价关系。
因为知识库和知识表达系统之间有一对一映射关系,这样,所有涉及知识库的定义都可以用知识表达系统的定义来描述,因此,知识库中任一等价关系在表中都可以表示为一个属性和用属性值表示的关系的等价类。表中的列可以看作某些范畴的名称,而整个表包含了相应知识库中所有范畴的描述,包含了能从表中数据推导出所有可能的规律。所以知识表达系统是对知识库中有效事实和规律的描述。
5)决策表
决策表是一类特殊而重要的知识表达系统,它指定当满足某些条件时,决策(结果)会怎样进行。
决策表可以根据知识表达系统定义:
设
为一知识表达系统,
,
称为条件属性集,称为决策属性集。具有条件属性和决策属性的知识表达系统被称为决策表。
决策表的各个条件属性之间往往存在着某种程度的依靠或关联。简约可以理解为在不丢失信息的前提下,可以最简单地表示决策系统的结论属性对条件属性的集合的依赖和关联,即简化就是化简决策表中的条件属性,化简后的决策表有更少的条件属性。因此,决策表的简化在工程应用中非常重要。
决策表的简化步骤如下:
(1)进行条件属性的简化,即从决策表中消去某些列。
(2)消去重复的行。
(3)消去属性的冗余值。
化简后的决策表是一个“不完全”的决策表,它仅包含那些决策时所必需的条件属性值。
3.粗糙集理论运用于数据挖掘的优势
随着数据挖掘技术和粗糙集理论的不断发展,科研人员开始将二者结合起来,即出现了基于粗糙集理论的数据挖掘技术的研究。基于粗糙集理论的数据挖掘思想是:将数据库中的属性分为条件属性和决策属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集和决策属性划分的子集之间的上下近似关系生成判定规则。
将以粗糙集为代表的集合论方法应用到数据挖掘领域取得了一定的成果,也体现出了粗糙集理论应用于数据挖掘的优势,优势主要表现在以下几个方面。
(1)粗糙集这种四元组形式的知识表示方法可以很好地对应到目前十分成熟的关系数据库的二维表中的数据中。
(2)对于研究的对象,粗糙集只依赖于原始的数据,而无须收集关于数据的确定预先知识或额外附加信息,更利于分析基于现实的情况。
(3)粗糙集不仅适用于数值型和符号型数据的挖掘,而且可以通过上下近似空间的概念很好地处理数据的不一致性和缺失问题。