对原特征空间进行优化之后,就要对优化的结果进行评价,通过反复选择不同的特征组合,采用定量分析比较的方法,判断所得到的特征维数,及所使用特征是否对分类最有利,这种用以定量检验分类性能的准则称为类别可分离性判据,用来检验不同的特征组合对分类性能好坏的影响。对特征空间进行优化是一种计算过程,它的基本方法仍然是模式识别的典型方法,即找到一种准则(或称判据),通常用一种式子表示,使这种计算准则达到一个极值。对特征评估的方法大体分两类:一类以计算样品在特征空间离散程度为基础的准则,称为基于距离的可分性判据;另一类则基于概率密度分布的判据。
下面介绍基于距离的可分性判据。
给定一组表示联合分布的训练集,假定每一类的模式向量在观察空间中占据不同的区域是合理的,类别模式间的距离或平均距离则是模式空间中类别可分离性的度量。基于距离的可分性判据的出发点:各类样本之间的距离越大、类内散度越小,则类别的可分性越好。基于距离的可分性判据直接依靠样本计算,直观简捷,物理概念清晰,因此目前应用较为广泛。
在一个特征候选集X=[x 1 ,x 2 ,…,x n ]所定义的n维特征空间中,用d(X ik ,X jl )表示第i类中第k个样品和第j类中第l个样品间距离的度量值,距离度量d可采用式(2-3)定义的欧几里德距离计算:
类间的平均距离可采用式(2-4)计算:
考虑到式(2-4)的计算比较复杂,可将其转化为相应的矩阵来度量和处理。
(1)总体散布矩阵
① 第i类均值向量
② 样本集总体均值向量
③ 第i类协方差
④ 样本总体协方差
⑤ 第i类类内散布矩阵
⑥ 总体类内散布矩阵
⑦ 总体类间散布矩阵
特别对于两类问题
⑧ 总体散布矩阵
存在关系
类内散布矩阵表征各样本点围绕它的均值的散布情况,类间散布均值表征各类间的距离分布情况,它们依赖于样本类别属性和划分;而总体散布矩阵与样本划分及类别属性无关。
(2)构造准则
以类内散布矩阵S W ,类间散布矩阵S B 和总体散布矩阵S T 为基础的一些准则如下。
① 均方误差最小准则,即迹准则
或
② 类间距离最大准则
③ 行列式准则
基于距离的可分性判据的出发点是:各类样本之间的距离越大、类内散度越小,则类别的可分性越好。基于距离的可分性判据直接依靠样本计算,直观简捷,物理概念清晰,因此目前应用较为广泛。