购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.5特征评估

对原特征空间进行优化之后,就要对优化的结果进行评价,通过反复选择不同的特征组合,采用定量分析比较的方法,判断所得到的特征维数,及所使用特征是否对分类最有利,这种用以定量检验分类性能的准则称为类别可分离性判据,用来检验不同的特征组合对分类性能好坏的影响。对特征空间进行优化是一种计算过程,它的基本方法仍然是模式识别的典型方法,即找到一种准则(或称判据),通常用一种式子表示,使这种计算准则达到一个极值。对特征评估的方法大体分两类:一类以计算样品在特征空间离散程度为基础的准则,称为基于距离的可分性判据;另一类则基于概率密度分布的判据。

下面介绍基于距离的可分性判据。

给定一组表示联合分布的训练集,假定每一类的模式向量在观察空间中占据不同的区域是合理的,类别模式间的距离或平均距离则是模式空间中类别可分离性的度量。基于距离的可分性判据的出发点:各类样本之间的距离越大、类内散度越小,则类别的可分性越好。基于距离的可分性判据直接依靠样本计算,直观简捷,物理概念清晰,因此目前应用较为广泛。

在一个特征候选集 X =[ x 1 x 2 ,…, x n ]所定义的 n 维特征空间中,用 d X ik X jl )表示第 i 类中第 k 个样品和第 j 类中第 l 个样品间距离的度量值,距离度量 d 可采用式(2‐3)定义的欧几里德距离计算:

类间的平均距离可采用式(2‐4)计算:

考虑到式(2‐4)的计算比较复杂,可将其转化为相应的矩阵来度量和处理。

(1)总体散布矩阵

①第 i 类均值向量

②样本集总体均值向量

③第 i 类协方差

④样本总体协方差

⑤第 i 类类内散布矩阵

⑥总体类内散布矩阵

⑦总体类间散布矩阵

特别对于两类问题

⑧总体散布矩阵

存在关系

类内散布矩阵表征各样本点围绕它的均值的散布情况,类间散布均值表征各类间的距离分布情况,它们依赖于样本类别属性和划分;而总体散布矩阵与样本划分及类别属性无关。

(2)构造准则

以类内散布矩阵 S W ,类间散布矩阵 S B 和总体散布矩阵 S T 为基础的一些准则如下。

①均方误差最小准则,即迹准则

J= det( S W )(2‐16)

②类间距离最大准则

J=tr S B )或 J= det( S B )(2‐17)

③行列式准则

基于距离的可分性判据的出发点是:各类样本之间的距离越大、类内散度越小,则类别的可分性越好。基于距离的可分性判据直接依靠样本计算,直观简捷,物理概念清晰,因此目前应用较为广泛。 SVgYG2AcXPQeUfhuM/O429zAd2m5f0sgg4EKDfBg7LFjCcbUuGc0VxnvE4E1A+xM

点击中间区域
呼出菜单
上一章
目录
下一章
×