购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.1特征空间优化设计问题

特征选择和优化的基本任务是如何从许多特征中找出那些最有效的特征。解决特征选择和特征优化问题,最核心的内容就是如何对现有特征进行评估,以及如何通过现有特征产生更好的特征。在实际应用中,对特征选择与处理大致过程如图2‐1所示。

图2‐1 特征选择与处理过程

特征选择与优化过程如下:

(1)对样本特征库进行初步分析是指对原始数据进行抽取,抽取那些对区别不同类别最为重要的特征,而舍去那些对分类并无多大贡献的特征,从而得到能反映分类本质的特征。考查所选特征是否合理,能否实现分类。如果把区别不同类别的特征都从输入数据中找到,这时自动模式识别问题就简化为匹配和查表,模式识别就不困难了。

(2)对样本筛选处理的目的是去掉“离群点”,减少这些“离群点”对分类器的干扰。当条件所限无法采集大量的训练样品时,应慎重对待离群点。样本在特征空间中的理想分布是同类相聚、异类远离,但是在现实中很难达到理想的分布状态,就要求分类器具有泛化。

(3)特征筛选处理的目的是分析特征之间的相关性,考查每个特征因子与目标有无关系,以及特征因子之间是否存在相关关系。删去那些相关的因子,在样本不多的条件下可以改善分类器的总体性能,降低模式识别系统的代价。特征的选择常常面临着保留哪些描述量、删除哪些描述量,通常要经过从多到少的过程。因为在设计识别方案的初期阶段,应该尽量多的列举出各种可能与分类有关的特征,这样可以充分利用各种有用的信息,改善分类效果。但大量的特征中肯定会包含许多彼此相关的因素,造成特征的重复和浪费,给计算带来困难。Kanal.L曾经总结过经验:样品数 N 与特征数 n 之比应足够大,通常样本数 N 是特征数 n 的5~10倍。

(4)特征评判的目的是分析经过筛选之后的特征,对分类效果能否提高,能否拉大不同类别之间的距离。对一个模式类特征选择的好与坏,很难在事先完全预测,而只能从整个分类识别系统获得的分类结果给予评价。

(5)特征提取目的是用较少的特征对样本进行描述,以达到降低特征空间维数的目的。

(6)接着需要进一步掌握样本库的总体分布情况,若发现效果不理想,应再一次考察样本库,或重新提取特征,或增加特征,或进一步删除“离群点”等。

如何确定合适的特征空间是设计模式识别系统十分重要、甚至更为关键的问题。如果所选用的特征空间能使同类物体分布具有紧致性,即各类样本能分布在该特征空间中彼此分割开的区域内,这就为分类器设计成功提供了良好的基础。反之,如果不同类别的样本在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性。 Gw3BYkfwFl/avxfJV/Iltwa9hcQhqOGjBeLJOLHc2Hek8f4cobYC08rlDBxYO7/e

点击中间区域
呼出菜单
上一章
目录
下一章
×