模式识别与智能计算：Matlab技术实现（第2版）最新章节_杨淑莹著

2.2 样本特征库初步分析

在模式识别处理之前，需要先评估一下特征库是否包含足够信息，用它做模式识别是否可行或值得。

1.对样本数量与特征数目要求

通常要求样本数量N要足够大，符合下列关系。

① 对两类分类问题：，此处n为特征数目，N为样本的数量。

② 对线性或非线性回归问题：N≫n。

若实际课题中，由于不能确定哪些因素有影响，只能选择过多的特征，以致样本数量N不合乎上述要求。在无法获得足够多的样本情况下，应考虑下列两个措施。

① 通过特征筛选去除一批对目标影响小的特征，使n减少。

② 通过原理方面的论证或试探性地将若干特征组合成数目较少的特征。

2.对样本特征库做初步分析

对样本特征库做初步分析的主要工作是衡量各类别之间的可分性，最常用的方法是应用“KNN留一法”判据做近邻分析。KNN留一法是以每个样品点与其多数最近邻属于同类与否作为判据。

根据样品在多维空间中的位置，计算各样品之间的距离，找出样品的三个、五个或多个最近邻，列表显示该样品的类别及近邻的类别，判断该最近邻是否属于同类，将多个同类的样品所属的类别作为预报该样品的类别，并与实际类别比较，仔细考查近邻分析结果，可对数据结构有一个大致的了解。如果样本在特征空间中分散，则需要选择具有泛化能力强的分类器，如神经网络分类器、支持向量机分类器等。