在模式识别处理之前,需要先评估一下特征库是否包含足够信息,用它做模式识别是否可行或值得。
通常要求样本数量 N 要足够大,符合下列关系。
①对两类分类问题: ≥3,此处 n 为特征数目, N 为样本的数量。
②对线性或非线性回归问题: N » n 。
若实际课题中,由于不能确定哪些因素有影响,只能选择过多的特征,以致样本数量 N 不合乎上述要求。在无法获得足够多的样本情况下,应考虑下列两个措施。
①通过特征筛选去除一批对目标影响小的特征,使 n 减少。
②通过原理方面的论证或试探性地将若干特征组合成数目较少的特征。
对样本特征库做初步分析的主要工作是衡量各类别之间的可分性,最常用的方法是应用“KNN留一法”判据做近邻分析。KNN留一法是以每个样品点与其多数最近邻属于同类与否作为判据。
根据样品在多维空间中的位置,计算各样品之间的距离,找出样品的三个、五个或多个最近邻,列表显示该样品的类别及近邻的类别,判断该最近邻是否属于同类,将多个同类的样品所属的类别作为预报该样品的类别,并与实际类别比较,仔细考查近邻分析结果,可对数据结构有一个大致的了解。如果样本在特征空间中分散,则需要选择具有泛化能力强的分类器,如神经网络分类器、支持向量机分类器等。