在模式识别处理之前,需要先评估一下特征库是否包含足够信息,用它做模式识别是否可行或值得。
1.对样本数量与特征数目要求
通常要求样本数量N要足够大,符合下列关系。
① 对两类分类问题: ,此处n为特征数目,N为样本的数量。
② 对线性或非线性回归问题:N≫n。
若实际课题中,由于不能确定哪些因素有影响,只能选择过多的特征,以致样本数量N不合乎上述要求。在无法获得足够多的样本情况下,应考虑下列两个措施。
① 通过特征筛选去除一批对目标影响小的特征,使n减少。
② 通过原理方面的论证或试探性地将若干特征组合成数目较少的特征。
2.对样本特征库做初步分析
对样本特征库做初步分析的主要工作是衡量各类别之间的可分性,最常用的方法是应用“KNN留一法”判据做近邻分析。KNN留一法是以每个样品点与其多数最近邻属于同类与否作为判据。
根据样品在多维空间中的位置,计算各样品之间的距离,找出样品的三个、五个或多个最近邻,列表显示该样品的类别及近邻的类别,判断该最近邻是否属于同类,将多个同类的样品所属的类别作为预报该样品的类别,并与实际类别比较,仔细考查近邻分析结果,可对数据结构有一个大致的了解。如果样本在特征空间中分散,则需要选择具有泛化能力强的分类器,如神经网络分类器、支持向量机分类器等。