购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.2 样本特征库初步分析

在模式识别处理之前,需要先评估一下特征库是否包含足够信息,用它做模式识别是否可行或值得。

1.对样本数量与特征数目要求

通常要求样本数量N要足够大,符合下列关系。

① 对两类分类问题: ,此处n为特征数目,N为样本的数量。

② 对线性或非线性回归问题:N≫n。

若实际课题中,由于不能确定哪些因素有影响,只能选择过多的特征,以致样本数量N不合乎上述要求。在无法获得足够多的样本情况下,应考虑下列两个措施。

① 通过特征筛选去除一批对目标影响小的特征,使n减少。

② 通过原理方面的论证或试探性地将若干特征组合成数目较少的特征。

2.对样本特征库做初步分析

对样本特征库做初步分析的主要工作是衡量各类别之间的可分性,最常用的方法是应用“KNN留一法”判据做近邻分析。KNN留一法是以每个样品点与其多数最近邻属于同类与否作为判据。

根据样品在多维空间中的位置,计算各样品之间的距离,找出样品的三个、五个或多个最近邻,列表显示该样品的类别及近邻的类别,判断该最近邻是否属于同类,将多个同类的样品所属的类别作为预报该样品的类别,并与实际类别比较,仔细考查近邻分析结果,可对数据结构有一个大致的了解。如果样本在特征空间中分散,则需要选择具有泛化能力强的分类器,如神经网络分类器、支持向量机分类器等。 gjRs4h8NHdCN7RrEEZr32YjxXzaFD8PZgcgx1RJLh/C2pI4PYT/C5QEclC29xjFT

点击中间区域
呼出菜单
上一章
目录
下一章
×