假定有一批待识别的事物,事先也不知道相关的先验知识,即不知道它们属于哪种类别,满足哪种分布,在这种情况下我们对这批事物分类的方法就是按照它们特征之间的相似性,将有相同或相似特征的事物聚集在一起。也就是说,我们最后的分类结果中每一类聚集的物体都有共同的特征,这种不知所属类别而是根据事物相似性的程度分类的方法称为聚类。例如,手写了15个数字(0,2,3,0,0,2,3,2,2,0,3,3,3,2,0),通过模式识别会把它们归成(0,2,3)3个类,这种方法叫做非监督学习方法。如果给定了一批待识别的事物,而且还知道了某些事物的类别,根据已知事物特征及其类别判断未知事物的类别,这种问题称为分类问题。分类与聚类的不同点在于类数是确定的,而且已经知道了一批已经分类的事物。例如,数字有固定的类数(0~9),能够识别出手写数字为哪一类,这种方法叫做监督学习方法。
监督学习方法用来对数据实现分类,分类规则通过训练获得。该训练集由带分类号的数据集组成,因此监督学习方法的训练过程是离线的。非监督学习方法不需要单独的离线训练过程,也没有带分类号的训练数据集,一般用来对数据集进行聚类分析,确定其分布。
总之,分类与聚类的效果好坏,最基本的性能评估是其错误率;如果能采用反映错误率大小的准则,在理论上是最合适的。但是正如在前面讨论中提到的,对错误率的计算是极其复杂的,以至于很难构筑直接基于错误率的判据。而且分类与聚类效果还受所使用的训练样品集,以及所用的算法影响。通常需要靠实践来检验。
本章介绍了设计分类器需要考虑的基本问题,包括特征空间优化设计问题、分类器设计准则、分类器设计基本方法、判别函数、分类器的选择和训练与学习,还介绍了聚类判别所涉及的基本问题。这些都是模式识别需要考虑的重要内容,掌握这些内容为理解及实现后续各章所介绍的理论打下基础。