模式识别最基本的研究问题是样品与样品之间或类与类之间相似性测度问题。判断样品之间的相似性常采用近邻准则,即将待分类样品与标准模板进行比较,看跟哪个模板匹配程度更好些,从而确定待测试样品的分类。近邻法则在原理上属于模板匹配。它将训练样品集中的每个样品都作为模板,用测试样品与每个模板做比较,看与哪个模板最相似(即为近邻),就按最近似的模板的类别作为自己的类别。计算模式相似性测度有欧式距离、马氏距离、夹角余弦距离、Tanimoto测度等多种距离算法。依照近邻准则进行分类通常有两种计算方法,一是通过与样本库所有样品特征分别作相似性测度,找出最接近的样品,取该样品所属类别作为待测样品的类别。另一种方法是与样本库中不同类别的中心或重心做相似性测度,找出最接近类的中心,以该类作为待测样品的类别。例如,A类有10个训练样品,因此有10个模板,B类有8个训练样品,就有8个模板。任何一个待测试样品在分类时与这18个模板都算一算相似度,如最相似的那个近邻是B类中的一个,就确定待测试样品为B类,否则为A类。另一种方法是:分别求出A类和B类的中心,待测试样品分别与这两个中心做相似性测度,与哪个类的中心最接近,则待测样品归为该类。
原理上说近邻法是最简单的。但是近邻法有一个明显的缺点就是计算量大,存储量大,要存储的模板很多,当每个测试样品要对每个模板计算一次相似度时,所需的计算时间相对其他方法多一些。
设有两个样品 X i 、 X j 的特征向量分别为
这两个样品可能在同一个类中,如图3‐1(a)所示,也可能在不同的类中,如图3‐1(b)所示。因此,可以计算同一个类内样品与样品之间的距离,也可以计算属于不同类样品与样品之间的距离。
样品与样品间的距离计算有五种方法,分别是欧氏距离法、马氏距离法、夹角余弦距离法、二值夹角余弦法和具有二值特征的Tanimoto测度,如表3‐1所示。
图3‐1 样品间的距离示意图
表3‐1 样品间的距离计算公式
图3‐2 样品与类之间的距离
如图3‐2所示,形象地表示出样品与类之间的距离。 ω 是代表某类样品的集合, ω 中有 N 个样品, X 是某一个待测样品。
样品与类之间距离的计算方法有两种。
①计算该样品到 ω 类内各个样品之间的距离,将这些距离求和,取平均值作为样品与类之间的距离。样品与类之间的距离可描述为
②计算 ω 类的中心点 M ( ω ),以 ω 中的所有样品特征的平均值作为类中心,然后计算待测样品 X 到 ω 的中心点 M ( ω )的距离。
本书实例均采用式(3‐2)作为样品与类之间的距离计算公式。
类内距离是指同一个类内任意样品之间距离之和的平均值。如图3‐3所示,类内点集{ X i , i= 1,2,…, N }各点之间的内部距离平方为 ,从集内一固定点 X i 到所有其他的 N- 1个点 X j 之间的距离平方是 。同样道理,取 ω 内所有 N 个点的平均距离以表示其类内距离:
设有两个类 ω i 、 ω j ,如图3‐4所示,计算类与类之间的距离有多种方法,例如,最短距离法、最长距离法、重心法和平均距离法等,如表3‐2所示。
图3‐3 ω类内的距离
图3‐4 类间距离
表3‐2 类间的距离