如何做出合理的判决就是模式识别分类器要讨论的问题。在统计模式识别中,感兴趣的主要问题并不是决策正误,而在于如何使决策错误造成的分类误差在整个识别过程中的风险代价达到最小。模式识别算法的设计都是强调“最佳”与“最优”,即希望所设计的系统在性能上最优。这种最优是指对某一种设计原则讲的,这种原则称为准则,常用的准则有最小错误率准则、最小风险准则、近邻准则、Fisher准则、均方误差最小准则、感知准则等。设计准则,并使该准则达到最优的条件是设计模式识别系统最基本的方法。模式识别中以确定准则函数来实现优化的计算框架。分类器设计使用什么原则是关键,会影响到分类器的效果。不同的决策规则反映了分类器设计者的不同考虑,对决策结果有不同的影响。分类决策在识别过程中起作用,对待识别的样品进行分类决策。
一般说来, M 类不同的物体应该具有各不相同的属性值,在 n 维特征空间中,各自有不同的分布。当某一特征向量值 X 只为某一类物体所特有,对其做出决策是容易的,也不会出什么差错。问题在于出现模棱两可的情况时,由于属于不同类的待识别对象存在着呈现相同特征值的可能,即所观察到的某一样品的特征向量为 X ,而在 M 类中又有不止一类可能呈现这一 X 值。如图1‐2所示, A 、 B 直线之间的样品属于不同类别,但是他们具有相同的特征值。例如癌症病人初期症状与正常人的症状相同,其两类别样品分别用“-”与“+”表示。从图中可见这两类样品在二维特征空间中相互穿插,这两类样品很难用简单的分界线将它们完全分开。如果用一直线作为分界线,称为线性分类器,对图中所示的样品分布情况,无论直线参数如何设计,总会有错分类发生。此时,任何决策都存在判错的可能性。
图1‐2 分界线示意图(改后)
模式识别的基本计算框架——制定准则函数,实现准则函数极值化。常用的准则有以下几种:
(1)最小错分率准则
完全以减少分类错误为原则,这是一个通用原则,如图1‐2所示,如果以错分类最小为原则分类,则图中 A 直线可能是最佳的分界线,它使错分类的样品数量为最小。
(2)最小风险准则
当接触到实际问题时,可以发现使错误率最小并不一定是一个普遍适用的最佳选择。有的分类系统将错分率多少看成最重要的指标,如对语音识别、文字识别来说这是最重要的指标。而有的分类系统对于错分率多少并不看重,而是要考虑错分类的不同后果,如对医疗诊断、地震、天气预报等,例如可能多次将没有发生的地震预报成有地震,也有可能将发生的地震预报为没有地震,这类系统并不看重错分率,而是要考虑错分类引起的严重后果。例如上面讨论过的细胞分类中,把正常细胞错分为癌细胞,或相反方向的错误,其严重性是截然不同的。以 B 直线划分,有可能把正常细胞误判为异常细胞,“+”样品错分成“-”类,给人带来不必要的痛苦,错分率多;但以 A 直线划分,有可能把癌细胞误判为正常细胞,“-”分成“+”类,会使病人因失去及早治疗的机会而遭受极大的损失,但错分率少。为使总的损失为最小,那么 B 直线就可能比 A 直线更适合作为分界线。这是基于最小风险的原理。
由此可见,根据不同性质的错误会引起不同程度的损失这一考虑出发,我们宁可扩大一些总的错误率,但也要使总的损失减少。因此引入风险、损失这些概念,以便在决策时兼顾不同后果的影响。在实际问题中计算损失与风险是复杂的,在使用数学式子计算时,往往用赋予不同权值来表示。在做出决策时,要考虑所承担的风险。基于最小风险的贝叶斯决策规则正是为了体现这一点而产生的。
(3)近邻准则
近邻准则是分段线性判别函数的一种典型方法。这种方法主要依据同类物体在特征空间具有聚类特性的原理。同类物体由于其性质相近,它们在特征空间中应具有聚类的现象,因此可以利用这种性质产生分类决策的规则。例如有两类样品,可以求出每一类的平均值,对于任何一个未知样品,先求出它到各个类的平均值距离,判断距离谁近就属于谁。
(4)Fisher准则
根据两类样品一般类内密集、类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样品在该方向上的投影满足类内尽可能密集,类间尽可能分开。把它们投影到任意一根直线上,有可能不同类别的样品就混在一起了,无法区分。如图1‐3(a)所示,样品投影到 x 1 或 x 2 轴无法区分。若把直线绕原点转动一下,就有可能找到一个方向,样品投影到这个方向的直线上,各类样品就能很好地分开,如图1‐3(b)所示。因此直线方向选择是很重要的。一般来说,总能够找到一个最好的方向,使样品投影到这个方向的直线上很容易分开。如何找到这个最好的直线方向,以及如何实现向最好方向投影的变换,这正是Fisher算法要解决的基本问题。
图1‐3 Fisher线性判别原理示意图
这说明如果两类分布围绕各自均值的确相近,Fisher准则可使错误率较小,Fisher方法实际上涉及到维数压缩的问题。
(5)感知准则
感知准则函数以使错分类样品到分界面距离之和最小为原则。提出利用错误提供信息实现迭代修正的学习原理,即利用错分类提供的信息修正错误。这种思想对机器学习的发展以及人工神经元网络的发生发展产生深远影响。其优点是通过错分类样品提供的信息对分类器函数进行修正,这种准则是人工神经元网络多层感知器的基础。
(6)最小均方误差准则
LMSE算法以最小均方误差作为准则。