无论是应用概率统计的分类法还是应用几何分类法,最终都转化为确定判别函数形式。
对于只有简单的两类情况,判别函数形式如图1‐4所示,根据计算结果的符号将 X 分类。
图1‐4 两类分类器形式(改后)
这里首先假定判别函数 d ( X )是 X 的线性函数, d ( X )= W T X + W 0 。
(1)二维特征
在二维模式空间中存在一线性判别函数:
(2) n 维特征
用矢量 X =( x 1 , x 2 ,…, x n ) T 来表示模式,一般的线性判别函数形式为:
式中 W 0 =( w 1 , w 2 ,…, w n ) T 称为权矢量或参数矢量。如果在所有模式矢量的最末元素后再附加元素1,则式(1‐7)可以写成
对于多类别问题,假设有 M 类模式 ω 1 , ω 2 ,…, ω M ,对于 n 维空间中的 M 个类别,就要给出 M 个判别函数: d 1 ( X ), d 2 ( X ),…, d M ( X ),各个判别函数构成分类器基本形式如图1‐5所示。若 X 属于第 i 类,则有:
特殊情况,有:
这时,是在两类的分界线上, X 即属于第 i 类,也属于第 j 类,因此这种判别无效,还必须考虑其他特征,重新判别。
图1‐5 判别函数构成的多类分类器形式(改后)
判别函数的自变量是待测样品 X 的 n 个特征值,将待测样品 X 的 n 个特征值分别代入 M 个判别函数中,计算出各个函数表达式的结果,哪一个最大,待测样品 X 就属于哪一个类。 M 个判别函数一般表示成 d i ( X ),如果 d i ( X )=m j ax d j ( X ),则称特征空间的这一点 X 是第 i 类的决策域。由 d i ( X )占主导地位的区域称为第 i 类的决策域,将它表示成 R i ,如果第 i 类决策域 R i 与第 j 类决策域相邻,则它们之间有边界。在边界上有 d i ( X )= d j ( X ),该式是一个方程式,称为决策面方程。决策面是一种统称,当特征空间只是一维时,一个决策面实际上只是一个点。在二维特征空间里,决策面是一条曲线。三维则是一个曲面,超过三维的空间,决策面是一个超曲面。判别函数 d i ( X )用于表达决策规则的某些函数。判别函数 d i ( X )与决策面方程 d i ( X )= d j ( X )是密切相关的,并且都是由相应决策规则所确定的。
对于线性情况,判别函数形式为:
其中, X =( x 1 , x 2 ,…, x n ,1) T , W =( w 1 , w 2 ,…, w n+1 ) T
对于非线性情况,判别函数形式为:
由于决策域的分界面是用数学式子来描述的,如线性函数,或各种非线性函数等。因此确定分界面方程包括选择函数类型与确定最佳参数两个部分。一般说来,选择函数类型是由设计者确定的,但其参数的确定则是通过一个学习过程来实现的,是一个迭代实现优化的过程。
由此可见设计分类器,一是选定所用的判别函数类型,二是确定方程的两个参数(权向量 W ,阈值 w 0 )。对于线性判别函数来说,方程的形式固定为线性,维数固定为特征向量的维数,方程组的数量取决于待识别对象的类数。既然方程组的数量、维数和形式已定,则对判别函数的设计就是确定函数的各系数,即线性方程的各个权值。确定线性方程的各个权值的方法有Fisher准则、感知器算法、增量校正算法、LMSE算法等。
线性分类器设计任务是在给定样品集和集合内各样品所属类别条件下,确定线性判别函数的各项系数,对待测样品进行分类时,能满足相应的准则函数 J 为最优的要求。这种方法的具体过程可大致分为:
(1)确定使用的判别函数类型或决策面方程类型,如线性分类器、分段线性分类器、非线性分类器等或近邻法等;
(2)按需要确定一准则函数 J :如Fisher准则、感知器算法、增量校正算法、LMSE算法。增量校正算法与感知器算法的实现相似,只不过是在进行权矢量修正时加上了权系数;LMSE算法以最小均方误差作为准则。
(3)确定准则函数 J 达到极值时 W *及 的具体数值,从而确定判别函数,完成分类器设计。在计算机上确定各权值时采用的是“训练”或“学习”的方法,就是挑选一批已分类的样品,把这批样品输入到计算机的“训练”程序中去,通过多次迭代,最后准则函数 J 达到极值,得到正确的线性判别函数。
这种方法绕过统计分布状况的分析,绕过参数估计这一环,而企图对特征空间实行划分,称为非参数判别分类法,即不依赖统计参数的分类法。非参数判别分类方法的核心是由训练样品集提供的信息直接确定决策域的划分方法。线性判别函数法是一类较为简单的判别函数,计算量少,它以模式的样品集线性可分离为前提。