在实际应用中,人们只能尽量多列一些可能有影响的因素,然后通过数据处理,考查和筛选出作用较大的特征,删去影响不大的特征,从而建立数学模型。特征筛选的第一步是对每个特征做分析,考查每个特征与目标的相关性,特征与特征之间的相关性。
用原始变量为坐标作投影图,考查单个特征、双特征、多特征对目标值的影响,计算相关系数。
1.单特征相关分析
将所有特征逐个对目标值作二维图,计算目标值t与特征x j 之间的相关系数
式中,i为样品号数;t i ,x ij 为第i个样品的目标值和第j个特征值; 和 分别为所有样本的目标值的平均值和第j个特征的平均值;相关系数r(t,x j )介于1与-1之间,作为最简单的近似方法,各特征的重要性可用相关系数的绝对值大小评估。
根据特征对目标值或分类的影响大小,删去作用小、噪声大的变量。为了不漏掉重要因子,一开始我们宁可多选一些特征,然后根据各个特征在描述研究对象时作用的大小,删去那些带来信息少、噪声多的特征;并将删后保留的特征按其与描述对象关系的大小做一个大致的排序,突出主要因素,这对建立模式识别系统是十分必要的。特征筛选的原理是:一个原有n+1个特征的特征库,删去其中一个特征,得到一个特征数为n的新数据库;若删去的变量贡献的信息小于带来的噪声量,删去后信息量未显著减少或反而增加,则该特征为可删变量。
2.双特征相关分析
在所有特征中每次取出两个特征作为纵、横坐标作图,同时将样本分为两类(或多类),以不同符号显示于图中,据此考查两类或多类样本在图中分布的规律;同时还显示两个特征间的相关系数。
3.三特征相关分析
在所有特征中每次选用三个,作为x,y,z坐标作三维图,同时将样本分为两类或多类,以不同符号显示于图中,据此考查各类样本在三维空间的分布规律;也可选两个特征为x和y坐标,目标值为z坐标,考查其关系。三维结构可通过图形旋转考查,同时显示旋转后的二维坐标与原始变量的关系。
4.子空间局部考查
将原始多维空间“切割”为几个子空间,然后再做相关分析,往往能揭示重要的规律性。
因复杂系统往往是多特征问题,目标值或目标类别往往由三个以上的因子共同决定,单考查一个、两个或三个因子的影响往往不够,因为由于其他因子(特征)变化的干扰,往往不能有效地全面显示特征空间的规律性,只有运用多种模式识别方法建模才能全面解决问题。但是作为初步考查手段,相关分析方法(特别是与子空间局部考查结合后)很有用,因为相关分析及其作图方法显示的是原始特征,若能找到规律,其物理(或化学)意义的诠释比较简单明了。各种模式识别方法虽能提供更完整可靠的数学模型,但因其坐标表达式多为多个原始变量的线性或非线性组合,诠释比较复杂。
相关分析的局限性:根据前述的单特征相关分析方法,删除相关系数小的特征。这种方法对于样本分布不均匀的特征库是不可靠的做法。如果目标与特征之间呈线性关系,对于样本分布不均匀的数据文件,单比较相关系数也不是绝对可靠的做法,因为它没有考虑其他特征的影响。总而言之,可以肯定的是:若 x i 与 t(或 x j )相关系数很大(如0.5以上或-0.5以下),x i 肯定对t(或x j )有较大影响;若相关系数较小,则要参照其他信息才能决定是否可删。
5.特征选择及搜索算法
特征选择的任务是从一组数量为D的特征中选择出数量为n(D>n)的一组最优特征来,一方面需要确定可分离性判据J(x),对特征选择效果做评估,选出使某一可分性达最大的特征组来(详见2.4节)。另一方面是要找到一个较好的算法,以便在允许的时间内找出最优的那一组特征。
如果采用穷举法,把 D个特征每个单独使用时的可分性判据都算出来,按判据大小排队,例如
J(x 1 )>J(x 2 )>…>J(x n )>…>J(x D )
单独使用时使J较大的前n个特征作为特征组并不具有最优的效果,甚至有可能是最不好的特征组。
从D个特征中挑选n个,所有可能的组合数为
如果把各种可能的特征组合的J都算出来再加以比较,以选择最优特征组,则计算量太大而无法实现。这就使得寻找一种可行的算法变得非常必要。
应当说明的是,任何非穷举的算法都不能保证所得结果是最优的。因此,除非只要求次优解,否则所选算法原则上仍是穷举算法,只不过采取某些搜索技术使计算量可能有所降低。在所有算法中,最优特征组的构成都是用每次从现存特征中增加或去掉某些特征的方法直至特征数等于n为止,若特征数从零逐步增加则称为“自下而上”法。反之,若从特征数D开始逐步减少,则称为“自上而下”法。
令Φ k 表示特征数目为k的所有可能的特征组合, 表示从x 1 ,x 2 ,…,x D 去掉k个后所剩特征的所有可能的特征组合。
在“自下而上”算法中第k步的最优特征组应当使
从 开始,k=1,2,…,直到k=n,结果得
Φ=Φ n
在“自上而下”算法中第k步的最优特征组应当使
从 开始,k=1,2,…,直到k=D-n,结果所得特征组为 。