在模式识别问题中,对于初始特征的选择,绝大多数都是在考虑样本的可分性意义上进行的。所以很多时候选择的初始特征集合都会包含大量互相关联的特征,它们对于样本分类的贡献也是很不相同的。大的特征向量集合有很多的不便,最明显的就是计算方面会有很大负担。所以,在模式识别问题中,通常的任务就是进行特征的选择。在最初的模式识别工程中,这种选择有两个目标:或者丢弃一些对分类贡献不大的特征;或者达到一定程度降维的目的,降维的方法通常是采用一个从初始特征衍生得到的、更小的、与原特征集相当的特征集合。
主成分分析是把多个特征映射为少数几个综合特征的一种统计分析方法。在多特征的研究中,往往由于特征个数太多,且彼此之间存在着一定的相关性,因而使得所观测的数据在一定程度上有信息的重叠。当特征较多时,在高维空间中研究样本的分布规律就更麻烦。主成分分析采取一种降维的方法,找出几个综合因子来代表原来众多的特征,使这些综合因子尽可能地反映原来变量的信息,而且彼此之间互不相关,从而达到简化的目的。
1.主分量的几何解释
如果从研究总体中抽取N个样品,每个样品有2个指标,这时的主分量实际上是二维空间的几何意义问题。
设N个样品在二维空间中的分布大致为一个椭圆,如图2-2所示。将坐标系正交旋转一个角度θ,在椭圆长轴方向取坐标y 1 ,在短轴方向取坐标y 2 ,则旋转公式为
图2-2 二维空间主成分示意图
式中,j=1,2,…,N。写成矩阵形式为
其中,U为坐标旋转变换矩阵,它是正交变换矩阵,即有U T =U -1 ,UU T =I。经过旋转变换后得到如图2-3所示的新坐标。从图2-3可以看出:
① N个点的坐标y 1 和y 2 的相关几乎为零;
②二维平面上N个点的方差大部分都归结在y 1 轴上,而y 2 轴上的方差较小。
y 1 和y 2 是原始变量x 1 和x 2 的综合变量。
图2-3 二维空间主成分正交示意图
由于N个点在y 1 轴上的方差最大,因而用在y 1 轴上的一维综合变量来代替,二维空间的点所损失的信息量最小,由此称y 1 轴为第一主分量,y 2 轴与y 1 轴正交且有较小的方差,称它为第二主分量。
一般说来,如果N个样品中的每个样品有n个特征x 1 ,x 2 ,…,x n ,经过主成分分析,将它们综合成n个综合变量,即
并且满足 (k=1,2,…,n),其中c ij 由下列原则决定:
① y i 与y j (i≠j;i,j=1,2,…,n)相互独立。
② y 1 是x 1 ,x 2 ,…,x n 满足式(2-21)的一切线性组合中方差最大者,y 2 是与y 1 不相关的x 1 ,x 2 ,…,x n 的所有线性组合中方差次大者,以此类推,y n 是与y 1 ,y 2 ,…,y n-1 都不相关的x 1 ,x 2 ,…,x n 的所有线性组合中方差最小者。
这样决定的综合指标因子y 1 ,y 2 ,…,y n 分别被称为原变量的第1、第2、…、第n个主分量,它们的方差依次递减。
2.主分量的导出
设X= 是一个n维随机向量,Y= 是满足式(2-21)的新变量所构成的向量。于是式(2-21)的矩阵形式为Y=CX,C为正交矩阵,并满足CC T =I,I为单位矩阵。
坐标旋转是指新坐标轴相互正交,仍构成一个直角坐标系。变换后的N个点在y 1 轴上有最大方差,在y 2 轴上有次大方差,以此类推,在y n 轴上有最小的方差。同时,N个点对不同的y i 轴和y j 轴的协方差(j≠i)为零,即要求Y的协方差
其中
假定X为已标准化处理后的数据矩阵,则XX T 为原始数据的相关矩阵。令R=XX T ,则式(2-22)表示为CRC T =Λ。由C T 左乘该式,有
写成代数式为
将上式全部展开得到n 2 个方程,这里考虑在矩阵乘积中由第1列得出的n个方程为
(r 11 -λ 1 )c 11 +r 12 c 12 +…+r 1n c 1n =0
r 21 c 11 +(r 22 -λ 1 )c 12 +…+r 2n c 1n =0
…
r n1 c 11 +r n2 c 12 +…+(r nn -λ 1 )c 1n =0
为得到齐次方程组的非零解,要求关于c ij 的系数行列式为0,即
写成矩阵形式为|R-λI|=0。对于λ 2 ,λ 3 ,…,λ n ,可以得到完全类似的方程,故λ j (j=1,2,…,n)是|R-λI|=0的n个根,λ为特征方程的特征根,相应的各个c ij 为其特征向量的分量。
设R的n个特征值λ 1 >λ 2 >…>λ n ≥0,相应于λ i 的特征向量为C i ,令
相对于y 1 的方差为
同样有
Var(C i X)=λ i
即对于y 1 有最大的方差,y 2 有次大的方差等,并且有协方差
由式(2-23)得R= ,所以式(2-24)变为
变量x 1 ,x 2 ,…,x n 经过正交变换后得到新的随机向量
…
y 1 ,y 2 ,…,y n 彼此不相关,并且y i 的方差为λ i ,故称y 1 ,y 2 ,…,y n 分别为第1、第2、…、第n个主分量。
第i个主分量的贡献率定义为λ (i=1,2,…,n),前m个主分量的累积贡献率定义为 ,选取前m(m<n)个主分量,使其累积贡献率达到一定的要求(如80%~90%),以前m个主分量代替原始数据做分析,这样便可达到降低原始数据维数的目的。