在模式识别问题中,对于初始特征的选择,绝大多数都是在考虑样本的可分性意义上进行的。所以很多时候选择的初始特征集合都会包含大量互相关联的特征,它们对于样本分类的贡献也是很不相同的。大的特征向量集合有很多的不便,最明显的就是计算方面会有很大负担。所以,在模式识别问题中,通常的任务就是进行特征的选择。在最初的模式识别工程中,这种选择有两个目标:或者丢弃一些对分类贡献不大的特征;或者达到一定程度降维的目的,降维的方法通常是采用一个从初始特征衍生得到的、更小的、与原特征集相当的特征集合。
主成分分析是把多个特征映射为少数几个综合特征的一种统计分析方法。在多特征的研究中,往往由于特征个数太多,且彼此之间存在着一定的相关性,因而使得所观测的数据在一定程度上有信息的重叠。当特征较多时,在高维空间中研究样本的分布规律就更麻烦。主成分分析采取一种降维的方法,找出几个综合因子来代表原来众多的特征,使这些综合因子尽可能地反映原来变量的信息,而且彼此之间互不相关,从而达到简化的目的。
图2‐2 二维空间主成分示意图
如果从研究总体中抽取 N 个样品,每个样品有2个指标,这时的主分量实际上是二维空间的几何意义问题。
设 N 个样品在二维空间中的分布大致为一个椭圆,如图2‐2所示。将坐标系正交旋转一个角度 θ ,在椭圆长轴方向取坐标 y 1 ,在短轴方向取坐标 y 2 ,则旋转公式为
式中, j =1,2,…, N 。写成矩阵形式为
其中, U 为坐标旋转变换矩阵,它是正交变换矩阵,即有 U T = U -1 , UU T = I 。经过旋转变换后得到如图2‐3所示的新坐标。从图2‐3可以看出:
① N 个点的坐标 y 1 和 y 2 的相关几乎为零;
②二维平面上 N 个点的方差大部分都归结在 y 1 轴上,而 y 2 轴上的方差较小。
y 1 和y 2 是原始变量x 1 和x 2 的综合变量。
由于 N 个点在 y 1 轴上的方差最大,因而用在 y 1 轴上的一维综合变量来代替,二维空间的点所损失的信息量最小,由此称 y 1 轴为第一主分量, y 2 轴与 y 1 轴正交且有较小的方差,称它为第二主分量。
图2‐3 二维空间主成分正交示意图
一般说来,如果 N 个样品中的每个样品有 n 个特征 x 1 , x 2 ,…, x n ,经过主成分分析,将它们综合成 n 个综合变量,即
并且满足 ,其中 c ij 由下列原则决定:
① y i 与 y j ( i ≠ j ; i , j =1,2,…, n )相互独立。
② y 1 是 x 1 , x 2 ,…, x n 满足式(2‐21)的一切线性组合中方差最大者, y 2 是与 y 1 不相关的 x 1 , x 2 ,…, x n 的所有线性组合中方差次大者,以此类推, y n 是与 y 1 , y 2 ,…, y n -1都不相关的 x 1 , x 2 ,…, x n 的所有线性组合中方差最小者。
这样决定的综合指标因子 y 1 , y 2 ,…, y n 分别被称为原变量的第1、第2、…、第 n 个主分量,它们的方差依次递减。
设 是一个 n 维随机向量, 是满足式(2‐21)的新变量所构成的向量。于是式(2‐21)的矩阵形式为 YCXC =,为正交矩阵,并满足 CC T = I , I 为单位矩阵。
坐标旋转是指新坐标轴相互正交,仍构成一个直角坐标系。变换后的 N 个点在 y 1 轴上有最大方差,在 y 2 轴上有次大方差,以此类推,在 y n 轴上有最小的方差。同时, N 个点对不同的 y i 轴和 y j 轴的协方差( j ≠ i )为零,即要求 Y 的协方差
其中
假定 X 为已标准化处理后的数据矩阵,则 XX T 为原始数据的相关矩阵。令 R = XX T ,则式(2‐22)表示为 CRC T =Λ。由 C T 左乘该式,有
写成代数式为
将上式全部展开得到 n 2 个方程,这里考虑在矩阵乘积中由第1列得出的 n 个方程为
为得到齐次方程组的非零解,要求关于 c ij 的系数行列式为0,即
写成矩阵形式为| R - λ I |=0。对于 λ 2 , λ 3 ,…, λ n ,可以得到完全类似的方程,故 λ j ( j =1,2,…, n )是| R - λ I |=0的 n 个根, λ 为特征方程的特征根,相应的各个 c ij 为其特征向量的分量。
设 R 的 n 个特征值 λ 1 > λ 2 >…> λ n ≥0,相应于 λ i 的特征向量为 C i ,令
相对于 y 1 的方差为
同样有
即对于 y 1 有最大的方差, y 2 有次大的方差等,并且有协方差
式(2‐23)得 R = ∑ n 由 α =1 λ a C a C a T ,所以式(2‐24)变为
变量 x 1 , x 2 ,…, x n 经过正交变换后得到新的随机向量
y 1 , y 2 ,…, y n 彼此不相关,并且 y i 的方差为 λ i ,故称 y 1 , y 2 ,…, y n 分别为第1、第2、…、第 n 个主分量。
第 i 个主分量的贡献率定义为 ,前 m 个主分量的累积贡献率定义为 λ k ,选取前 m ( m<n )个主分量,使其累积贡献率达到一定的要求(如80%~90%),以前 m 个主分量代替原始数据做分析,这样便可达到降低原始数据维数的目的。