模式识别与智能计算：Matlab技术实现（第2版）最新章节_杨淑莹著

2.6 基于主成分分析的特征提取

在模式识别问题中，对于初始特征的选择，绝大多数都是在考虑样本的可分性意义上进行的。所以很多时候选择的初始特征集合都会包含大量互相关联的特征，它们对于样本分类的贡献也是很不相同的。大的特征向量集合有很多的不便，最明显的就是计算方面会有很大负担。所以，在模式识别问题中，通常的任务就是进行特征的选择。在最初的模式识别工程中，这种选择有两个目标：或者丢弃一些对分类贡献不大的特征；或者达到一定程度降维的目的，降维的方法通常是采用一个从初始特征衍生得到的、更小的、与原特征集相当的特征集合。

主成分分析是把多个特征映射为少数几个综合特征的一种统计分析方法。在多特征的研究中，往往由于特征个数太多，且彼此之间存在着一定的相关性，因而使得所观测的数据在一定程度上有信息的重叠。当特征较多时，在高维空间中研究样本的分布规律就更麻烦。主成分分析采取一种降维的方法，找出几个综合因子来代表原来众多的特征，使这些综合因子尽可能地反映原来变量的信息，而且彼此之间互不相关，从而达到简化的目的。

1.主分量的几何解释

如果从研究总体中抽取N个样品，每个样品有2个指标，这时的主分量实际上是二维空间的几何意义问题。

设N个样品在二维空间中的分布大致为一个椭圆，如图2-2所示。将坐标系正交旋转一个角度θ，在椭圆长轴方向取坐标y ₁ ，在短轴方向取坐标y ₂ ，则旋转公式为

图2-2 二维空间主成分示意图

式中，j=1，2，…，N。写成矩阵形式为

其中，U为坐标旋转变换矩阵，它是正交变换矩阵，即有U ^T =U ^-1 ，UU ^T =I。经过旋转变换后得到如图2-3所示的新坐标。从图2-3可以看出：

① N个点的坐标y ₁ 和y ₂ 的相关几乎为零；

②二维平面上N个点的方差大部分都归结在y ₁ 轴上，而y ₂ 轴上的方差较小。

y ₁ 和y ₂ 是原始变量x ₁ 和x ₂ 的综合变量。

图2-3 二维空间主成分正交示意图

由于N个点在y ₁ 轴上的方差最大，因而用在y ₁ 轴上的一维综合变量来代替，二维空间的点所损失的信息量最小，由此称y ₁ 轴为第一主分量，y ₂ 轴与y ₁ 轴正交且有较小的方差，称它为第二主分量。

一般说来，如果N个样品中的每个样品有n个特征x ₁ ，x ₂ ，…，x _n ，经过主成分分析，将它们综合成n个综合变量，即

并且满足（k=1，2，…，n），其中c _ij 由下列原则决定：

① y _i 与y _j （i≠j；i，j=1，2，…，n）相互独立。

② y ₁ 是x ₁ ，x ₂ ，…，x _n 满足式（2-21）的一切线性组合中方差最大者，y ₂ 是与y ₁ 不相关的x ₁ ，x ₂ ，…，x _n 的所有线性组合中方差次大者，以此类推，y _n 是与y ₁ ，y ₂ ，…，y _n-1 都不相关的x ₁ ，x ₂ ，…，x _n 的所有线性组合中方差最小者。