主成分分析法是将多个指标转化为少数几个互相无关的综合指标的一种多元统计分析方法。设有n个被评价对象,每个被评价对象由p个指标x 1 , x 2 ,…,x p 来描述,则得到原始数据矩阵:
其中 x i = ( x 1i , x 2 i , ...... , x ni )′, i = 1,2,…, p.
如何用新的指标来代替原来的 p 个指标呢?在统计学中,常常是用原始指标 x 1 , x 2 ,…, x p 的线性组合构成的综合指标来代替原始指标,即新的综合指标 y i 为:
并且满足
式(2)中的系数a ij 由下列条件决定:
(1)cov( y i , y j ) = 0 (i≠j,i,j = 1,2,…,p),即 y i 与 y j 互不相关。
(2)var( y 1 )≥var( y 2 )≥…var(y p )≥0,即 y 1 的方差最大,其余 y 2 ,…, y p 的方差依次减少。但新旧指标的总方差不变,即有
如上决定的综合指标 y 1 , y 2 ,…, y p 分别称为原始指标的第一,第二,…,第p个主成分。当 很小时,用 y 1 , y 2 ,…, y p (k < p)就可以基本上反映出原始p个指标所包含的信息量。由于 y 1 , y 2 ,…, y k 彼此不相关,而且k <p。这样,既减少了评价指标个数(由原来的p个减少为k个),又充分保留了原始指标的信息量(新的k个指标 y 1 , y 2 ,…, y k )与原始p个指标 x 1 , x 2 ,…, x p 的总信息量只相差一个很小的量 ,而且新指标间彼此不相关,避免了信息的交叉和重叠。
那么,如何求解原始指标的p个主成分呢?设 X = ( x 1 , x 2 ,…, x p ),有协方差矩阵 S , λ 1 ≥ λ 2 ≥ ….≥ λ p ≥ 0 是 S 的从大到小的p个特征根, a 1 , a 2 ,…, a p 是特征根对应的标准化正交特征向量,其中 a i = ( a i1 , a i2 ,…,a ip )’( i = 1,2,…,p)。数理统计已证明,原始指标的第i个主成分y i 为
y i = a i1 x 1 + a i2 x 2 + …+ a ip x p ;i = 1,2,…,p
且有
也就是说,要求原始指标的p个主成分,必先求出原始指标的协方差矩阵S的特征根及相应的标准化的正交特征向量。