购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

一、因子分析的基本原理

因子分析是用少数几个因子去研究多个原始指标之间关系的一种多元统计分析方法。随着近代数学和计算机技术的发展,因子分析得到了多方面的应用。它的内容包括因子模型的一般概念及其基本性质、因子模型求解、因子旋转、因子得分等。

1.因子模型

设有p个指标x 1 , x 2 ,…,x p ,且每个指标都已标准化,即每个指标的样本均值为零,方差为 1。因子分析最简单的数学模型为如下形式的线性模型:

其中,x i 是已标准化的可观测的评价指标,F j ( j = 1,2,…,p)出现于每个指标的表达式中,称为公共因子,它们是不可观测的,其含义要根据具体问题来解释。ε i 是各个对应指标x i 所特有的因子,因此称ε i 为特殊因子,它们与公共因子F j (j = 1,2,…,m)彼此独立。 a ij 是第i个指标在第j个公共因子上的系数,称为因子载荷。

在上式中,如果公共因子F 1 , F 2 ,…, F m 彼此之间是独立的,则称为正交因子模型;相反,如果公共因子彼此之间有一定相关性,则称为斜交因子模型。由于斜交因子模型比较复杂,这里只考虑正交因子模型,而且假定各公共因子的均值为 0,方差为 1。

用矩阵形式描述(6.1.1)式,则为

其中

因子分析的基本问题之一,就是如何估计因子载荷矩阵A。

2.因子载荷矩阵A的统计意义

(1) a ij 是第i个指标x i 在第j个公共因子F j 上的相关系数。它表示x i 与F j 线性联系的紧密程度。 A 中第i行元素a i1 , a i2 ,…,a im 说明了第i个指标x i 依赖于各个公共因子的程度;而第j列元素a 1j , a 2j ,…,a pj 则说明第j个公共因子F j 与各个指标的联系程度。因此,常常根据该列绝对值较大的因子载荷所对应的指标来解释这个公共因子的意义。

(2)称 A 中第i行元素的平方和 为指标x i 的共同度。

注意到各特殊因子与所有公共因子之间是独立的,而且各指标和公共因子均已标准化,则有

此式说明,指标x i 的方差由两部分组成:第一部分为共同度 h i 2 ,它刻画全部m个公共因子F 1 , F 2 ,…, F m 对指标x i 的总方差的贡献; h i 2 越大,说明x i 的原始信息被全部m个公共因子概括表示的程度越高,比如 h i 2 = 0.9854,则说明x i 提供的 98.54%的信息量被m个公共因子所说明。也就是说,用这m个公共因子描述指标x i 就越有效,保留的原始信息就越多。另一部分是单个指标所特有的方差。

(3)A中第j列元素平方和 表示第j个公共因子F j 对原始指标所提供的方差贡献之总和,它是衡量各公共因子相对重要性的一个尺度。

由于各原始指标都已标准化,即var(x i ) = 1(I = 1,2,…,p),所以,原始指标提供的总方差 ,称 为第j 个公共因子的方差贡献率。方差贡献率 α j 越大,表示第j个公共因子F j 就越重要。

3.因子载荷矩阵A的估计

当给定p个指标x 1 , x 2 ,…,x p 的n组观测值:

如何从 X 出发,确定较少m个公共因子,估计出因子载荷a ij ,从而建立因子模型,这是因子分析首要解决的问题。

估计因子载荷的方法比较多,计算都比较复杂,较常用的有三种:主成分方法、主因子方法和最大似然函数法。这里我们结论性地介绍主成分估计方法。

设原始数据的相关系数矩阵 R 的p个依序特征根为:

由相应的特征向量所组成的矩阵 U 为:

U 是正交矩阵,满足

上式中, I p p 阶单位矩阵。

由主成分分析的原理可知:

其中 Y y 1 y 2 ,..., y p )′为 p 个主成分。

然而,通常只选取前 m 个主成分进行分析,这 m 个主成分将 U 矩阵分块为:

其中

相应地

其中

由(3)和(4)可得

则有

由主成分分析可知,前 m 个主成分 y 1 y 2 ,…, y m 的方差分别为 λ 1 λ 2 ,…, λ m 。因此,作如下变换后, F i 的方差变为 1( i = 1,2,…, m )。

若令

再由(5)式可得

与(1)式比较可以看出, F F 1 F 2 ,…, F m )就为彼此独立的前 m 个公共因子,均值为 0,方差为 1。因子载荷矩阵为

公共因子个数m可按如下两种办法确定:

(1)由前m个公共因子的累计方差贡献率不低于某一阈值(比如 85%)来确定。

(2)只取特征根大于或等于 1 的公共因子。

4.因子旋转

前面求出的因子载荷矩阵 A 不是唯一的。对于一个给定的因子模型,其因子载荷矩阵可以有无限多个,这是因为:设 Γ 为任意一个正交矩阵,由(3)式可知

把上式与(2)式比较,发现也可以是因子载荷矩阵,相应地,公共因子也不是唯一的, Γ′F 各分量也可以作为公共因子,而是任意的,因此,因子载荷矩阵与公共因子是不确定的。表面上看,因子载荷矩阵和公共因子的不确定性是不利的,但当获得公共因子和因子载荷矩阵不便于解释实际问题时,可以通过正交变换使公共因子和因子载荷矩阵有鲜明的实际意义。我们称这样的正交变换为因子旋转。

因子旋转最常用的方法是Kaiser1959 年提出的方差最大正交旋转,这种方法以因子载荷矩阵中的因子载荷值的总方差达到最大作为因子载荷矩阵的准则。这里总方差最大,不是指某一公共因子的方差最大,而是说,如果第i个指标在第j个公共因子F j 上的因子载荷a ij 经过“方差最大”正交旋转后其值增大或减少,总意味着这个指标在另一些公共因子上的因子载荷要缩小或增大。因此,方差最大正交旋转是使因子载荷矩阵的元素的绝对值按列尽可能向两极分化,少数元素取最大的值,而其他元素取尽量大,而其他元素尽量接近零值。当然,同时也包含着按行向两极分化。

设初始因子载荷矩阵为 A = (a ij ),经过方差最大旋转后 A 变成正交因子载荷矩阵B =(b ij )。各公共因子的因子载荷平方的方差的总和v为

式中 是为了消除b ij 的符号的影响,除以共同度 是为了消除各个指标对公共因子依赖程度不同的影响。

方差最大正交旋转就是要找出一个正交矩阵,使得总方差v达到最大,从而由B =AΓ计算出正交因子载荷矩阵B,此时,原来的公共因子就相应地旋转成正交公共因子。

5.因子得分

前面讨论的是将p个指标x 1 , x 2 ,…,x p 表示成m个公共因子的线性组合

由于公共因子能充分反映指标的内部依赖关系,用公共因子代表原始指标时,更有利于对被评价对象(样本)作出更深刻的认识。因此,往往需要反过来将m个公共因子表示成p个原始指标的线性组合,即用

来计算各个样本的公共因子得分。

估计因子得分的方法很多,比较常用的是Thomson1939 年提出的回归估计法,所以称为Thomson因子得分。

由于(8)式中方程的个数m小于指标个数p,因此,不能像主成分分析那样,把因子精确地表示为原始指标的线性组合,而只能在最小二乘意义下对因子得分进行估计。 Thomson假设m个公共因子可以对p个指标作回归,即建立如下回归方程:

由于指标和公共因子均已标准化,所以有

由最小二乘估计得Thomson因子得分的估计公式为

式中为因子载荷矩阵的转置, R - 1 为原始指标的相关系数矩阵 R 的逆矩阵。 Pg11MFXu94S82W4BtYsIUfJcdGjhf1zKnDeNovv6vNcBtpa3OX7CbR+VsC3gynwn

点击中间区域
呼出菜单
上一章
目录
下一章
×