基于复相关分析的指标选择方法,建立合理的指标体系是系统效能评估的关键。从作战效能和系统性能的角度,通过系统效能评估指标体系构建出系统海选评估指标体系,运用复相关系数分析的方法剔除同一准则层中复相关系数较大的指标,以相对离散系数作为指标的信息含量,通过累计信息灵敏度分析剔除信息含量偏小的指标,以确定效能评估指标的优选目标。
1.复相关系数指标循环筛选方法
复相关系数是度量复相关程度的指标,它可利用单相关系数和偏相关系数求得。复相关系数越大,表明要素或变量之间的线性相关程度越密切。多重相关的实质就是 Y 的实际观察值与由 p 个自变量预测的值的相关。
复相关系数是测量一个变量与其他多个变量之间线性相关程度的指标。它不能直接测算,只能采取一定的方法进行间接测算。测定一个变量 y 与其他多个变量 x 1 , x 2 ,··· , x k 之间的相关系数。 x 1 , x 2 ,··· , x k 不能直接测算,可以考虑构造一个关于 x 1 , x 2 ,··· , x k 的线性组合,计算得出该线性组合与 y 之间的简单相关系数,并将此作为变量 y 与 x 1 , x 2 ,··· , x k 之间的复相关系数。
具体过程如下:
第一步,用 y 对 x 1 , x 2 ,··· , x k 作回归,得 。
第二步,计算简单相关系数,即 y 对 x 1 , x 2 ,··· , x k 之间的复相关系数:
复相关系数与简单相关系数的区别是,简单相关系数的取值范围是[-1,1],而复相关系数的取值范围是[0,1]。这是因为,在两个变量的情况下,回归系数有正负之分,所以在研究相关时,也有正相关和负相关之分; 但在多个变量时,偏回归系数有两个或两个以上,其符号有正有负,不能按正负来区别,所以复相关系数也就只取正值。
复相关系数关注的是单个指标与多个指标间的关联程度,这种方法较Pearson 相关系数和偏相关系数有较大的优势。复相关系数越小,说明与其余指标所反映信息的重叠程度越小,指标应当保留。在实际筛选过程中,将同一准则层内指标的复相关系数最大值与给定的临界值进行比较。若最大值大于临界值,则剔除该指标; 对剩余指标按照上述过程循环筛选,当复相关系数的最大值小于给定的临界值时筛选停止。
复相关系数指标循环筛选方法的步骤如算法3.2 所示。
2.基于变异系数的指标筛选方法
在统计分析中,当进行两个或多个变量指标变异程度的比较时,如果指标的度量单位与平均数相同,可以直接利用标准差来比较。如果指标的单位和平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较,即变异系数(Coefficient of Variance,CV):
式中: µ 和 σ 分别为变量 X 均值和标准方差。在实际应用中,常用样本均值 和样本标准方差 来近似计算。因此,变异系数可采用下式近似计算:
变异系数可以消除单位和(或)平均数不同对两个或多个变量变异程度比较的影响,用来反映单位均值上的离散程度,常用在两个总体均值不等的离散程度的比较上。一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标,其作用主要是比较不同组别数据的离散程度。
借助于主成分分析的思想,变异系数也可看作变量 x i 对整个样本 x 变异程度的贡献度大小,因此,在效能评估指标筛选中,可以把变异系数定义为指标变量的信息含量。基于累计信息灵敏度的指标筛选方法主要是针对同上层指标有关联关系的指标中,筛选信息贡献度较小的指标,即通过定义指标数据的标准差与均值的比值即相对离散系数表示指标的信息含量。信息含量排序靠前的 p 个指标的信息含量之和与全部指标信息含量之和的比值为累计信息灵敏度。当前 p 个指标的累计信息灵敏度达到一定标准时,则认为这 p 个指标对综合评价结果具有显著影响,应予以保留。
基于变异系数的指标筛选算法如算法3.3 所示。
在主成分分析中,为保证组合后的变量能够反映原始变量的大部分信息,在筛选时,一般保留累计方差贡献率达到85% 以上的主成分。这里借鉴这种思想,选定累计信息灵敏度临界值 r 0 为85%,即当 r p ≥85%,则认为选定的 p 个指标能够反映初选指标集的大部分信息,构建的指标体系具有合理性。
灵敏度分析方法主要包括解析求解方法和仿真试验方法。对于解析关系明确的指标,开展数学解析分析(通常称为局部灵敏度分析); 对解析关系难于获取或强非线性模型的指标,通过数字仿真进行灵敏度分析(通常称为全局灵敏度分析)。
考虑到武器装备系统的复杂性,同时更准确全面反映各实战要素与评估指标的关系,一般可采用仿真试验法进行灵敏度分析。具体做法为:在武器装备系统仿真模型或者基于代理模型(如支持向量回归机、GMDH 算法)的基础上,加入外部实战条件,进行大量的蒙特卡罗仿真实验,对仿真实验结果进行统计分析。
实验设计方法本质上是在实验范围内挑选代表点以减少实验次数、提高效率的方法。实验设计的方法很多,如单因素实验、双因素实验、随机区组实验、不完全区组实验、拉丁方实验、正交实验、最优化实验、稳健实验、均匀实验等。鉴于实战条件、相控阵雷达作战过程和环节复杂,存在多个实验因素和多个水平取值,因此对单因素的灵敏度分析采取拉偏实验的方式。
对于单因素实验结果的分析,采用曲线图形和灵敏度系数两种方式。曲线图以因素水平作为横轴,考核指标作为纵轴,曲线趋势反映灵敏度试验结果,以验证关联关系的正确性。在仿真得到的一定数据的基础上,通过单因素分析得到外部不同实战条件对某一指标要素输入进行微小扰动,同时固定其他参数取值,进行系统仿真,得到相应系统输出,然后采用差分计算得到敏感度大小。灵敏度 S 的计算公式为
式中:Δ I 为改变某实战要素值引起的能力指标的增量; Δ C 为某实战要素的改变值。
考虑到各个实战因素的量纲相差甚大,可以采用相对变化的灵敏度计算:
式中:Δ I 为改变某实战要素值引起的能力指标的增量; Δ C 为某实战要素的改变值; I 1 为能力指标原值; I 2 为能力指标新值。
基于灵敏度分析的动态指标选取方法的基本思路:
(1)根据作战任务的特点,构建出考虑到所有影响评价结果的效能评估指标,建立一个比较完备的指标体系;
(2)基于这个指标体系,评价出系统的效能值;
(3)采用灵敏度分析方法,计算单个指标对效能值的影响程度;
(4)剔除掉对效能值影响很小的指标,构成评价现阶段某系统的评价指标体系。
在介绍核主成分析的指标选择前,先介绍基于主成分分析的指标选择。基于主成分分析的指标选择的方法就是将众多线性相关指标转换为少数线性无关指标的有效方法。其基本思想是,把复杂相关指标转化为较少的几个综合指标,将反映系统中最重要信息的综合指标作为第一主成分,其次为第二主成分……主成分的个数一般按所需反映信息量的百分比来决定,各个主成分线性无关,从而将多变量的高维空间问题化简成低维的综合指标问题。
设 E 为 n 维空间 R n 中所有单位向量的集合, X 1 , X 2 ,··· , X n 是线性相关的 m 维列随机变量。构造 X 1 , X 2 ,··· , X n 的线性组合 Z = AX T ,其中, X m × n = ( X 1 , X 2 ,··· , X n ), A ∈ E 。
若 Z 1 是方差最大的随机变量,即Var( Z 1 )= max{Var( Z )},则称 Z 1 为向量组 X 的第一主成分,记为 Z 1 = β 1 X T , β 1 ∈ E ; 在 Z = AX T 中,与 Z 1 线性无关并且方差达到最大者,称为 X 的第二主成分,记为 Z 2 = β 2 X , β 2 ∈ E ; 类似地,可以定义其他若干等级的主成分。
假定通过 m 个样本得到 n 项指标的取值 X 1 = ( y 11 , y 21 ,··· , y m 1 ) T , X 2 = ( y 12 , y 22 ,··· , y m 2 ) T ,···, X n = ( y 1 n , y 2 n ,··· , y mn ) T ,主成分分析法的步骤如下:
第一步,原始数据标准化。主要包括指标性质的调整和数据的标准化,其中数据标准化主要是无量纲化并满足 E ( X )= 0。
令 = 1,2,··· , m ; j = 1,2,··· , n ,其中, = ,由此得到标准化矩阵 X :
第二步,计算相关系数,得到相关系数矩阵 R , R 为实对称矩阵:
第三步,解特征方程| λI - R | = 0,求 R 的特征值 λ 1 , λ 2 ,··· , λ n ( λ 1 ≥ λ 2 ≥··· ≥ λ n ≥0)和对应的 n 个线性无关的单位化特征向量 A i =( a i 1 , a i 2 ,··· , a in ), i = 1,2,··· , n ,构成一个正交矩阵 A :
第四步,计算主成分:
若 Z j = ( z 1 j , z 2 j ,··· , z mj ) T 表示第 j 个主成分,令 Z = ( Z 1 , Z 2 ,··· , Z n ),则有 Z = XA T 。
第五步,样本主成分选择,计算各主成分的贡献率和累积贡献率。
第 j 个主成分 Z j 的贡献率
则前 r 个主成分的累积贡献率为
累积贡献率表明了前 r 个主成分能够反映原样本信息量的程度,当其达到一定水平时就可用前 r 个主成分来表示原样本所包含的信息。
在PCA 中一般假定特征根的大小决定了我们感兴趣信息的多少,即小特征根往往代表了噪声,而实际中,向小一点的特征值方向投影也有可能包括我们感兴趣的数据; 而且,PCA 中要求特征向量的方向是互相正交的,这种正交性使得PCA 容易受到异常点的影响。
核主成分分析(KPCA)是对PCA 算法的非线性扩展,可解决主成分分析对非线性问题特征提取的不足。基于核函数的主成分分析和主成分分析的步骤是一样的,只不过用核函数替代了原来的数据。KPCA 具有两点创新:
(1)为了更好地处理非线性数据,引入非线性映射函数 φ (·),将原空间中的数据映射到高维空间, φ (·)是隐性的,具体形式未知。
(2)引入了一个定理:空间中的任一向量(哪怕是基向量),都可以由该空间中的所有样本线性表示。
对于线性不可分的数据集,引入非线性映射函数 φ (·),可以将其映射到高维上,再进行划分,即
令 X T = [ φ ( x 1 ),··· , φ ( x N )],则
其中, φ ( x )未知,上式无法求解。即便 φ ( x )已知,其计算成本也太大。故引入核函数,由核函数理论有
上述的 K 可根据核函数性质计算出,下面重点研究 K 和 C 之间的关系。如果要求 K 的特征值和特征向量,则有:
式中: u 为矩阵 K 的特征向量; λ 为矩阵 K 的特征值。
对式(3.43)两边同时乘以 X T ,有
即( X T X )( X T u )= λ ( X T u )。
又由于( N - 1)· C = X T X ,所以我们发现矩阵 K 和 C 的特征值是相同的,都为 λ ; C 的特征向量为 X T u 。由于我们希望特征向量是单位向量,所以对其做单位化:
在上式中, λ 和 u 可以通过矩阵 K 求得,但是 X T 依然不可求解,则 C 的特征向量还是无法计算。实际上,只需求解出 x 在 v 上的投影即可。由
可知,上式中所有的量都是可以求得的,即在没有求出特征向量的情况下,直接算出了样本在特征向量上的投影。
KPCA 处理流程如下:
利用(核)主成分进行效能评估指标选择,所选择出的主成分可以看作武器装备(体系)的涌现性指标。在进行综合效能评估中,利用各个主成分的贡献率作为该涌现性指标的权重,聚合成综合效能指标值。
注: 利用(核)主成分进行效能评估指标选择并进行综合效能评估,可以避免采用AHP、ANP 进行综合评估时的主观性(各指标的权重需根据专家意见进行确定)。