对于样本的特征空间描述,主要分析特征的集中位置、分散程度、数据的分布为正态还是偏态等。对于多维数据,还要分析多维数据的各个分量之间的相关性等。
一维样品的特征空间描述主要有下列几种。设 N 个观测值为 x 1 , x 2 ,…, x N ,其中 N 称为样本容量。
①均值,即是 x 1 , x 2 ,…, x N 的平均数
②方差,描述数据取值分散性的一个度量,它是数据相对于均值的偏差平方的平均值
③标准差,方差的开方称为标准差
偏度与峰度是刻画数据的偏态、尾重程度的度量,它们与数据的矩有关。数据的矩分为原点矩与中心矩。
④ k 阶原点矩为
⑤ k 阶中心矩为
⑥偏度的计算公式为
其中 s 是标准差。偏度是刻画数据对称性的指标。关于均值对称的数据其偏度为0,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负,如图2‐4所示。
图2‐4 偏度示意图
⑦峰度的计算公式为
当数据的总体分布为正态分布时,峰度近似为0;当分布较正态分布的尾部更分散时,峰度为正,否则峰度为负。当峰度为正时,两侧极端数据较多;当峰度为负时,两侧极端数据较少。
设( X , Y ) T 是二维总体,从中取得的观测数据 引进数据观测矩阵
①二维观测数据的均值向量
②变量 X 的观测数据的方差 s xx ,变量 Y 的观测数据的方差 s yy 及变量 X , Y 的观测数据的协方差 s xy
③观测数据的协方差矩阵
注意:总有 s xy = s yx ,即协方差矩阵为对称矩阵。
由Schwarz不等式
所以 s 总是非负定的,一般是正定的。
④观测数据的相关系数:
由Schwarz不等式,有| r xy |≤1,即总有-1≤ r xy ≤1。
例如,有10名学生,其中5名男生,5名女生。对每名学生取身高、体重两项指标作为特征,测得的数据如表2‐1所示。
表2‐1 学生数据
10个样品的均值为
男生和女生样品点的均值为
特征 x 1 对于全体样品的方差为
特征 x 2 对于全体样品的方差为
特征 x 1 对于男生和女生样品的方差为
特征 x 2 对于男生和女生样品的方差为
全体样品点中特征 x 1 与 x 1 的协方差 s 11 即 ; x 1 与 x 2 的协方差为
全体样品点中特征 x 2 与 x 2 的协方差 s 22 即 ;在男生和女生样品点中分别有
则对于全体样品点 x 1 和 x 2 的相关系数为
特征 x 1 和 x 2 对于男生和女生的相关系数为
设( X (1) , X ( 2 ),…, X ( n ))是 n 维总体,从中取得样品数据
第 i 个观测数据记为
称为样品。引进样品数据观测矩阵
它是 N × n 矩阵,它的 N 个行即是 N 个样品 X 1 , X 2 ,…, X N ,它们组成来自 n 维总体( X (1) , X ( 2 ),…, X ( n ))的样品。观测矩阵~ X 的 n 个列分别是 n 个变量 X (1) , X ( 2 ),…, X ( n )在 N 次试验中所取的值。记为
(1)样品统计参数
定义 是 n 维样本数据的均值向量。
①第 j 行 X ( j )的均值
②第 j 行 X ( j )的方差
③ X ( j ), X ( k )的协方差
X( j )与自身的协方差即X( j )的方差
称
是样品观测数据的协方差矩阵。有
均值向量 与协方差矩阵 S 是 n 维观测数据的重要数字特征。 表示 n 维观测数据的集中位置,而协方差矩阵 S 的对角线元素分别是各个变量观测值的方差,而非对角线元素是变量观测值之间的协方差。
④ X ( j ), X ( k )的相关系数
r jk 是无量纲的量,总有 r jj =1,| r jk |≤1。
称
是观测数据的相关矩阵。相关矩阵 R 是 n 维观测数据的最重要的数字特征,它刻画了变量之间线性联系的密切程度。
(2)总体参数
设( X (1) , X ( 2 ),…, X ( n ))是 n 维总体,其总体分布函数是 F ( x 1 , x 2 ,…, x n )= F ( X ),其中 X =( x 1 , x 2 ,…, x n ) T 。在连续型总体时,总体存在概率密度 f ( x 1 , x 2 ,…, x n )= f ( X )。
①总体均值向量:令μ i = E ( X ( i )), i =1,2,…, n ,则
②总体协方差矩阵
其中 σ jk =Cov( X ( j ), X ( k ))= E [( X ( j )-μ j )( X ( k )-μk) T ]。特别地,当 j = k 时, =Var( X ( j ))。
③总体的分量 X ( j ), X ( k )的相关系数
④总体的相关矩阵
总有 ρ jj =1,| ρ jk |≤1。