购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.7.1 特征空间描述

对于样本的特征空间描述,主要分析特征的集中位置、分散程度、数据的分布为正态还是偏态等。对于多维数据,还要分析多维数据的各个分量之间的相关性等。

1.一维特征

一维样品的特征空间描述主要有下列几种。设 N 个观测值为 x 1 x 2 ,…, x N ,其中 N 称为样本容量。

①均值,即是 x 1 x 2 ,…, x N 的平均数

②方差,描述数据取值分散性的一个度量,它是数据相对于均值的偏差平方的平均值

③标准差,方差的开方称为标准差

偏度与峰度是刻画数据的偏态、尾重程度的度量,它们与数据的矩有关。数据的矩分为原点矩与中心矩。

k 阶原点矩为

k 阶中心矩为

⑥偏度的计算公式为

其中 s 是标准差。偏度是刻画数据对称性的指标。关于均值对称的数据其偏度为0,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负,如图2‐4所示。

图2‐4 偏度示意图

⑦峰度的计算公式为

当数据的总体分布为正态分布时,峰度近似为0;当分布较正态分布的尾部更分散时,峰度为正,否则峰度为负。当峰度为正时,两侧极端数据较多;当峰度为负时,两侧极端数据较少。

2.二维特征

设( X , Y T 是二维总体,从中取得的观测数据 引进数据观测矩阵

①二维观测数据的均值向量

②变量 X 的观测数据的方差 s xx ,变量 Y 的观测数据的方差 s yy 及变量 X , Y 的观测数据的协方差 s xy

③观测数据的协方差矩阵

注意:总有 s xy s yx ,即协方差矩阵为对称矩阵。

由Schwarz不等式

所以 s 总是非负定的,一般是正定的。

④观测数据的相关系数:

由Schwarz不等式,有| r xy |≤1,即总有-1≤ r xy ≤1。

例如,有10名学生,其中5名男生,5名女生。对每名学生取身高、体重两项指标作为特征,测得的数据如表2‐1所示。

表2‐1 学生数据

10个样品的均值为

男生和女生样品点的均值为

特征 x 1 对于全体样品的方差为

特征 x 2 对于全体样品的方差为

特征 x 1 对于男生和女生样品的方差为

特征 x 2 对于男生和女生样品的方差为

全体样品点中特征 x 1 x 1 的协方差 s 11 x 1 x 2 的协方差为

全体样品点中特征 x 2 x 2 的协方差 s 22 ;在男生和女生样品点中分别有

则对于全体样品点 x 1 x 2 的相关系数为

特征 x 1 x 2 对于男生和女生的相关系数为

3.多维特征

设( X (1) X 2 ),…, X n ))是 n 维总体,从中取得样品数据

i 个观测数据记为

称为样品。引进样品数据观测矩阵

它是 N × n 矩阵,它的 N 个行即是 N 个样品 X 1 X 2 ,…, X N ,它们组成来自 n 维总体( X (1) X 2 ),…, X n ))的样品。观测矩阵~ X n 个列分别是 n 个变量 X (1) X 2 ),…, X n )在 N 次试验中所取的值。记为

(1)样品统计参数

定义 n 维样本数据的均值向量。

①第 j X j )的均值

②第 j X j )的方差

X j ), X k )的协方差

X( j )与自身的协方差即X( j )的方差

是样品观测数据的协方差矩阵。有

均值向量 与协方差矩阵 S n 维观测数据的重要数字特征。 表示 n 维观测数据的集中位置,而协方差矩阵 S 的对角线元素分别是各个变量观测值的方差,而非对角线元素是变量观测值之间的协方差。

X j ), X k )的相关系数

r jk 是无量纲的量,总有 r jj =1,| r jk |≤1。

是观测数据的相关矩阵。相关矩阵 R n 维观测数据的最重要的数字特征,它刻画了变量之间线性联系的密切程度。

(2)总体参数

设( X (1) X 2 ),…, X n ))是 n 维总体,其总体分布函数是 F x 1 x 2 ,…, x n )= F X ),其中 X =( x 1 x 2 ,…, x n T 。在连续型总体时,总体存在概率密度 f x 1 x 2 ,…, x n )= f X )。

①总体均值向量:令μ i E X i )), i =1,2,…, n ,则

②总体协方差矩阵

其中 σ jk =Cov( X j ), X k ))= E [( X j )-μ j )( X k )-μk) T ]。特别地,当 j k 时, =Var( X j ))。

③总体的分量 X j ), X k )的相关系数

④总体的相关矩阵

总有 ρ jj =1,| ρ jk |≤1。 G8ltA8/0EmjYfXcZlheggbYZ6fqi0hNVBi+t/O9AadGdfwYSNl9hxiF8wLP8QFBk

点击中间区域
呼出菜单
上一章
目录
下一章
×