对于样本的特征空间描述,主要分析特征的集中位置、分散程度、数据的分布为正态还是偏态等。对于多维数据,还要分析多维数据的各个分量之间的相关性等。
1.一维特征
一维样品的特征空间描述主要有下列几种。设N个观测值为x 1 ,x 2 ,…,x N ,其中N称为样本容量。
① 均值,即是x 1 ,x 2 ,…,x N 的平均数
② 方差,描述数据取值分散性的一个度量,它是数据相对于均值的偏差平方的平均值
③ 标准差,方差的开方称为标准差
偏度与峰度是刻画数据的偏态、尾重程度的度量,它们与数据的矩有关。数据的矩分为原点矩与中心矩。
④ k阶原点矩为
⑤ k阶中心矩为
⑥ 偏度的计算公式为
其中s是标准差。偏度是刻画数据对称性的指标。关于均值对称的数据其偏度为0,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负,如图2-4所示。
图2-4 偏度示意图
⑦ 峰度的计算公式为
当数据的总体分布为正态分布时,峰度近似为0;当分布较正态分布的尾部更分散时,峰度为正,否则峰度为负。当峰度为正时,两侧极端数据较多;当峰度为负时,两侧极端数据较少。
2.二维特征
设(X,Y) T 是二维总体,从中取得的观测数据(x 1 ,y 1 ) T ,(x 2 ,y 2 ) T ,…,(x N ,y N ) T 。引进数据观测矩阵
① 二维观测数据的均值向量
②变量X的观测数据的方差s xx ,变量Y的观测数据的方差s yy 及变量X,Y的观测数据的协方差s xy
③ 观测数据的协方差矩阵
注意:总有s xy =s yx ,即协方差矩阵为对称矩阵。
由Schwarz不等式
所以s总是非负定的,一般是正定的。
④ 观测数据的相关系数:
由Schwarz不等式,有|r xy |≤1,即总有-1≤r xy ≤1。
例如,有10名学生,其中5名男生,5名女生。对每名学生取身高、体重两项指标作为特征,测得的数据如表2-1所示。
表2-1 学生数据
10个样品的均值为
男生和女生样品点的均值为
特征x 1 对于全体样品的方差为
特征x 2 对于全体样品的方差为
特征x 1 对于男生和女生样品的方差为
特征x 2 对于男生和女生样品的方差为
全体样品点中特征x 1 与x 1 的协方差s 11 即 ;x 1 与x 2 的协方差为
全体样品点中特征x 2 与x 2 的协方差s 22 即 ;在男生和女生样品点中分别有
则对于全体样品点x 1 和x 2 的相关系数为
特征x 1 和x 2 对于男生和女生的相关系数为
3.多维特征
设(X (1) ,X (2) ,…,X (n) )是n维总体,从中取得样品数据
(x 11 ,x 12 ,…,x 1n ) T
(x 21 ,x 22 ,…,x 2n ) T
…
(x N1 ,x N2 ,…,x Nn ) T
第i个观测数据记为
X i =(x i1 ,x i2 ,…,x in ) T i=1,2,…,N
称为样品。引进样品数据观测矩阵
它是N×n矩阵,它的N个行即是N个样品X 1 ,X 2 ,…,X N ,它们组成来自n维总体(X (1) ,X (2) ,…,X (n) )的样品。观测矩阵 的n个列分别是n个变量X (1) ,X (2) ,…,X (n) 在N次试验中所取的值。记为
(1)样品统计参数
定义 是n维样本数据的均值向量。
① 第j行X (j) 的均值
② 第j行X (j) 的方差
③ X (j) ,X (k) 的协方差
X (j) 与自身的协方差即X (j) 的方差
称
是样品观测数据的协方差矩阵。有
均值向量 与协方差矩阵S是n维观测数据的重要数字特征。 表示n维观测数据的集中位置,而协方差矩阵S的对角线元素分别是各个变量观测值的方差,而非对角线元素是变量观测值之间的协方差。
④ X (j) ,X (k) 的相关系数
r jk 是无量纲的量,总有r jj =1,|r jk |≤1。
称
是观测数据的相关矩阵。相关矩阵R是n维观测数据的最重要的数字特征,它刻画了变量之间线性联系的密切程度。
(2)总体参数
设(X (1) ,X (2) ,…,X (n) )是n维总体,其总体分布函数是F(x 1 ,x 2 ,…,x n )=F(X),其中X=(x 1 ,x 2 ,…,x n ) T 。在连续型总体时,总体存在概率密度f(x 1 ,x 2 ,…,x n )=f(X)。
① 总体均值向量:令μ i =E(X (i) ),i=1,2,…,n,则
② 总体协方差矩阵
∑=Cov(X)=E[(X-μ)(X-μ) T ]= =(σ jk ) n×n (2-46)其中σ jk =Cov(X (j) ,X (k) )=E[(X (j) -μ j )(X (k) -μ k ) T ]。特别地,当 j=k时,σ jj = =Var(X (j) )。
③ 总体的分量X (j) ,X (k) 的相关系数
④ 总体的相关矩阵
总有ρ jj =1,|ρ jk |≤1。
1.分布密度函数
设观测数据是由总体X中取出的样本,总体的分布函数是F(X)。当X为离散分布时,总体的分布可由概率分布刻画
p i =P{X=X i } i=1,2,…
总体为连续分布时,总体的分布可由概率密度f(X)刻画。几种常用一维连续总体分布的概率密度如下。
正态分布
对数正态分布
指数分布
Γ分布(Gamma分布)
2.多维正态分布的性质
在进行模式识别方法的研究时,常用正态分布概率模型来抽取所需要的训练样本集和测试样本集,在数学上实现起来比较方便。
若n维总体X=(X (1) ,X (2) ,…,X (n) ) T 具有概率密度
则称n维总体服从n维正态分布。记为N n (μ,∑)。记X=(X (1) ,X (2) ,…,X (n) ),则可证,n维随机向量X的均值向量为μ,协方差矩阵为∑。多维正态分布的性质有以下几点。
(1)参数μ和∑对分布的决定性
多元正态分布被均值向量μ和协方差矩阵∑所完全确定。由μ=E(X)和∑=E[(X-μ)(X-μ) T ]可见,均值向量μ由n个分量组成,协方差矩阵∑由于其对称性故其独立元素只有n(n+1)/2个,所以,多元正态分布由n+n(n+1)/2个参数所完全确定。
(2)不相关性等价于独立性
在数理统计中,一般来说,若两个随机变量x i 和x j 之间不相关,并不意味着它们之间一定独立。下面给出不相关与独立的定义。
若E{x i x j }=E{x i }E{x j },则定义随机变量x i 和x j 是不相关的。
若p(x i x j )=p(x i )p(x j ),则定义随机变量x i 和x j 是独立的。
从它们的定义中可以看出,独立性是比不相关性更强的条件,独立性要求 p(x i x j )=p(x i )p(x j )对于x i 和x j 都成立,而不相关性说的是两个随机变量的积的期望等于两个随机变量的期望的积,它反映了x i 和x j 总体的性质。若x i 和x j 相互独立,则它们之间一定不相关;反之则不一定成立。
对多维正态分布的任意两个分量x i 和x j 而言,若x i 和x j 互不相关,则它们之间一定独立。这就是说,在正态分布中不相关性等价于独立性。
(3)边缘分布和条件分布的正态性
多维正态分布的边缘分布和条件分布仍然是正态分布。
(4)线性变换的正态性
设X~N n (μ,∑),又Y=AX+b,其中b是n维常向量,A是l×n矩阵,rank(A)=l,则
Y~N l (Aμ+b,A∑A T )
即Y服从以Aμ+b为均值,以A∑A T 为协方差矩阵的l维正态分布。
3.多维正态分布总体参数的估计
在实际中,多维正态分布N(μ,∑)的参数μ和∑常常是未知的,需要通过样本来估计。
记X 1 ,X 2 ,…,X N 是从总体X中取出的一个样本,设总体的分布是连续型的,分布密度函数为p(X,θ 1 ,θ 2 ,…,θ k ),其中θ 1 ,θ 2 ,…,θ k 是待估计的未知参数,对于给定的X 1 ,X 2 ,…,X N ,使函数 p(X i ,θ 1 ,θ 2 ,…,θ k )达到最大值的θ 1 ,θ 2 ,…,θ k ,应用它们分别作为θ 1 ,θ 2 ,…,θ k 的估值。由于 (X i ,θ 1 ,θ 2 ,…,θ k )与 (X i ,θ 1 ,θ 2 ,…,θ k )在同一点θ 1 ,θ 2 ,…,θ k 上达到最大值,因此,引入函数
它称为似然函数,只要解方程组
就可以从中确定所要求的θ 1 ,θ 2 ,…,θ k ,它们分别称为参数θ 1 ,θ 2 ,…,θ k 的最大似然估值。如果总体的分布是离散型的,只要把上述似然函数中的p(x i ,θ 1 ,θ 2 ,…,θ k )取为P(X=X i )就可以了。具体实现步骤如下。
① 设X 1 ,X 2 ,…,X N 是来自总体N n (μ,∑)的简单随机样本,则X 1 ,X 2 ,…,X N 的联合概率密度是μ,∑的函数。
② 构造似然函数:
注意:当得到样本观测值X 1 ,X 2 ,…,X N 后,L(μ,∑)是X 1 ,X 2 ,…,X N 的函数。
③ 对总体μ和∑的最大似然估计。在统计学中,μ,∑是未知的,需要由样本观测值X 1 ,X 2 ,…,X N 估计。若μ,∑作为X (1) ,X (2) ,…,X (n) 的函数
∑=∑(X (1) ,X (2) ,…,X (n) )
满足 ,则 , 称为μ,∑的最大似然估计。
对任意N元总体,均值向量 、协方差矩阵S是总体均值向量μ、总体协方差矩阵∑的估计。而对N元正态总体,∑的最大似然估计为
当N较大时, ≈S。因S是∑的无偏估计,通常仍以S作为∑的估计。