设观测数据是由总体 X 中取出的样本,总体的分布函数是 F ( X )。当 X 为离散分布时,总体的分布可由概率分布刻画
总体为连续分布时,总体的分布可由概率密度 f ( X )刻画。几种常用一维连续总体分布的概率密度如下。
正态分布
对数正态分布
指数分布
Γ分布(Gamma分布)
在进行模式识别方法的研究时,常用正态分布概率模型来抽取所需要的训练样本集和测试样本集,在数学上实现起来比较方便。
若 n 维总体 X =( X (1) , X ( 2 ),…, X ( n )) T 具有概率密度
则称 n 维总体服从 n 维正态分布。记为 N n (μ,∑)。记 X =( X (1) , X ( 2 ),…, X ( n )),则可证, n 维随机向量 X 的均值向量为μ,协方差矩阵为∑。多维正态分布的性质有以下几点。
(1)参数μ和∑对分布的决定性
多元正态分布被均值向量μ和协方差矩阵∑所完全确定。由μ= E ( X )和∑= E [( X -μ)( X -μ) T ]可见,均值向量μ由 n 个分量组成,协方差矩阵∑由于其对称性故其独立元素只有 n ( n +1)/2个,所以,多元正态分布由 n + n ( n +1)/2个参数所完全确定。
(2)不相关性等价于独立性
在数理统计中,一般来说,若两个随机变量 x i 和 x j 之间不相关,并不意味着它们之间一定独立。下面给出不相关与独立的定义。
若 E { x i x j }= E { x i } E { x j },则定义随机变量 x i 和 x j 是不相关的。
若 p ( x i x j )= p ( x i ) p ( x j ),则定义随机变量 x i 和 x j 是独立的。
从它们的定义中可以看出,独立性是比不相关性更强的条件,独立性要求 p ( x i x j )= p ( x i ) p ( x j )对于 x i 和 x j 都成立,而不相关性说的是两个随机变量的积的期望等于两个随机变量的期望的积,它反映了 x i 和 x j 总体的性质。若 x i 和 x j 相互独立,则它们之间一定不相关;反之则不一定成立。
对多维正态分布的任意两个分量 x i 和 x j 而言,若 x i 和 x j 互不相关,则它们之间一定独立。这就是说,在正态分布中不相关性等价于独立性。
(3)边缘分布和条件分布的正态性
多维正态分布的边缘分布和条件分布仍然是正态分布。
(4)线性变换的正态性
设 X ~ N n (μ,∑),又 Y = AX + b ,其中 b 是 n 维常向量, A 是 l × n 矩阵,rank( A )= l ,则
即 Y 服从以 A μ+ b 为均值,以 A ∑ A T 为协方差矩阵的 l 维正态分布。
在实际中,多维正态分布 N (μ,∑)的参数μ和∑常常是未知的,需要通过样本来估计。
记 X 1 , X 2 ,…, X N 是从总体 X 中取出的一个样本,设总体的分布是连续型的,分布密度函数为 p ( X , θ 1 , θ 2 ,…, θ k ),其中 θ 1 , θ 2 ,…, θ k 是待估计的未知参数,对于给定的 X 1 , X 2 ,…, X N ,使函数 达到最大值的 θ 1 , θ 2 ,…, θ k ,应用它们分别作为 θ 1 , θ 2 ,…, θ k 的估值。由于 在同一点 θ 1 , θ 2 ,…, θ k 上达到最大
值,因此,引入函数
它称为似然函数,只要解方程组
就可以从中确定所要求的 θ 1 , θ 2 ,…, θ k ,它们分别称为参数 θ 1 , θ 2 ,…, θ k 的最大似然估值。如果总体的分布是离散型的,只要把上述似然函数中的 p ( x i , θ 1 , θ 2 ,…, θ k )取为 P ( X = X i )就可以了。具体实现步骤如下。
①设 X 1 , X 2 ,…, X N 是来自总体 N n (μ,∑)的简单随机样本,则 X 1 , X 2 ,…, X N 的联合概率密度是μ,∑的函数。
②构造似然函数:
注意:当得到样本观测值 X 1 , X 2 ,…, X N 后, L (μ,∑)是 X 1 , X 2 ,…, X N 的函数。
③对总体μ和∑的最大似然估计。在统计学中,μ,∑是未知的,需要由样本观测值 X 1 , X 2 ,…, X N 估计。若μ,∑作为 X (1) , X ( 2 ),…, X ( n )的函数
满足 ,则 称为μ,∑的最大似然估计。
对任意 N 元总体,均值向量 、协方差矩阵 S 是总体均值向量μ、总体协方差矩阵∑的估计。而对 N 元正态总体,∑的最大似然估计为
当 N 较大时, 。因 S 是∑的无偏估计,通常仍以 S 作为∑的估计。