模式识别与智能计算—MATLAB技术实现（第3版）最新章节_杨淑莹著

2.8.2 手写数字特征空间分布分析

在工程上的许多问题中，统计数据往往满足正态分布规律。正态分布简单，参量少，分析方便，是一种适宜的数学模型。

尽管不同的人手写数字形状有所区别，但在特征空间中对某一类的特征进行观察时，这些手写的数字较多地分布在这一类的均值附近，远离均值点较少，因此用正态分布作为这一类的概率模型是合理的。

要想了解手写数字特征空间分布情况，需要根据现有的训练样本集，对总体参数做点估计和区间估计，然后假设样本的总体分布函数，对总体分布函数进行统计假设检验。由于对手写数字提取了25维特征，为了简化分布分析过程，对手写数字特征空间水平投影降维为5维。在此基础上进行主成分分析，提取第一主成分分量作为有效特征，进行一维正态分布分析。

1.手写数字总体参数的估计

（1）总体参数的点估计

采用最大似然法对手写数字总体参数进行点估计。

由于假设手写数字特征分布遵从正态分布 N （ μ ， σ ² ），但总体参数 θ （ μ ， σ ² ）未知，对于正态总体的参数估计现在要用总体的 N 次观测值 x ₁ ， x ₂ ，…， x _N ，求 μ ， σ ² 的最大似然估值。

一元总体的分布密度函数为

似然函数为

解方程组

得

容易检验 μ ， σ ² 确实使 L （ μ ， σ ）取到最大值，因此它们分别是 μ ， σ ² 的最大似然估值。

（2）估值好坏的判别标准

①无偏性。如果参数 θ 的估值满足关系式

则称是 θ 的无偏估值。

②有效性。如果和都是参数 θ 的无偏估值

D ≤ D

则称比有效。进一步，如果固定样本的容量 N ，使＝极小值的无偏估值就成为 θ 的有效估值。

③一致性。如果对任意给定的正数 ε ，总有

则称 θ 的估值是一致的。当

对某 r ≥0成立时，是 θ 的一致估值。

（3）总体参数的区间估计

在一次试验中，概率很小（接近于零）的事件认为是实际上不可能发生的事件；而概率接近于1的事件认为是实际上必然发生的事件。

对总体参数 θ （ μ ， σ ² ）进行区间估计（即区间参数的取值范围）时，如果对于预先给定的很小的概率 α ，能找到一个区间（ θ ₁ ， θ ₂ ），使得

P （ θ ₁ ＜ θ ＜ θ ₂ ）＝1- α

那么称区间（ θ ₁ ， θ ₂ ）为参数 θ 的置信区间， θ ₁ 和 θ ₂ 称为置信限（或临界值）； θ ≤ θ ₁ 和 θ ≥ θ ₂ 称为否定域；概率 α 称为显著性水平，1- α 称为置信水平（或置信概率）。

假设总体遵从正态分布 N （ μ ， σ ² ）。对于预先给定的显著性水平 α ，可用一个样本｛ x ₁ ， x ₂ ，…， x _N ｝的均值 x 和标准差 s 来估计总体的均值 μ 和方差 σ ² 的置信区间，估计方法如表2‐2所示。

表2‐2 （小样本）置信区间的估计方法

2.总体分布函数的检验法

（1）检验法

检验法是基于对数据按其取值范围进行分组后计算频数的基础上，考虑每个区间的实际频数｛ v _i ｝与理论频数｛ p _i ｝的差异做出判断。它使用的统计量

其中， N 为样本数据的容量， l 是分组数， p _i 根据原假设指定的分布求得。

（2）检验步骤

假设 x 的分布函数为 F （ x ），这时，相应的假设检验问题为

分两种情况进行统计假设检验。

①设 F ₀ （ x ）＝ F ₀ （ x , θ ₁ ， θ ₂ ，…， θ _k ）为已知类型的分布函数， θ ₁ ， θ ₂ ，…， θ _k 为参数（已知或部分已知）， x ₁ ， x ₂ ，…， x _N 为总体 X 的样本，把实轴（-∞，∞）分成 l 个不相交的区间：（ c _i ， c _i ＋1］（ i ＝1，2，…， l ）， c ₁ ＝-∞， c _l ＋1＝∞，其中（ c _l ， c _l ＋1］理解成（ c _l ，∞）。

理论频数记为

x 的样本｛ x ₁ ， x ₂ ，…， x _N ｝落在区间（ c _i ， c _i ＋1］的个数为 v _i （经验频数），根据式（2‐59）计算统计量。设 k 是原假设指定的分布类中的待估参数的个数，遵从自由度为 l - k -1的分布，应用检验法便可检验假设 H ₀ ： F （ x ）＝ F ₀ （ x ）是否可信。

若原假设成立，的值应比较小，所以当取大的值时是极端情形。

例如，原假设是正态分布，，此时 k＝ 2，统计学研究表明：当样本容量 N 充分大且原假设 H ₀ 为真时，统计量近似服从自由度为 l-k- 1的分布，即

给定显著水平 α ，设由样本观测值算得的值是。则当时，拒绝 H ₀ ；否则，接受 H ₀ 。

② F ₀ （ x ）的参数全部或一部分未知。设 F ₀ （ x ）有 l 个参数 θ _j 1， θ _j 2，…， θ _jl （ j ≤ k ）未知，可先用最大似然估计法定出这 l 个参数的估值，把这些估值就当做 F ₀ （ x ）的相应参数，于是类似①的情形可计算理论概率，再计算经验频数，那么按式（2‐59）计算统计量。当 N 很大时遵从自由度为 l - k -1的分布。