在工程上的许多问题中,统计数据往往满足正态分布规律。正态分布简单,参量少,分析方便,是一种适宜的数学模型。
尽管不同的人手写数字形状有所区别,但在特征空间中对某一类的特征进行观察时,这些手写的数字较多地分布在这一类的均值附近,远离均值点较少,因此用正态分布作为这一类的概率模型是合理的。
要想了解手写数字特征空间分布情况,需要根据现有的训练样本集,对总体参数做点估计和区间估计,然后假设样本的总体分布函数,对总体分布函数进行统计假设检验。由于对手写数字提取了25维特征,为了简化分布分析过程,对手写数字特征空间水平投影降维为5维。在此基础上进行主成分分析,提取第一主成分分量作为有效特征,进行一维正态分布分析。
(1)总体参数的点估计
采用最大似然法对手写数字总体参数进行点估计。
由于假设手写数字特征分布遵从正态分布 N ( μ , σ 2 ),但总体参数 θ ( μ , σ 2 )未知,对于正态总体的参数估计现在要用总体的 N 次观测值 x 1 , x 2 ,…, x N ,求 μ , σ 2 的最大似然估值。
一元总体的分布密度函数为
似然函数为
解方程组
得
容易检验 μ , σ 2 确实使 L ( μ , σ )取到最大值,因此它们分别是 μ , σ 2 的最大似然估值。
(2)估值好坏的判别标准
①无偏性。如果参数
θ
的估值
满足关系式
则称
是
θ
的无偏估值。
②有效性。如果
和
都是参数
θ
的无偏估值
则称
比
有效。进一步,如果固定样本的容量
N
,使
=极小值的无偏估值
就成为
θ
的有效估值。
③一致性。如果对任意给定的正数 ε ,总有
则称
θ
的估值
是一致的。当
对某
r
≥0成立时,
是
θ
的一致估值。
(3)总体参数的区间估计
在一次试验中,概率很小(接近于零)的事件认为是实际上不可能发生的事件;而概率接近于1的事件认为是实际上必然发生的事件。
对总体参数 θ ( μ , σ 2 )进行区间估计(即区间参数的取值范围)时,如果对于预先给定的很小的概率 α ,能找到一个区间( θ 1 , θ 2 ),使得
那么称区间( θ 1 , θ 2 )为参数 θ 的置信区间, θ 1 和 θ 2 称为置信限(或临界值); θ ≤ θ 1 和 θ ≥ θ 2 称为否定域;概率 α 称为显著性水平,1- α 称为置信水平(或置信概率)。
假设总体遵从正态分布 N ( μ , σ 2 )。对于预先给定的显著性水平 α ,可用一个样本{ x 1 , x 2 ,…, x N }的均值 x 和标准差 s 来估计总体的均值 μ 和方差 σ 2 的置信区间,估计方法如表2‐2所示。
表2‐2 (小样本)置信区间的估计方法
(1)
检验法
检验法是基于对数据按其取值范围进行分组后计算频数的基础上,考虑每个区间的实际频数{
v
i
}与理论频数{
p
i
}的差异做出判断。它使用的统计量
其中, N 为样本数据的容量, l 是分组数, p i 根据原假设指定的分布求得。
(2)检验步骤
假设 x 的分布函数为 F ( x ),这时,相应的假设检验问题为
分两种情况进行统计假设检验。
①设 F 0 ( x )= F 0 ( x , θ 1 , θ 2 ,…, θ k )为已知类型的分布函数, θ 1 , θ 2 ,…, θ k 为参数(已知或部分已知), x 1 , x 2 ,…, x N 为总体 X 的样本,把实轴(-∞,∞)分成 l 个不相交的区间:( c i , c i +1]( i =1,2,…, l ), c 1 =-∞, c l +1=∞,其中( c l , c l +1]理解成( c l ,∞)。
理论频数记为
x
的样本{
x
1
,
x
2
,…,
x
N
}落在区间(
c
i
,
c
i
+1]的个数为
v
i
(经验频数),根据式(2‐59)计算统计量
。设
k
是原假设指定的分布类中的待估参数的个数,遵从自由度为
l
-
k
-1的
分布,应用
检验法便可检验假设
H
0
:
F
(
x
)=
F
0
(
x
)是否可信。
若原假设成立,
的值应比较小,所以当
取大的值时是极端情形。
例如,原假设是正态分布,
,此时
k=
2,统计学研究表明:当样本容量
N
充分大且原假设
H
0
为真时,
统计量近似服从自由度为
l-k-
1的
分布,即
给定显著水平
α
,设由样本观测值算得的
值是
。则当
时,拒绝
H
0
;否则,接受
H
0
。
②
F
0
(
x
)的参数全部或一部分未知。设
F
0
(
x
)有
l
个参数
θ
j
1,
θ
j
2,…,
θ
jl
(
j
≤
k
)未知,可先用最大似然估计法定出这
l
个参数的估值,把这些估值就当做
F
0
(
x
)的相应参数,于是类似①的情形可计算理论概率,再计算经验频数,那么按式(2‐59)计算统计量。当
N
很大时遵从自由度为
l
-
k
-1的
分布。
应用
检验法便可检验假设:
H
0
:
F
(
x
)=
F
0
(
x
)是否可行。
由于对手写数字用模板法提取了25个特征,每种数字样本库总数约为130个,造成特征维数多,样品总数少的情况。为了分析样本的空间分布情况,采用行投影法将25个特征压缩为5个,进一步采用主成分分析法,取特征值最大的主分量作为每个样品的特征,进行正态分布检验,实现步骤如下。
①选取样本库中的某一类全体样本 X n×N 。
②对25个特征做行投影变换,压缩为5个特征。
③用主成分分析法选取特征第一主成分。
计算
X
的协方差矩阵
S
n×
n
。
计算
S
的特征值
λ
1
>
λ
2
>…>
λ
n
和相应特征向量
C
n×
n
。
计算样本库样本的第一个主分量
④输出特征分布直方图。
⑤正态分析检验。
数字0特征空间分布检验效果如图2‐8所示。
图2‐8 数字0特征空间分布检验效果图