模式识别与智能计算：Matlab技术实现（第2版）最新章节_杨淑莹著

2.8 手写数字特征提取与分析

2.8.1 手写数字特征提取

本书以手写数字作为模式分类的实例，重点介绍模式识别理论与实现方法，说明各种算法是否有效。

对数字识别特征提取可以有多种方法，有的分析从框架的左边框到数字之间的距离变化，反映了不同数字的不同形状，这可以用来作为数字分类的依据，如图2-5所示；另外一种方法则在每个数字图形上定义一个N×N模板，将每个样品的长度和宽度N等分，平均有N×N个等份，对每一份内的像素个数进行统计，除以每一份的面积总数，即得特征初值。

如图2-6（a）所示。首先找到每个手写样品的起始位置，在此附近搜索该样品的宽度和高度，将每个样品的长度和宽度5等分，构成一个5×5均匀小区域；对于每一小区域内的黑像素个数进行统计，除以该小区域的面积总数，即得特征值，如图2-6（b）所示。当然读者可以根据需要进行修改，N值越大，模板也越大，特征越多，区分不同的物体能力越强，但同时计算量增加，运行等候的时间增长，所需要的样本库也成倍增加，一般样本库的个数为特征数的5～10倍，这里特征总数为5×5=25，每一种数字就需要至少125个标准样本，10个数字需要1250个标准样本，可想而知数目已经不少了。如果值过小，不利于不同物体间的区别。

图2-5 距离变化提取特征法

图2-6 5×5模板提取特征法

对于手写数字提取模板特征的好处是，针对同一形状、不同大小的样品得到的特征值相差不大。有能力对同一形状、不同大小的样品视为同类，因此这里要求物体至少在宽度和长度上大于5个像素，太小则无法正确分类。当然读者可以根据需要进行修改，值越大，模板也越大，特征越多，区分不同的物体能力越强，但同时计算量增加，运行等候的时间增长，所需样品库也要成倍增加。

在本书配套程序中，读者可以手写一个数字，然后应用不同的模式识别算法实现对数字的识别。识别过程如下。

（1）手写数字

在界面上手写一个数字，按“清除”键后可重新书写。

（2）手写数字的特征提取

① 搜索数据区，找出手写数字的上、下、左、右边界。

② 将数字区域平均分为5×5的小区域。

③ 计算5×5的每一个小区域中黑像素所占比例，第一行的5个比例值保存到特征的前5个，第二行对应着特征的6～10个，以此类推。

（3）建立训练集特征库

分类器的设计方法属于监督学习法。在监督学习过程中，为了能够对未知事物进行分类，必须输入一定数量的样本，构建训练集，而且这些样本的类别已知，提取这些样本的特征，构造分类器，然后对任何未知类别的模式识别。读者可以直接书写数字，单击“选择类本”下拉列表框，为手写的数字选择其对应的类别。单击“保存样本”按钮，根据提示，将样本保存到样本库的首位，如图2-7所示。

图2-7 保存样本示意图

（4）通过对话框查看样本库样本个数

单击“选择类别”下拉列表框，选择一个类别。然后单击“查看样本特征”按钮，可以在Matlab命令窗口中查看每个类别的样本特征值。

（5）分类识别

用分类器判别样品类型。

在分类程序中，样本库训练集的特征值是程序开发人员按照自己手写数字习惯来建立的，因此，会造成对读者手写的数字分类有误的情况。为了尽量避免此类情况发生，我们把每次添加的手写数字放在样本训练集的首位，读者可以尽量多写一些数字以使程序适应您的书写样式。

2.8.2 手写数字特征空间分布分析

在工程上的许多问题中，统计数据往往满足正态分布规律。正态分布简单，参量少，分析方便，是一种适宜的数学模型。

尽管不同的人手写数字形状有所区别，但在特征空间中对某一类的特征进行观察时，这些手写的数字较多地分布在这一类的均值附近，远离均值点较少，因此用正态分布作为这一类的概率模型是合理的。

要想了解手写数字特征空间分布情况，需要根据现有的训练样本集，对总体参数做点估计和区间估计，然后假设样本的总体分布函数，对总体分布函数进行统计假设检验。由于对手写数字提取了25维特征，为了简化分布分析过程，对手写数字特征空间水平投影降维为5维。在此基础上进行主成分分析，提取第一主成分分量作为有效特征，进行一维正态分布分析。

1.手写数字总体参数的估计

（1）总体参数的点估计

采用最大似然法对手写数字总体参数进行点估计。

由于假设手写数字特征分布遵从正态分布N（μ，σ ² ），但总体参数θ（μ，σ ² ）未知，对于正态总体的参数估计现在要用总体的N次观测值x ₁ ，x ₂ ，…，x _N ，求μ，σ ² 的最大似然估值。

一元总体的分布密度函数为

似然函数为

解方程组

得

容易检验μ，σ ² 确实使L（μ，σ）取到最大值，因此它们分别是μ，σ ² 的最大似然估值。

（2）估值好坏的判别标准

① 无偏性。如果参数θ的估值（x ₁ ，x ₂ ，…，x _N ）满足关系式

则称是θ的无偏估值。

② 有效性。如果 ^和都是参数θ的无偏估值

则称 ^比有效。进一步，如果固定样本的容量N，使D =极小值的无偏估值 ^就成为θ的有效估值。

③ 一致性。如果对任意给定的正数ε，总有

则称θ的估值是一致的。当

对某r≥0成立时，是θ的一致估值。

（3）总体参数的区间估计

在一次试验中，概率很小（接近于零）的事件认为是实际上不可能发生的事件；而概率接近于1的事件认为是实际上必然发生的事件。

对总体参数θ（μ，σ ² ）进行区间估计（即区间参数的取值范围）时，如果对于预先给定的很小的概率α，能找到一个区间（θ ₁ ，θ ₂ ），使得

P（θ ₁ ＜θ＜θ ₂ ）=1-α

那么称区间（θ ₁ ，θ ₂ ）为参数θ的置信区间，θ ₁ 和θ ₂ 称为置信限（或临界值）；θ≤θ ₁ 和θ≥θ ₂ 称为否定域；概率α称为显著性水平，1-α称为置信水平（或置信概率）。

假设总体遵从正态分布N（μ，σ ² ）。对于预先给定的显著性水平α，可用一个样本｛x ₁ ，x ₂ ，…，x _N ｝的均值和标准差s来估计总体的均值μ和方差σ ² 的置信区间，估计方法如表2-2所示。

表2-2（小样本）置信区间的估计方法

2.总体分布函数的 检验法

（1）检验法

检验法是基于对数据按其取值范围进行分组后计算频数的基础上，考虑每个区间的实际频数｛v _i ｝与理论频数｛p _i ｝的差异做出判断。它使用的统计量

其中，N为样本数据的容量，l是分组数，p _i 根据原假设指定的分布求得。

（2）检验步骤

假设x的分布函数为F（x），这时，相应的假设检验问题为

H ₀ ：F（x）≡F ₀ （x）↔H ₁ ：F（x）不是F ₀ （x）

分两种情况进行统计假设检验。

① 设F ₀ （x）=F ₀ （x，θ ₁ ，θ ₂ ，…，θ _k ）为已知类型的分布函数，θ ₁ ，θ ₂ ，…，θ _k 为参数（已知或部分已知），x ₁ ，x ₂ ，…，x _N 为总体X的样本，把实轴（-∞，∞）分成l个不相交的区间：（c _i ，c _i+1 ］（i=1，2，…，l），c ₁ =-∞，c _l+1 =∞，其中（c _l ，c _l+1 ］理解成（c _l ，∞）。

理论频数记为

p _i =F ₀ （c _i+1 ）-F ₀ （c _i ）=P（c _i ≤x≤c _i+1 ）

x的样本｛x ₁ ，x ₂ ，…，x _N ｝落在区间（c _i ，c _i+1 ］的个数为v _i （经验频数），根据式（2-59）计算统计量。设k是原假设指定的分布类中的待估参数的个数，遵从自由度为l-k-1的分布，应用检验法便可检验假设H ₀ ：F（x）=F ₀ （x）是否可信。

若原假设成立，的值应比较小，所以当取大的值时是极端情形。

例如，原假设是正态分布，F ₀ （x）= dt，此时k=2，统计学研究表明：当样本容量N充分大且原假设H ₀ 为真时，统计量近似服从自由度为l-k-1的分布，即

给定显著水平α，设由样本观测值算得的值是。则当＞（l-k-1）时，拒绝H ₀ ；否则，接受H ₀ 。

②F ₀ （x）的参数全部或一部分未知。设F ₀ （x）有l个参数θ _j1 ，θ _j2 ，…，θ _jl （j≤k）未知，可先用最大似然估计法定出这l个参数的估值，把这些估值就当做F ₀ （x）的相应参数，于是类似①的情形可计算理论概率，再计算经验频数，那么按式（2-59）计算统计量。当N很大时遵从自由度为l-k-1的分布。应用检验法便可检验假设：H ₀ ：F（x）=F ₀ （x）是否可行。