对于样本的特征空间描述,主要分析特征的集中位置、分散程度、数据的分布为正态还是偏态等。对于多维数据,还要分析多维数据的各个分量之间的相关性等。
1.一维特征
一维样品的特征空间描述主要有下列几种。设N个观测值为x 1 ,x 2 ,…,x N ,其中N称为样本容量。
① 均值,即是x 1 ,x 2 ,…,x N 的平均数
② 方差,描述数据取值分散性的一个度量,它是数据相对于均值的偏差平方的平均值
③ 标准差,方差的开方称为标准差
偏度与峰度是刻画数据的偏态、尾重程度的度量,它们与数据的矩有关。数据的矩分为原点矩与中心矩。
④ k阶原点矩为
⑤ k阶中心矩为
⑥ 偏度的计算公式为
其中s是标准差。偏度是刻画数据对称性的指标。关于均值对称的数据其偏度为0,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负,如图2-4所示。
图2-4 偏度示意图
⑦ 峰度的计算公式为
当数据的总体分布为正态分布时,峰度近似为0;当分布较正态分布的尾部更分散时,峰度为正,否则峰度为负。当峰度为正时,两侧极端数据较多;当峰度为负时,两侧极端数据较少。
2.二维特征
设(X,Y) T 是二维总体,从中取得的观测数据(x 1 ,y 1 ) T ,(x 2 ,y 2 ) T ,…,(x N ,y N ) T 。引进数据观测矩阵
① 二维观测数据的均值向量
②变量X的观测数据的方差s xx ,变量Y的观测数据的方差s yy 及变量X,Y的观测数据的协方差s xy
③ 观测数据的协方差矩阵
注意:总有s xy =s yx ,即协方差矩阵为对称矩阵。
由Schwarz不等式
所以s总是非负定的,一般是正定的。
④ 观测数据的相关系数:
由Schwarz不等式,有|r xy |≤1,即总有-1≤r xy ≤1。
例如,有10名学生,其中5名男生,5名女生。对每名学生取身高、体重两项指标作为特征,测得的数据如表2-1所示。
表2-1 学生数据
10个样品的均值为
男生和女生样品点的均值为
特征x 1 对于全体样品的方差为
特征x 2 对于全体样品的方差为
特征x 1 对于男生和女生样品的方差为
特征x 2 对于男生和女生样品的方差为
全体样品点中特征x
1
与x
1
的协方差s
11
即
;x
1
与x
2
的协方差为
全体样品点中特征x
2
与x
2
的协方差s
22
即
;在男生和女生样品点中分别有
则对于全体样品点x 1 和x 2 的相关系数为
特征x 1 和x 2 对于男生和女生的相关系数为
3.多维特征
设(X (1) ,X (2) ,…,X (n) )是n维总体,从中取得样品数据
(x 11 ,x 12 ,…,x 1n ) T
(x 21 ,x 22 ,…,x 2n ) T
…
(x N1 ,x N2 ,…,x Nn ) T
第i个观测数据记为
X i =(x i1 ,x i2 ,…,x in ) T i=1,2,…,N
称为样品。引进样品数据观测矩阵
它是N×n矩阵,它的N个行即是N个样品X
1
,X
2
,…,X
N
,它们组成来自n维总体(X
(1)
,X
(2)
,…,X
(n)
)的样品。观测矩阵
的n个列分别是n个变量X
(1)
,X
(2)
,…,X
(n)
在N次试验中所取的值。记为
(1)样品统计参数
定义
是n维样本数据的均值向量。
① 第j行X (j) 的均值
② 第j行X (j) 的方差
③ X (j) ,X (k) 的协方差
X (j) 与自身的协方差即X (j) 的方差
称
是样品观测数据的协方差矩阵。有
均值向量
与协方差矩阵S是n维观测数据的重要数字特征。
表示n维观测数据的集中位置,而协方差矩阵S的对角线元素分别是各个变量观测值的方差,而非对角线元素是变量观测值之间的协方差。
④ X (j) ,X (k) 的相关系数
r jk 是无量纲的量,总有r jj =1,|r jk |≤1。
称
是观测数据的相关矩阵。相关矩阵R是n维观测数据的最重要的数字特征,它刻画了变量之间线性联系的密切程度。
(2)总体参数
设(X (1) ,X (2) ,…,X (n) )是n维总体,其总体分布函数是F(x 1 ,x 2 ,…,x n )=F(X),其中X=(x 1 ,x 2 ,…,x n ) T 。在连续型总体时,总体存在概率密度f(x 1 ,x 2 ,…,x n )=f(X)。
① 总体均值向量:令μ i =E(X (i) ),i=1,2,…,n,则
② 总体协方差矩阵
∑=Cov(X)=E[(X-μ)(X-μ)
T
]=
=(σ
jk
)
n×n
(2-46)其中σ
jk
=Cov(X
(j)
,X
(k)
)=E[(X
(j)
-μ
j
)(X
(k)
-μ
k
)
T
]。特别地,当 j=k时,σ
jj
=
=Var(X
(j)
)。
③ 总体的分量X (j) ,X (k) 的相关系数
④ 总体的相关矩阵
总有ρ jj =1,|ρ jk |≤1。
1.分布密度函数
设观测数据是由总体X中取出的样本,总体的分布函数是F(X)。当X为离散分布时,总体的分布可由概率分布刻画
p i =P{X=X i } i=1,2,…
总体为连续分布时,总体的分布可由概率密度f(X)刻画。几种常用一维连续总体分布的概率密度如下。
正态分布
对数正态分布
指数分布
Γ分布(Gamma分布)
2.多维正态分布的性质
在进行模式识别方法的研究时,常用正态分布概率模型来抽取所需要的训练样本集和测试样本集,在数学上实现起来比较方便。
若n维总体X=(X (1) ,X (2) ,…,X (n) ) T 具有概率密度
则称n维总体服从n维正态分布。记为N n (μ,∑)。记X=(X (1) ,X (2) ,…,X (n) ),则可证,n维随机向量X的均值向量为μ,协方差矩阵为∑。多维正态分布的性质有以下几点。
(1)参数μ和∑对分布的决定性
多元正态分布被均值向量μ和协方差矩阵∑所完全确定。由μ=E(X)和∑=E[(X-μ)(X-μ) T ]可见,均值向量μ由n个分量组成,协方差矩阵∑由于其对称性故其独立元素只有n(n+1)/2个,所以,多元正态分布由n+n(n+1)/2个参数所完全确定。
(2)不相关性等价于独立性
在数理统计中,一般来说,若两个随机变量x i 和x j 之间不相关,并不意味着它们之间一定独立。下面给出不相关与独立的定义。
若E{x i x j }=E{x i }E{x j },则定义随机变量x i 和x j 是不相关的。
若p(x i x j )=p(x i )p(x j ),则定义随机变量x i 和x j 是独立的。
从它们的定义中可以看出,独立性是比不相关性更强的条件,独立性要求 p(x i x j )=p(x i )p(x j )对于x i 和x j 都成立,而不相关性说的是两个随机变量的积的期望等于两个随机变量的期望的积,它反映了x i 和x j 总体的性质。若x i 和x j 相互独立,则它们之间一定不相关;反之则不一定成立。
对多维正态分布的任意两个分量x i 和x j 而言,若x i 和x j 互不相关,则它们之间一定独立。这就是说,在正态分布中不相关性等价于独立性。
(3)边缘分布和条件分布的正态性
多维正态分布的边缘分布和条件分布仍然是正态分布。
(4)线性变换的正态性
设X~N n (μ,∑),又Y=AX+b,其中b是n维常向量,A是l×n矩阵,rank(A)=l,则
Y~N l (Aμ+b,A∑A T )
即Y服从以Aμ+b为均值,以A∑A T 为协方差矩阵的l维正态分布。
3.多维正态分布总体参数的估计
在实际中,多维正态分布N(μ,∑)的参数μ和∑常常是未知的,需要通过样本来估计。
记X
1
,X
2
,…,X
N
是从总体X中取出的一个样本,设总体的分布是连续型的,分布密度函数为p(X,θ
1
,θ
2
,…,θ
k
),其中θ
1
,θ
2
,…,θ
k
是待估计的未知参数,对于给定的X
1
,X
2
,…,X
N
,使函数
p(X
i
,θ
1
,θ
2
,…,θ
k
)达到最大值的θ
1
,θ
2
,…,θ
k
,应用它们分别作为θ
1
,θ
2
,…,θ
k
的估值。由于
(X
i
,θ
1
,θ
2
,…,θ
k
)与
(X
i
,θ
1
,θ
2
,…,θ
k
)在同一点θ
1
,θ
2
,…,θ
k
上达到最大值,因此,引入函数
它称为似然函数,只要解方程组
就可以从中确定所要求的θ 1 ,θ 2 ,…,θ k ,它们分别称为参数θ 1 ,θ 2 ,…,θ k 的最大似然估值。如果总体的分布是离散型的,只要把上述似然函数中的p(x i ,θ 1 ,θ 2 ,…,θ k )取为P(X=X i )就可以了。具体实现步骤如下。
① 设X 1 ,X 2 ,…,X N 是来自总体N n (μ,∑)的简单随机样本,则X 1 ,X 2 ,…,X N 的联合概率密度是μ,∑的函数。
② 构造似然函数:
注意:当得到样本观测值X 1 ,X 2 ,…,X N 后,L(μ,∑)是X 1 ,X 2 ,…,X N 的函数。
③ 对总体μ和∑的最大似然估计。在统计学中,μ,∑是未知的,需要由样本观测值X 1 ,X 2 ,…,X N 估计。若μ,∑作为X (1) ,X (2) ,…,X (n) 的函数
∑=∑(X (1) ,X (2) ,…,X (n) )
满足
,则
,
称为μ,∑的最大似然估计。
对任意N元总体,均值向量
、协方差矩阵S是总体均值向量μ、总体协方差矩阵∑的估计。而对N元正态总体,∑的最大似然估计为
当N较大时,
≈S。因S是∑的无偏估计,通常仍以S作为∑的估计。
本书以手写数字作为模式分类的实例,重点介绍模式识别理论与实现方法,说明各种算法是否有效。
对数字识别特征提取可以有多种方法,有的分析从框架的左边框到数字之间的距离变化,反映了不同数字的不同形状,这可以用来作为数字分类的依据,如图2-5所示;另外一种方法则在每个数字图形上定义一个N×N模板,将每个样品的长度和宽度N等分,平均有N×N个等份,对每一份内的像素个数进行统计,除以每一份的面积总数,即得特征初值。
如图2-6(a)所示。首先找到每个手写样品的起始位置,在此附近搜索该样品的宽度和高度,将每个样品的长度和宽度5等分,构成一个5×5均匀小区域;对于每一小区域内的黑像素个数进行统计,除以该小区域的面积总数,即得特征值,如图2-6(b)所示。当然读者可以根据需要进行修改,N值越大,模板也越大,特征越多,区分不同的物体能力越强,但同时计算量增加,运行等候的时间增长,所需要的样本库也成倍增加,一般样本库的个数为特征数的5~10倍,这里特征总数为5×5=25,每一种数字就需要至少125个标准样本,10个数字需要1250个标准样本,可想而知数目已经不少了。如果值过小,不利于不同物体间的区别。
图2-5 距离变化提取特征法
图2-6 5×5模板提取特征法
对于手写数字提取模板特征的好处是,针对同一形状、不同大小的样品得到的特征值相差不大。有能力对同一形状、不同大小的样品视为同类,因此这里要求物体至少在宽度和长度上大于5个像素,太小则无法正确分类。当然读者可以根据需要进行修改,值越大,模板也越大,特征越多,区分不同的物体能力越强,但同时计算量增加,运行等候的时间增长,所需样品库也要成倍增加。
在本书配套程序中,读者可以手写一个数字,然后应用不同的模式识别算法实现对数字的识别。识别过程如下。
(1)手写数字
在界面上手写一个数字,按“清除”键后可重新书写。
(2)手写数字的特征提取
① 搜索数据区,找出手写数字的上、下、左、右边界。
② 将数字区域平均分为5×5的小区域。
③ 计算5×5的每一个小区域中黑像素所占比例,第一行的5个比例值保存到特征的前5个,第二行对应着特征的6~10个,以此类推。
(3)建立训练集特征库
分类器的设计方法属于监督学习法。在监督学习过程中,为了能够对未知事物进行分类,必须输入一定数量的样本,构建训练集,而且这些样本的类别已知,提取这些样本的特征,构造分类器,然后对任何未知类别的模式识别。读者可以直接书写数字,单击“选择类本”下拉列表框,为手写的数字选择其对应的类别。单击“保存样本”按钮,根据提示,将样本保存到样本库的首位,如图2-7所示。
图2-7 保存样本示意图
(4)通过对话框查看样本库样本个数
单击“选择类别”下拉列表框,选择一个类别。然后单击“查看样本特征”按钮,可以在Matlab命令窗口中查看每个类别的样本特征值。
(5)分类识别
用分类器判别样品类型。
在分类程序中,样本库训练集的特征值是程序开发人员按照自己手写数字习惯来建立的,因此,会造成对读者手写的数字分类有误的情况。为了尽量避免此类情况发生,我们把每次添加的手写数字放在样本训练集的首位,读者可以尽量多写一些数字以使程序适应您的书写样式。
在工程上的许多问题中,统计数据往往满足正态分布规律。正态分布简单,参量少,分析方便,是一种适宜的数学模型。
尽管不同的人手写数字形状有所区别,但在特征空间中对某一类的特征进行观察时,这些手写的数字较多地分布在这一类的均值附近,远离均值点较少,因此用正态分布作为这一类的概率模型是合理的。
要想了解手写数字特征空间分布情况,需要根据现有的训练样本集,对总体参数做点估计和区间估计,然后假设样本的总体分布函数,对总体分布函数进行统计假设检验。由于对手写数字提取了25维特征,为了简化分布分析过程,对手写数字特征空间水平投影降维为5维。在此基础上进行主成分分析,提取第一主成分分量作为有效特征,进行一维正态分布分析。
1.手写数字总体参数的估计
(1)总体参数的点估计
采用最大似然法对手写数字总体参数进行点估计。
由于假设手写数字特征分布遵从正态分布N(μ,σ 2 ),但总体参数θ(μ,σ 2 )未知,对于正态总体的参数估计现在要用总体的N次观测值x 1 ,x 2 ,…,x N ,求μ,σ 2 的最大似然估值。
一元总体的分布密度函数为
似然函数为
解方程组
得
容易检验μ,σ 2 确实使L(μ,σ)取到最大值,因此它们分别是μ,σ 2 的最大似然估值。
(2)估值好坏的判别标准
① 无偏性。如果参数θ的估值
(x
1
,x
2
,…,x
N
)满足关系式
则称
是θ的无偏估值。
② 有效性。如果
^和
都是参数θ的无偏估值
则称
^比
有效。进一步,如果固定样本的容量N,使D
=极小值的无偏估值
^就成为θ的有效估值。
③ 一致性。如果对任意给定的正数ε,总有
则称θ的估值
是一致的。当
对某r≥0成立时,
是θ的一致估值。
(3)总体参数的区间估计
在一次试验中,概率很小(接近于零)的事件认为是实际上不可能发生的事件;而概率接近于1的事件认为是实际上必然发生的事件。
对总体参数θ(μ,σ 2 )进行区间估计(即区间参数的取值范围)时,如果对于预先给定的很小的概率α,能找到一个区间(θ 1 ,θ 2 ),使得
P(θ 1 <θ<θ 2 )=1-α
那么称区间(θ 1 ,θ 2 )为参数θ的置信区间,θ 1 和θ 2 称为置信限(或临界值);θ≤θ 1 和θ≥θ 2 称为否定域;概率α称为显著性水平,1-α称为置信水平(或置信概率)。
假设总体遵从正态分布N(μ,σ
2
)。对于预先给定的显著性水平α,可用一个样本{x
1
,x
2
,…,x
N
}的均值
和标准差s来估计总体的均值μ和方差σ
2
的置信区间,估计方法如表2-2所示。
表2-2(小样本)置信区间的估计方法
2.总体分布函数的
检验法
(1)
检验法
检验法是基于对数据按其取值范围进行分组后计算频数的基础上,考虑每个区间的实际频数{v
i
}与理论频数{p
i
}的差异做出判断。它使用的统计量
其中,N为样本数据的容量,l是分组数,p i 根据原假设指定的分布求得。
(2)检验步骤
假设x的分布函数为F(x),这时,相应的假设检验问题为
H 0 :F(x)≡F 0 (x)↔H 1 :F(x)不是F 0 (x)
分两种情况进行统计假设检验。
① 设F 0 (x)=F 0 (x,θ 1 ,θ 2 ,…,θ k )为已知类型的分布函数,θ 1 ,θ 2 ,…,θ k 为参数(已知或部分已知),x 1 ,x 2 ,…,x N 为总体X的样本,把实轴(-∞,∞)分成l个不相交的区间:(c i ,c i+1 ](i=1,2,…,l),c 1 =-∞,c l+1 =∞,其中(c l ,c l+1 ]理解成(c l ,∞)。
理论频数记为
p i =F 0 (c i+1 )-F 0 (c i )=P(c i ≤x≤c i+1 )
x的样本{x
1
,x
2
,…,x
N
}落在区间(c
i
,c
i+1
]的个数为v
i
(经验频数),根据式(2-59)计算统计量
。设k是原假设指定的分布类中的待估参数的个数,遵从自由度为l-k-1的
分布,应用
检验法便可检验假设H
0
:F(x)=F
0
(x)是否可信。
若原假设成立,
的值应比较小,所以当
取大的值时是极端情形。
例如,原假设是正态分布,F
0
(x)=
dt,此时k=2,统计学研究表明:当样本容量N充分大且原假设H
0
为真时,
统计量近似服从自由度为l-k-1的
分布,即
给定显著水平α,设由样本观测值算得的
值是
。则当
>
(l-k-1)时,拒绝H
0
;否则,接受H
0
。
②F
0
(x)的参数全部或一部分未知。设F
0
(x)有l个参数θ
j1
,θ
j2
,…,θ
jl
(j≤k)未知,可先用最大似然估计法定出这l个参数的估值,把这些估值就当做F
0
(x)的相应参数,于是类似①的情形可计算理论概率,再计算经验频数,那么按式(2-59)计算统计量。当N很大时遵从自由度为l-k-1的
分布。应用
检验法便可检验假设:H
0
:F(x)=F
0
(x)是否可行。
3.手写数字特征空间分布分析
由于对手写数字用模板法提取了25个特征,每种数字样本库总数约为130个,造成特征维数多,样品总数少的情况。为了分析样本的空间分布情况,采用行投影法将25个特征压缩为5个,进一步采用主成分分析法,取特征值最大的主分量作为每个样品的特征,进行正态分布检验,实现步骤如下。
① 选取样本库中的某一类全体样本X n×N 。
② 对25个特征做行投影变换,压缩为5个特征。
③ 用主成分分析法选取特征第一主成分。
计算X的协方差矩阵S
n×n
。
计算S的特征值λ
1
>λ
2
>…>λ
n
和相应特征向量C
n×n
。
计算样本库样本的第一个主分量
X
n×N
。
④ 输出特征分布直方图。
⑤ 正态分析检验。
4.编程代码
5.效果图
数字0特征空间分布检验效果如图2-8所示。
图2-8 数字0特征空间分布检验效果图