所谓估计问题,就是从带有随机干扰的观测数据中,观测提取出有用信息。例如,传感器的测量模型可以写作:
(2.2.1)
式中: 表示观通导航器材测量的量或测量的函数; 表示有用信号,一般是目标位置、速度、加速度或目标状态的函数; 表示观通导航器材的测量误差。
如果要从 中把 分离出来,进而得到目标位置、速度、加速度或目标状态等待定参数。这就是一个典型的估计问题。在数学上,估计问题的描述如下:
假设被估计量是一个 n 维向量 ,而 m 维向量 是其观测输出向量,并且存在如下关系:
(2.2.2)
式中: 是状态向量 、 和时间 m 维已知向量函数,由观测方法确定; 是 n 维状态向量; 是 m 维观测误差向量。
所谓估计问题就是在时间区间 内对 进行观测,得到观测数据序列 ,要求根据一定准则,构造基于观测数据 的函数 的问题,并且称 是 的估计量。
根据被估计量的变化与否,估计问题大致分为两类:状态估计和参数估计。状态和参数的基本差别在于状态是随时间变化的,而参数是保持不变或变化非常缓慢的。也就是说,状态估计是动态估计,而参数估计一般是静态估计。但是动态估计与静态估计是有联系的,将静态估计方法和动态随机过程或序列的内部规律结合起来,就可以得到动态估计方法。
构建的估计量并不唯一。它根据估计准则的不同而不同。一般有如下估计准则:最小均方估计(或最小方差估计)、极大验后估计、极大似然估计、线性最小均方估计和最小二乘估计等,由此形成了不同的估计方法。如何评价这些不同方法的估计值?可以用估计值的统计特性来衡量。
估计值的统计特性可以看作是对根据估计准则构建出估计量的基本要求,主要包括无偏性、一致性和最优性。
1.无偏性
估计值依赖于观测结果,因此取几组新的观测值,估计值就要改变。因为估计量的本身是随机变量,所以也有均值与方差,显然,对重复测量所希望的状态是估计值应集中在真值附近,即
(2.2.3)
无偏性是用来衡量估计值是否围绕真值波动的,它是估计值的一个重要统计特性。
2.一致性
所谓估计值的一致性是指:如果根据无穷多的输入、输出信息( ),所得到的估计 无限趋近于真值 ,则称 是 的一致估计。如果估计值具有一致性,说明当样本无限增大时,它将以概率1收敛于真值。
定义2-1: 如果采用误差
(2.2.4)
的平方的统计平均值的大小作为性能指标,则一致性可以定义为:如果
(2.2.5)
或
(2.2.6)
定义2-2: 当观测数目增加时,我们希望估计量的密度函数在待估计参量附近越来越变成峰值(方差减少),用数学式来表示为
(2.2.7)
式中: , 表示由 n 个样本得到的 估计值。凡是满足式(2.2.7)的估计量就称为一致估计量。
3.有效性
我们希望所用的估计量 是所有估计量中方差最小的,也就是说平均估计误差最小。如果还有别的估计量 ,那么一定有
(2.2.8)
满足式(2.2.8)的估计量称为 的有效估计量。
4.Cramer-Rao下界
在参数估计理论中,克拉美-罗(Cramer-Rao)下界是统计数学中最重要的定理之一,它给出了一个估计量能达到的最好结果,这个定理的意义在于,如果要估计某个参数,并已决定利用某种估计方法,该方法构建的估计量已经达到了克拉美-罗下界,那么就没有必要去寻求其他估计方法构建的估计量了。
克拉美-罗定理 如果以 为参量的似然函数 估计量 的数学期望为 ,那么 的方差为
(2.2.9)
特别是当 是无偏估计时, ,则上式简化为
(2.2.10)
以上两式的右边称为克拉美-罗下界,它指出了估计量所能达到的最好精度。
证明: 似然函数也是概率密度函数,所以
(2.2.11)
把它看作 的函数,两边对 求微商,得到
(2.2.12)
亦即
(2.2.13)
因为数学期望是相对于变量 的,所以对 的任意函数 ,有
(2.2.14)
由假定
(2.2.15)
对 求微商得到
(2.2.16)
因为 的数学期望为零,所以有
(2.2.17)
利用许瓦茨不等式,有
(2.2.18)
于是得到
(2.2.19)
如果我们利用
(2.2.20)
则有
(2.2.21)
对于无偏估计,则有
(2.2.22)
令 为依据量测 对 所求得的某种估计,称为估计量,它是一个与 同维数的向量函数,其自变量为向量 。记这个估计的误差为
(2.2.23)
误差 是一个与 同维数的随机向量;由于各种随机因素的影响,在同样的测量条件下,每次所得的估计误差不可能都相同。所以要衡量一个估计量的优劣,应当研究这个估计误差的整个统计规律。显然,误差 越小越好。按照统计规律为:用同样的估计方法,不管对 重复多少次测量,由每次测量所得的估计误差,大部分应当密集在零附近,那么可以认为这一估计方法是好的。根据数学知识,估计误差 的二阶原点矩 (称为均方误差阵)正是表示误差分布在零附近密集的程度。
最小均方估计正是追求使估计的均方误差阵达到最小,因此这种估计方法也被称为最小方差估计。在这种意义下的最优估计问题可以描述如下:
已知被估计量 ,其先验概率密度函数为 ,观测量 的概率密度函数为 的联合概率密度为 ,在上述已知条件下,构建一估计量 ,使得估计误差 的均方差极小。用数学式表达即:
(2.2.24)
这是求极值问题,按照均值的定义,在已知上述概率密度分布的条件下,根据贝叶斯公式,可以求出目标函数的极值解。下面给出详细求解过程:
由贝叶斯公式有
(2.2.25)
因此,对于某一估计量 ,其均方误差矩阵 可以表示为
(2.2.26)
式(2.2.26)对任何估计量 都成立。目标是选一个估计量 ,使得式(2.2.26)达到极小。注意到式(2.2.26)所表示的是一个非负对称矩阵。因此,所谓“ 使式(2.2.26)达到极小”就是意味着,如果把 换成 的另外任何一个向量函数时,式(2.2.26)所表示的对称阵一定会增大。由式(2.2.26)中最后的式子容易看出,只需对 求下式的极小即可:
(2.2.27)
下面我们来证明,使式(2.2.14)达到极小的 ,就是在给定条件 时, 的条件均值,即
(2.2.28)
证明:
设 是 的任一向量函数,则从式(2.2.4)出发,可以推出如下的关系式:
(2.2.29)
因为
(2.2.30)
(2.2.31)
所以式(2.2.29)化简为
(2.2.32)
由于 总是一个非负定阵,所以式(2.2.32)得到如下的不等式:
(2.2.33)
且式(2.2.33)取等号的充分必要条件是 。式(2.2.28)得证。
从上述推导过程可知:对于任意两个随机变量 和 ,无论它们之间的函数关系是否已知,只要已知其各自的概率分布密度函数 和 及联合概率密度函数 ,在最小方差估计的准则下,所构建的估计量就是其条件均值(或期望)。这一结论具有重要意义,也称这种估计方法为最优估计。即在方差最小意义下,对任意随机被估计量的最优估计是其条件均值 。
1.无偏性证明
由式(2.2.15)可得
(2.2.34)
即估计量 的均值等于被估计量 的均值。因此,最小均方估计是无偏估计。
2.最小方差阵
由式(2.2.26)和式(2.2.28)知道
(2.2.35)
由于式(2.2.28)成立,有时又称 为 的条件均值估计。
最小均方估计是一种最优估计,但过于理想化,因为通常是很难获得条件均值 的。如前所述,需要知道两个随机变量 和 的先验概率分布 和 以及联合概率分布函数 ,这在实际情况中难以满足。
下面介绍两种对已知条件有所放宽的估计方法,即极大验后估计和极大似然估计。
最小均方估计是以均方差阵达到极小作为最优准则的。假设调整最优准则,比如把验后概率极大或者似然概率极大作为最优准则,就会得到新的最优估计方法。在学习这些方法之前,先回顾验后概率和似然概率的概念。
如果被估计量 是随机量,其对应的观测量为 (也称实验结果),其验后概率为 的条件概率,记为 。相应地,其似然概率为观测量 的条件概率 。
所谓最大验后估计就是以验后概率 极大为准则,而最大似然估计则是以似然概率 极大为准则。分别记作 和 ,简写为 和 。下面推导估计量 和 的表达式。
对于极大验后估计,其极值函数为
(2.2.36)
的值是已知试验结果(量测结果) 的条件下,使 的条件概率密度(验后概率密度) 达到极大的那个 的值。这在直观上也很清楚,因为能使一个概率密度达到极大的那个值,就是其相应的随机变量的最大可能值,即随机变量落在这个可能值的小邻域内的概率大于落在其他任何值的同样邻域内的概率。
由于对数函数是单调增加函数,所以 与 在相同的 值能达到极大,极值函数可以调整为
(2.2.37)
故由微分知道, 应满足下列方程
(2.2.38)
方程 称为验后方程。解此方程即可得到极大验后估计 。
与之类似,极大似然估计 的值是使条件概率密度 (也叫似然函数)取得极大的那个 的值。同上论述, 应满足方程
(2.2.39)
方程 称为似然方程。解此方程即可得到极大似然估计 。
下面来考查极大验后估计与极大似然估计的关系。由贝叶斯公式,验后概率密度和似然函数之间的关系为:
(2.2.40)
两边取对数,然后对 求微商(注意 与 无关),置其为零,即得 应满足的方程:
(2.2.41)
假定关于随机向量 没有任何验前知识,也就是说,在未观测之前,只能认为 取任何值的概率都相等。这时可以把 的验前概率密度 近似地看作方差阵趋于无穷的正态分布密度:
(2.2.42)
式中: , 。于是有
(2.2.43)
所以
(2.2.44)
所以当 时, 。因此由式(2.2.41)知道,在这一特殊情形下,极大验后估计应满足的方程变为
(2.2.45)
与式(2.2.38)比较,可见在 没有验前知识的情况下,极大验后估计与极大似然估计是相同的。在一般情形下,由于极大验后估计考虑了关于 的验前信息,所以极大验后估计可以改善极大似然估计。但是在应用中,有时采用极大似然估计。这是因为计算似然函数比计算验后概率密度来得简单,而且要定出一个合理的 的验前分布,往往是很困难的。
之前的三种估计方法,最小方差估计需要知道两个随机变量 和 的先验概率分布 和 以及联合概率分布函数 ;极大验后估计需要知道 ;极大似然估计需要知道 ,这些前提条件,在实际情况中往往难以满足,在计算求解过程中难以实现。本节我们放松对概率密度知识的要求,只要求知道量测和被估计量的一、二阶矩,即 、 、 、 、 。在这种情形下求估计量时,就需要对估计量的函数形式加以限制,才能得到有用的结果。我们限定所求的估计量必是量测的线性函数,而不像前节所考虑的估计量可以是量测的任意函数,这时只能以估计的均方误差达到极小作为最优准则,因为其他的最优准则都牵涉概率密度。这样得出的估计称为线性最小方差估计,或最优线性估计,并用 或 来记它。
所谓线性估计,就是限定估计量是量测 的线性函数,即指如下形式的估计量:
(2.2.46)
式中: 是与被估计量同维数的非随机向量; 是其行数等于被估计量 的维数、列数等于量测 的维数的非随机矩阵。对于这种估计,它的均方误差阵为
(2.2.47)
上式对任意的线性估计式(2.2.46)都是成立的,因此其极值目标函数为
(2.2.48)
向量 和矩阵 使式(2.2.48)达到极小,并把这样选取的 、 记 、 ,于是估计量
(2.2.49)
就是 的线性最小方差估计。为了求 、 ,令
(2.2.50)
则式(2.2.46)可改写成
(2.2.51)
注意到式(2.2.51)中右边的头两项都是非负定矩阵,而第三项与 、 无关;显然,为了使式(2.2.51)达到极小,唯一的解就是选取 、 ,使右边的头两项变成零矩阵,即
(2.2.52)
(2.2.53)
将式(2.2.52)、式(2.2.53)代入式(2.2.50)得
(2.2.54)
再将式(2.2.53)、式(2.2.54)代入式(2.2.49),即得线性最小方差估计:
(2.2.55)
由式(2.2.51)还可求得此估计的均方误差阵为
(2.2.56)
这里所用的求式(2.2.48)的极小值的方法,称为配平方法。
下面讨论估计值 的性质。
首先,由式(2.2.55)得
(2.2.57)
所以 是 的无偏估计。这时,估计误差 的均值为零向量,所以均方误差就是估计误差的方差,因此今后也把均方误差阵 称为误差的方差阵。其次,仍由式(2.2.55)知,估计误差可以表示成
(2.2.58)
由此推得
(2.2.59)
从式(2.2.59)知道,随机向量 是不相关的。借助于几何的语言,我们把不相关性视为正交性,于是可以把式(2.2.59)的性质称为 与 垂直(正交)。 与 本来不正交,但从 减去一个由 线性函数构成的随机向量 后,即与 正交。因此可以说, 是 在 上(或由 的分量所张成的线性空间上)的投影。从几何的观点把线性最小方差估计看作被估计量在量测向量(空间)上的投影,这在滤波理论中是很有用的。
现在,如果设被估计的向量 和量测向量 有联合正态概率密度,那么我们知道,在给定 的条件下, 的条件均值和条件方差为:
(2.2.60)
(2.2.61)
对于 的最小方程估计 ,有
(2.2.62)
把这些等式与式(2.2.55)、式(2.2.56)比较,可以得到一个很重要的结论:对于被估计量 与量测 为联合正态分布的情形, 的最小方差估计等于它的线性最小方差估计,即 ;而其误差方差阵即 在 给定的条件下的条件方差阵。也可以说, 在 给定的条件下的条件均值等于 在 上的投影。需要强调的是,这个结论只是在正态假设下才成立,在一般情形下则不成立。
线性最小均方估计把必须知道各随机向量的概率分布这一要求加以放松,而只假定知道它们的一阶及二阶矩。如果再进一步放松关于统计性质的要求,不假设任何统计性,则在线性量测的条件下,仍然可以用一个古老的办法来求 的估计,这就是高斯所提出的最小二乘估计。
高斯使用的最小二乘法发表于1809年他的著作《天体运动论》中,而法国科学家勒让德于1806年独立发现“最小二乘法”,但因不为世人所知而默默无闻。两人曾为谁最早创立最小二乘法原理而发生争执。现在,人们通常将最小二乘估计法归功于高斯,但最小二乘估计法是由勒让德首先发表的。
1.线性最小二乘估计
为了估计未知标量 ,我们对它进行 次线性测量 ( ),其中 是已知标量。由于测量有误差,所以实际测量的值为:
(2.2.63)
这里 表示第 次量测得误差。最小二乘准则,就是希望所求的估计 与其相应的估计值 之间的误差的平方和达到极小。记这个误差平方和为
(2.2.64)
使 达到极小的那个 的值就称为 的最小二乘估计,记作 或 。
如果令
(2.2.65)
则可以把式(2.2.47)和式(2.2.48)分别表示为更简单的形式:
(2.2.66)
(2.2.67)
求 的极小值,采用微分法。由矩阵微分公式,有
(2.2.68)
令其等于零,即解得
(2.2.69)
可见最小二乘估计是一种线性估计。
2.加权最小二乘估计
设量测向量 与被估计向量 之间有如下的线性关系
(2.2.70)
式中: 是一个行数等于量测维数、列数等于被估计量维数的已知矩阵, 是量测误差向量。我们把上面引进的准则稍加推广,一般可考虑极小化二次型
(2.2.71)
式中: 是一个适当选取的对称正定的加权阵。如果取 ,那么 就变成原来的误差平方和 。使 达到极小的那个 ,称为 的加权最小二乘估计,仍记作 或 。
同样采用微分法求 的极小值。由矩阵微分公式,容易算出
(2.2.72)
令其等于零,即解得
(2.2.73)
可见加权最小二乘估计也是一种线性估计。
3.性质及证明
当系统测量噪声 V 的均值为0,方差为 R 时,有以下性质。
性质2-1: 最小二乘估计即无偏估计。
(2.2.74)
因此
(2.2.75)
则 是无偏估计。
类似地,可以证明加权最小二乘估计值 也是无偏估计。
性质2-2: 最小二乘估记的方差为:
(2.2.76)
加权最小二乘估计的方差为:
(2.2.77)
如果选取加权阵 ,则式(2.3.37)和式(2.3.40)分别变为
(2.2.78)
(2.2.79)
可以证明, 是使误差方差阵式(2.2.77)达到极小的加权阵。这就是说,如果我们对量测误差已经获得一些统计知识,即 , ,则采用最小二乘估计时,加权阵 取 所得的估计误差的方差阵最小。由于这个事实,有时特别把加权阵 取 的加权最小二乘估计式(2.2.78),称为马尔可夫估计。