目标定位跟踪方法与实践最新章节_石章松著

2.2 估计理论

2.2.1 问题描述

所谓估计问题，就是从带有随机干扰的观测数据中，观测提取出有用信息。例如，传感器的测量模型可以写作：

（2.2.1）

式中：表示观通导航器材测量的量或测量的函数；表示有用信号，一般是目标位置、速度、加速度或目标状态的函数；表示观通导航器材的测量误差。

如果要从中把分离出来，进而得到目标位置、速度、加速度或目标状态等待定参数。这就是一个典型的估计问题。在数学上，估计问题的描述如下：

假设被估计量是一个 n 维向量，而 m 维向量是其观测输出向量，并且存在如下关系：

（2.2.2）

式中：是状态向量、和时间 m 维已知向量函数，由观测方法确定；是 n 维状态向量；是 m 维观测误差向量。

所谓估计问题就是在时间区间内对进行观测，得到观测数据序列，要求根据一定准则，构造基于观测数据的函数的问题，并且称是的估计量。

根据被估计量的变化与否，估计问题大致分为两类：状态估计和参数估计。状态和参数的基本差别在于状态是随时间变化的，而参数是保持不变或变化非常缓慢的。也就是说，状态估计是动态估计，而参数估计一般是静态估计。但是动态估计与静态估计是有联系的，将静态估计方法和动态随机过程或序列的内部规律结合起来，就可以得到动态估计方法。

构建的估计量并不唯一。它根据估计准则的不同而不同。一般有如下估计准则：最小均方估计（或最小方差估计）、极大验后估计、极大似然估计、线性最小均方估计和最小二乘估计等，由此形成了不同的估计方法。如何评价这些不同方法的估计值？可以用估计值的统计特性来衡量。

2.2.2 估计值的统计特性

估计值的统计特性可以看作是对根据估计准则构建出估计量的基本要求，主要包括无偏性、一致性和最优性。

1．无偏性

估计值依赖于观测结果，因此取几组新的观测值，估计值就要改变。因为估计量的本身是随机变量，所以也有均值与方差，显然，对重复测量所希望的状态是估计值应集中在真值附近，即

（2.2.3）

无偏性是用来衡量估计值是否围绕真值波动的，它是估计值的一个重要统计特性。

2．一致性

所谓估计值的一致性是指：如果根据无穷多的输入、输出信息（），所得到的估计无限趋近于真值，则称是的一致估计。如果估计值具有一致性，说明当样本无限增大时，它将以概率1收敛于真值。

定义2-1： 如果采用误差

（2.2.4）

的平方的统计平均值的大小作为性能指标，则一致性可以定义为：如果

（2.2.5）

或

（2.2.6）

定义2-2： 当观测数目增加时，我们希望估计量的密度函数在待估计参量附近越来越变成峰值（方差减少），用数学式来表示为

（2.2.7）

式中： , 表示由 n 个样本得到的估计值。凡是满足式（2.2.7）的估计量就称为一致估计量。

3．有效性

我们希望所用的估计量是所有估计量中方差最小的，也就是说平均估计误差最小。如果还有别的估计量，那么一定有

（2.2.8）

满足式（2.2.8）的估计量称为的有效估计量。

4．Cramer-Rao下界

在参数估计理论中，克拉美-罗（Cramer-Rao）下界是统计数学中最重要的定理之一，它给出了一个估计量能达到的最好结果，这个定理的意义在于，如果要估计某个参数，并已决定利用某种估计方法，该方法构建的估计量已经达到了克拉美-罗下界，那么就没有必要去寻求其他估计方法构建的估计量了。

克拉美-罗定理 如果以为参量的似然函数估计量的数学期望为，那么的方差为

（2.2.9）

特别是当是无偏估计时，，则上式简化为

（2.2.10）

以上两式的右边称为克拉美-罗下界，它指出了估计量所能达到的最好精度。

证明： 似然函数也是概率密度函数，所以

（2.2.11）

把它看作的函数，两边对求微商，得到

（2.2.12）

亦即

（2.2.13）

因为数学期望是相对于变量的，所以对的任意函数，有

（2.2.14）

由假定

（2.2.15）

对求微商得到

（2.2.16）

因为的数学期望为零，所以有

（2.2.17）

利用许瓦茨不等式，有

（2.2.18）

于是得到

（2.2.19）

如果我们利用

（2.2.20）

则有

（2.2.21）

对于无偏估计，则有

（2.2.22）

2.2.3 最小均方估计

令为依据量测对所求得的某种估计，称为估计量，它是一个与同维数的向量函数，其自变量为向量。记这个估计的误差为

（2.2.23）

误差是一个与同维数的随机向量；由于各种随机因素的影响，在同样的测量条件下，每次所得的估计误差不可能都相同。所以要衡量一个估计量的优劣，应当研究这个估计误差的整个统计规律。显然，误差越小越好。按照统计规律为：用同样的估计方法，不管对重复多少次测量，由每次测量所得的估计误差，大部分应当密集在零附近，那么可以认为这一估计方法是好的。根据数学知识，估计误差的二阶原点矩（称为均方误差阵）正是表示误差分布在零附近密集的程度。

最小均方估计正是追求使估计的均方误差阵达到最小，因此这种估计方法也被称为最小方差估计。在这种意义下的最优估计问题可以描述如下：

已知被估计量，其先验概率密度函数为，观测量的概率密度函数为的联合概率密度为，在上述已知条件下，构建一估计量，使得估计误差的均方差极小。用数学式表达即：

（2.2.24）

这是求极值问题，按照均值的定义，在已知上述概率密度分布的条件下，根据贝叶斯公式，可以求出目标函数的极值解。下面给出详细求解过程：

由贝叶斯公式有

（2.2.25）

因此，对于某一估计量，其均方误差矩阵可以表示为

（2.2.26）

式（2.2.26）对任何估计量都成立。目标是选一个估计量，使得式（2.2.26）达到极小。注意到式（2.2.26）所表示的是一个非负对称矩阵。因此，所谓“ 使式（2.2.26）达到极小”就是意味着，如果把换成的另外任何一个向量函数时，式（2.2.26）所表示的对称阵一定会增大。由式（2.2.26）中最后的式子容易看出，只需对求下式的极小即可：

（2.2.27）

下面我们来证明，使式（2.2.14）达到极小的，就是在给定条件时，的条件均值，即

（2.2.28）

证明：

设是的任一向量函数，则从式（2.2.4）出发，可以推出如下的关系式：

（2.2.29）

因为

（2.2.30）

（2.2.31）

所以式（2.2.29）化简为

（2.2.32）

由于总是一个非负定阵，所以式（2.2.32）得到如下的不等式：

（2.2.33）

且式（2.2.33）取等号的充分必要条件是。式（2.2.28）得证。

从上述推导过程可知：对于任意两个随机变量和，无论它们之间的函数关系是否已知，只要已知其各自的概率分布密度函数和及联合概率密度函数，在最小方差估计的准则下，所构建的估计量就是其条件均值（或期望）。这一结论具有重要意义，也称这种估计方法为最优估计。即在方差最小意义下，对任意随机被估计量的最优估计是其条件均值。

1．无偏性证明

由式（2.2.15）可得

（2.2.34）

即估计量的均值等于被估计量的均值。因此，最小均方估计是无偏估计。

2．最小方差阵

由式（2.2.26）和式（2.2.28）知道

（2.2.35）

由于式（2.2.28）成立，有时又称为的条件均值估计。

最小均方估计是一种最优估计，但过于理想化，因为通常是很难获得条件均值的。如前所述，需要知道两个随机变量和的先验概率分布和以及联合概率分布函数，这在实际情况中难以满足。

下面介绍两种对已知条件有所放宽的估计方法，即极大验后估计和极大似然估计。

2.2.4 极大验后估计和极大似然估计

最小均方估计是以均方差阵达到极小作为最优准则的。假设调整最优准则，比如把验后概率极大或者似然概率极大作为最优准则，就会得到新的最优估计方法。在学习这些方法之前，先回顾验后概率和似然概率的概念。

如果被估计量是随机量，其对应的观测量为（也称实验结果），其验后概率为的条件概率，记为。相应地，其似然概率为观测量的条件概率。

所谓最大验后估计就是以验后概率极大为准则，而最大似然估计则是以似然概率极大为准则。分别记作和，简写为和。下面推导估计量和的表达式。

对于极大验后估计，其极值函数为

（2.2.36）

的值是已知试验结果（量测结果）的条件下，使的条件概率密度（验后概率密度）达到极大的那个的值。这在直观上也很清楚，因为能使一个概率密度达到极大的那个值，就是其相应的随机变量的最大可能值，即随机变量落在这个可能值的小邻域内的概率大于落在其他任何值的同样邻域内的概率。

由于对数函数是单调增加函数，所以与在相同的值能达到极大，极值函数可以调整为

（2.2.37）

故由微分知道，应满足下列方程

（2.2.38）

方程称为验后方程。解此方程即可得到极大验后估计。

与之类似，极大似然估计的值是使条件概率密度（也叫似然函数）取得极大的那个的值。同上论述，应满足方程

（2.2.39）

方程称为似然方程。解此方程即可得到极大似然估计。

下面来考查极大验后估计与极大似然估计的关系。由贝叶斯公式，验后概率密度和似然函数之间的关系为：

（2.2.40）

两边取对数，然后对求微商（注意与无关），置其为零，即得应满足的方程：

（2.2.41）

假定关于随机向量没有任何验前知识，也就是说，在未观测之前，只能认为取任何值的概率都相等。这时可以把的验前概率密度近似地看作方差阵趋于无穷的正态分布密度：

（2.2.42）

式中：，。于是有

（2.2.43）

所以

（2.2.44）

所以当时，。因此由式（2.2.41）知道，在这一特殊情形下，极大验后估计应满足的方程变为

（2.2.45）

与式（2.2.38）比较，可见在没有验前知识的情况下，极大验后估计与极大似然估计是相同的。在一般情形下，由于极大验后估计考虑了关于的验前信息，所以极大验后估计可以改善极大似然估计。但是在应用中，有时采用极大似然估计。这是因为计算似然函数比计算验后概率密度来得简单，而且要定出一个合理的的验前分布，往往是很困难的。

2.2.5 线性最小均方估计

之前的三种估计方法，最小方差估计需要知道两个随机变量和的先验概率分布和以及联合概率分布函数；极大验后估计需要知道；极大似然估计需要知道，这些前提条件，在实际情况中往往难以满足，在计算求解过程中难以实现。本节我们放松对概率密度知识的要求，只要求知道量测和被估计量的一、二阶矩，即、、、、。在这种情形下求估计量时，就需要对估计量的函数形式加以限制，才能得到有用的结果。我们限定所求的估计量必是量测的线性函数，而不像前节所考虑的估计量可以是量测的任意函数，这时只能以估计的均方误差达到极小作为最优准则，因为其他的最优准则都牵涉概率密度。这样得出的估计称为线性最小方差估计，或最优线性估计，并用或来记它。

所谓线性估计，就是限定估计量是量测的线性函数，即指如下形式的估计量：

（2.2.46）

式中：是与被估计量同维数的非随机向量；是其行数等于被估计量的维数、列数等于量测的维数的非随机矩阵。对于这种估计，它的均方误差阵为

（2.2.47）

上式对任意的线性估计式（2.2.46）都是成立的，因此其极值目标函数为

（2.2.48）

向量和矩阵使式（2.2.48）达到极小，并把这样选取的、记、，于是估计量

（2.2.49）

就是的线性最小方差估计。为了求、，令

（2.2.50）

则式（2.2.46）可改写成

（2.2.51）

注意到式（2.2.51）中右边的头两项都是非负定矩阵，而第三项与、无关；显然，为了使式（2.2.51）达到极小，唯一的解就是选取、，使右边的头两项变成零矩阵，即

（2.2.52）

（2.2.53）

将式（2.2.52）、式（2.2.53）代入式（2.2.50）得

（2.2.54）

再将式（2.2.53）、式（2.2.54）代入式（2.2.49），即得线性最小方差估计：

（2.2.55）

由式（2.2.51）还可求得此估计的均方误差阵为

（2.2.56）

这里所用的求式（2.2.48）的极小值的方法，称为配平方法。

下面讨论估计值的性质。

首先，由式（2.2.55）得

（2.2.57）

所以是的无偏估计。这时，估计误差的均值为零向量，所以均方误差就是估计误差的方差，因此今后也把均方误差阵称为误差的方差阵。其次，仍由式（2.2.55）知，估计误差可以表示成

（2.2.58）

由此推得

（2.2.59）

从式（2.2.59）知道，随机向量是不相关的。借助于几何的语言，我们把不相关性视为正交性，于是可以把式（2.2.59）的性质称为与垂直（正交）。与本来不正交，但从减去一个由线性函数构成的随机向量后，即与正交。因此可以说，是在上（或由的分量所张成的线性空间上）的投影。从几何的观点把线性最小方差估计看作被估计量在量测向量（空间）上的投影，这在滤波理论中是很有用的。

现在，如果设被估计的向量和量测向量有联合正态概率密度，那么我们知道，在给定的条件下，的条件均值和条件方差为：

（2.2.60）

（2.2.61）

对于的最小方程估计，有

（2.2.62）

把这些等式与式（2.2.55）、式（2.2.56）比较，可以得到一个很重要的结论：对于被估计量与量测为联合正态分布的情形，的最小方差估计等于它的线性最小方差估计，即；而其误差方差阵即在给定的条件下的条件方差阵。也可以说，在给定的条件下的条件均值等于在上的投影。需要强调的是，这个结论只是在正态假设下才成立，在一般情形下则不成立。