本节简要介绍估计技术所涉及的概率论、数理统计及随机过程相关理论基础,为目标跟踪、导航定位等应用中涉及的估计提供保障,相关内容可参考文献 [5] 。
概率论用来研究相继发生或同时发生的大量现象的平均特性,如电子发射、雷达检测、系统故障、噪声等。在很多领域中,人们发现,随着观测次数的增加,某些量的平均值会趋近一个常数。概率论的目的就是用事件的概率来描述和预测这些平均值。概率论是对随机现象统计规律演绎的研究,数理统计则是对随机现象统计规律归纳的研究。
一个事件 A 发生的概率 P { A }定义为
式中, N 是实验总次数; N A 是事件 A 发生的次数。 P { A }的定义是人们日常生活中所理解的相对频率,也是本书的基础。
在给定事件 B 的条件下,定义事件 A 的条件概率为
对独立事件而言,式(3-2)等价于无条件概率。
由这个定义可知,对任意两个事件 A 和 B ,若 P { B }>0,则有
称式(3-3)为概率的乘法公式。
在式(3-2)和式(3-3)中, 为在事件 B 发生的前提下事件 A 发生的条件概率。 P { A , B }表示事件 A 和事件 B 的联合概率,即事件 A 和事件 B 同时发生的概率。如果一个独立事件的发生不涉及之前的任何信息,则其发生的概率(如 P { B })称为先验概率。由于条件概率 是相关事件 B 的某种信息已知条件下的事件 A 的概率,因此称为后验概率。
在介绍全概率公式前,先介绍空间样本划分的定义。
定义3-1 设 S 为实验 E 的样本空间, B 1 , B 2 ,…, B n 为实验 E 的一组事件。若满足① B i ∩ B j =∅, i ≠ j , i , j =1,2,…, n ;② B 1 ∪ B 2 ∪…∪ B n = S ,则称 B 1 , B 2 ,…, B n 为样本空间 S 的一个划分。若 B 1 , B 2 ,…, B n 为样本空间 S 的一个划分,则对于每次实验,事件 B 1 , B 2 ,…, B n 必有一个且仅有一个发生。
基于上述定义可得到以下全概率公式和贝叶斯公式。
定理3-1 假设实验 E 的样本空间为 S , A 为 E 的任意事件, B 1 , B 2 ,…, B n 为 S 的一个划分,且 P { B i }>0, i =1,2,…, n ,则
称式(3-4)为全概率公式。
由 P { A , B i }= 及式(3-4)可得到
称式(3-5)为贝叶斯公式。
对于两个事件 A 和 B ,如果满足
则称它们是独立的。
事件的独立性是非常重要的概念,它在估计领域对简化问题起关键作用。
随机变量是赋予实验的每个结果的一个数,这个数可以是机会游戏中的收益、随机电源中的电压、一个随机零件的价格或随机实验中任何一个人们感兴趣的参量。例如,由于不确定噪声的存在,GPS定位系统对每个人或每辆车的量测都是一个随机变量。随机变量可以是离散的,也可以是连续的;可以是一维的,也可以是多维的。
随机变量主要有离散型、连续型两种。若随机变量 X 的所有取值为有限个,或者虽为无限个,但可以一一排列,则称 X 为离散型随机变量;若随机变量 X 取某个区间[ a , b ]或(-∞,∞)上的一切值,则称 X 为连续型随机变量。此外,随机变量 X 可以是一维的,也可以是多维的,具体取决于实际研究的问题。
研究随机变量时,通常会遇到以下问题:随机变量 X 小于给定的数 x 或处于数 x 1 和数 x 2 之间的概率是多少?为方便表示,用 P { X ≤ x }表示随机变量 X 小于给定的数 x 的概率, P { x 1 ≤ X ≤ x 2 }表示随机变量 X 处于数 x 1 和数 x 2 之间的概率。特别地,对于离散型随机变量 X ,用 P { X = ξ i }描述其值为 i ξ 的概率。
在样本空间集合 S 中,组成事件{ X ≤ x }的元素随 x 的取值不同而变化。因此,事件{ X ≤ x }的概率 P { X ≤ x }是依赖 x 的一个数。用 F X ( x )表示这个数并称它为随机变量 x 的累积分布函数,即
式中, F X ( x )是定义在(-∞,∞)上的函数,且0≤ F X ( x )≤1,分布函数在(-∞,∞)上是单调非减的。从它的定义可以得到以下性质:
一个随机变量 X 的分布函数 F X ( x )的导数称为该随机变量的概率密度函数,记作 p X ( x ),即
由于分布函数 F X ( x )的单调非减性,概率密度函数满足∀ x ∈(-∞,∞),有
如果 X 是连续型随机变量, p X ( x )将是一个连续函数。然而,如果 X 是离散型随机变量,则它的概率密度函数具有如下所示的一般形式:
式中, p i 是 x 取值为 x i 时的概率; x i 是分布函数的间断点;δ(·)是狄拉克函数,其定义为
离散型随机变量的概率密度函数是一组正离散质量,因此通常称其为概率质量函数。
根据式(3-9),通过积分,可以由概率密度函数得到分布函数如下:
由于 F X (∞)=1,可以得到
根据式(3-13)可以进一步得到
如果 X 是连续型随机变量,那么式(3-15)中第一个等号左边的区间可以用闭区间[ a , b ]代替。
3.2.1节和3.2.2节分别讨论了条件概率和贝叶斯公式,现将贝叶斯公式推广到条件密度。假设有两个随机变量 X 1 和 X 2 , X 1 在 X 2 的一次实现 x 2 条件下的概率密度函数定义为
考虑两个条件概率密度函数的乘积,即
为方便表示,上述概率密度函数 p (·)中省略了下标。式(3-17)是Chapman-Kolmogorov公式,它可以扩展到任意多个随机变量的条件概率密度函数,是贝叶斯状态估计的基础。
随机变量 x 的数学期望(或均值)定义为如下积分:
一般期望也可以用符号 μ 来表示。
随机变量 x 的函数 g ( x )的数学期望为
数学期望具有以下性质。
(1) E [ C ]= C .
(2) E [ Cx ]= CE [ x ].
(3) E [ x + y ]= E [ x ]+ E [ y ].
(4)若 x 和 y 相互独立,则 E [ xy ]= E [ x ] E [ y ]。
式中, C 表示常数; x 和 y 表示随机变量。
仅依靠均值并不能够真实地表达任何随机变量的概率密度,即两个均值相同的随机变量的概率密度函数可能存在较大的差别。因此,需要使用另一个参数来度量概率密度函数在均值周围分布的集中程度或分散程度。
对于一个均值为 μ 的随机变量 x , x-μ 表示随机变量与均值的偏差,偏差可能是正值,也可能是负值。考虑( x-μ ) 2 ,它的均值 E [( x-μ ) 2 ]表示随机变量 x 与均值 μ 的偏差的平方的平均值,定义为
称正常数 为随机变量 x 的方差,称它的正平方根 为随机变量 x 的标准差。标准差表示随机变量 x 在均值 μ 周围分布的均方根值。
方差具有以下性质。
(1) D ( C )=0.
(2) D ( Cx )= C 2 D ( x ).
(3)若 x 和 y 相互独立,则 D ( x ± y )= D ( x )+ D ( y )。
(4) D ( x )=0的充要条件是 P { x = E [ x ]}=1。
(5)性质(2)和性质(3)的推广:若 x 1 , x 2 ,…, x n 是相互独立的随机变量,则
式中, C 和 C i 表示常数; x 、 y 和 x i 表示随机变量。
均值和方差为随机变量的矩。下面两个通用定义在随机变量的研究和应用中有很大的意义。
矩的定义为
中心矩的定义为
特别地,随机变量 x 的均值为其一阶原点矩,方差为其二阶中心矩。
定义两个标量随机变量 X 和 Y ,其联合分布函数为 F XY ( x , y ),简记为 F ( x , y ),是事件
的概率。式中, x 和 y 是任意两个实数,则
多元随机变量的联合分布具有以下性质。
(1)函数 F ( x , y )满足
(2)对于两个函数 F ( x 1 , y 1 )和 F ( x 2 , y 2 ),如果 x 1 ≤ x 2 且 y 1 ≤ y 2 ,则 F ( x 1 , y 1 )≤ F ( x 2 , y 2 )。
(3)对于事件{ x 1 < X ≤ x 2 , y 1 < Y ≤ y 2 },其概率为
随机变量 X 和 Y 的联合概率密度函数定义为
由性质(1)可得
在多元随机变量研究中,每个随机变量的统计特性称为边缘特性,于是 F X ( x )和 F Y ( y )分别是随机变量 X 和 Y 的边缘分布函数,而 p X ( x )和 p Y ( y )分别是随机变量 X 和 Y 的边缘密度函数,可通过下式获得:
假设两个随机变量 X 和 Y 可以通过单调函数 g (·)和 h (·)相关联,即
如果已知随机变量 X 的概率密度函数为 p X ( x ),那么可以得到随机变量 Y 的概率密度函数 p Y ( y )为
式中, h ′( y )为函数 x = h ( y )对 y 的导数; 表示绝对值。
随机变量 X 的期望为 E [ X ],给定 Y 的条件下 X 的条件期望为 ,可得到
则全期望公式为
3.1节简要介绍了估计,本节将通过数学模型对其进行进一步介绍。假设 Z n ={ z 1 , z 2 ,…, z n }为被估计量 x 的 n 个观测值, z j 为带噪声 v j 的量测,表示为
这 n 个观测值可能是同一时刻多个传感器同时对 x 的观测,也可能是前 n 个时刻对 x 的观测的所有量测的集合,利用这些观测值对被估计量 x 推断的过程称为估计,记 为估计结果,估计过程可定义为
当被估计量 x 为非随机参数时,该估计为参数估计,也称非贝叶斯估计;当被估计量 x 为随机变量时,该估计为状态估计,也称贝叶斯估计。例如,贝叶斯定理表达的是被估计量与先验信息和实时信息的关系,其利用先验信息和实时信息对被估计量进行估计。
估计的误差定义为
1)参数估计的无偏性
当 x 为非随机参数时,估计无偏的条件为
式中, x 0 为参数的真实值; 为关于条件概率密度函数 的数学期望。若式(3-40)在 n →∞的情况下成立,则称此估计为渐近无偏估计,否则为有偏估计。
2)状态估计的无偏性
当 x 为随机变量时,假设其先验概率密度为 p ( x ),估计无偏的条件为
式中, 是关于联合概率密度函数 p ( Z n , x )的数学期望; E [ x ]是关于先验概率密度 p ( x )的数学期望。此外,状态估计的无偏性还可以定义为
若式(3-41)和式(3-42)在 n →∞的情况下成立,则称此估计为渐近无偏估计,否则为有偏估计。
为使用方便,本书若无特殊说明,均用 表示 。
1)参数估计
当 x 为非随机参数时,估计的方差矩阵定义为
如果参数 x 的估计是无偏的,那么
式中, x 0 为估计值的真实值,式(3-43)则为估计的均方误差(Mean Square Error,MSE)矩阵,即
2)状态估计
当 x 为随机变量时,非条件均方误差矩阵定义为
根据全期望公式,式(3-46)还可写为
式中, 为条件均方误差矩阵。
高斯分布是估计领域最常见也最常用的分布之一,其具有很多优秀的性质,使估计器能够解析地得到,因此本节对高斯分布和联合高斯分布进行简要介绍。在介绍高斯分布前,首先介绍随机变量的协方差矩阵。
假设 x 和 y 分别是 n 维和 m 维随机变量(且均为列向量),它们的协方差矩阵定义为
式中,
在式(3-48)中, p ( x , y )为随机变量 x 和 y 的联合密度函数;在式(3-49)中, p ( x )和 p ( y )分别为随机变量 x 和 y 的边缘密度函数,为方便表示,省去了下标。如果 C xy =0,称随机变量 x 和 y 是不相关的。
n 维随机变量 x 的自协方差矩阵定义为
由上述定义可以看出,自协方差矩阵总是对称的,即 C xx = 。
1)高斯分布
如果一个随机变量 x ∈ℝ n ,则其概率密度服从高斯分布,其均值为 m ∈ℝ n ,协方差为 P ∈ℝ n × n ,表示为
式中, 是矩阵 P 的行列式。
2)联合高斯分布
如果随机变量 x ∈ℝ n 和 z ∈ℝ n 服从高斯概率分布,即
那么随机变量 x 和 z 的联合分布及 z 的边缘分布为
3)条件高斯分布
如果随机变量 x 和 z 服从联合高斯概率分布,即
那么随机变量 x 和 z 的边缘分布与条件分布为
若两个随机变量 x 和 z 都服从高斯分布,则它们是联合高斯的,当且仅当扩维向量
是高斯的,即
用 x 和 z 的均值与协方差矩阵表示 y 的均值与协方差矩阵,有
式中,
是分块协方差矩阵的块。
若 x 和 z 是联合高斯的,给定 z 情况下 x 的条件概率密度为
式(3-63)是一个指数函数,其指数部分是分子和分母的指数部分之差。做如下替换:
使用新的变量 ξ 和 ζ ,非零均值随机变量 x 和 y 的问题就简化成零均值问题。
式(3-63)中等号右边的指数是一个二次型指数(乘以-2后):
协方差矩阵的逆矩阵的分块和原矩阵分块之间的关系为
利用式(3-68),指数部分可以改写为
式(3-70)的步骤叫作凑平方(事实上是凑二次型)法。其结果是 x 的二次型,意味着给定 z 时 x 的条件概率密度也是高斯的。可以这样认为:考虑到式(3-64)、式(3-65)和式(3-69),式(3-70)中等号右边的指数是二次型指数:
由式(3-71)可以得到给定 z 时 x 的条件均值为
相应的条件协方差为
条件均值(3-72)关于 z 是线性的,条件协方差(3-73)与量测相互独立。式(3-72)和式(3-73)统称线性估计的基本公式。