生活中有许多随机变量的例子。例如,掷一枚硬币出现正面与反面的随机试验,我们规定数值1表示出现反面,数值0表示出现正面,这样做就相当于引入一个变量 X ,它将随机地取两个数值,而对应每一个数值都有一定的可能性,这一变量 X 就称之为随机变量(ran-dom variable)。
当随机变量 X 的取值个数有限或无穷可数时,称它为离散随机变量,否则就称之为连续随机变量,即可能的取值充满某一有限或无限区间。例如上述掷硬币随机试验的结果 X 就是一个离散随机变量,再如在给定的某一时刻测量接收机输出端上的噪声,所测得的噪声瞬时值将是一个连续随机变量。
在随机试验中,对一次试验可能出现也可能不出现,而在大量重复试验中却具有某种规律性的事件,称为随机事件。假设某一试验,可能出现 A 、 B 、 C 三种结果,把试验重复 N 次,并记录每一事件发生的次数,分别用 n A 、 n B 、 n C 表示,则每个事件发生的相对频率为 n A /N 、 n B /N 和 n C /N ,在 N →∞的情况下,这些频率就趋于事件发生的概率,用 P (·)表示,即有
显然,概率是在0到1之间,并包括0和1在内的一个数, P ( A )=0的事件 A 称为不可能事件, P ( A )=1的事件 A 称为必然事件。
在事件 A 发生的条件下,事件 B 发生的概率用 P ( B | A )表示。按定义,有
在一般情形下, P ( B | A )≠ P ( B ),这说明事件 A 的发生对事件 B 出现的概率有影响。当 P ( B | A )= P ( B )时,事件 B 的发生与事件 A 无关,也即事件 A 和 B 是统计独立的。此时,有
这就是两事件统计独立的条件。
(1)事件和的概率
(2)事件积的概率
(3)全概率公式
如果事件 B 能且只能与 n 个互不相容事件 A 1 , A 2 ,…, A n 之一同时发生,则
(4)贝叶斯(Bayes)公式
在全概率公式的命题中,如果知道事件 B 已发生,则诸互不相容事件之一 A i 发生的概率为
假设随机变量 X 可能取 x i = x 1 、 x 2 、 x 3 、 x 4 共4个值,且有 x 4 > x 3 > x 2 > x 1 ,相应的概率为 P ( x i )或 P ( X = x i ),则有
P ( X ≤ x 2 )= P ( x 1 )+ P ( x 2 )
P ( X ≤ x 2 )的含义是随机变量取值小于等于 x 2 的概率,它等于变量取值 x 1 和 x 2 的概率之和。用 P ( X ≤ x )定义的 x 的函数称为随机变量 X 的概率分布函数,也可称为累积分布函数(Cumulative Distribute Function,CDF),简称分布函数,记作 F ( x ),即
它表示随机变量取值小于等于 x 的概率。在这个定义中, X 可以是离散的也可以是连续的,显然 F ( x )有如下特点:
1) F (-∞)= P ( X ≤-∞)=0。
2) F (∞)= P ( X ≤∞)=1。
3)如果 x 1 ≤ x 2 ,则 F ( x 1 )≤ F ( x 2 ),即概率分布函数 F ( x )为单调不减函数。
【例2-8】 设有随机变量 X 可能的取值有4个,分别是0、1、2、3,各值出现的概率都为1/4,即 P (0)= P (1)= P (2)= P (3)=1/4。求概率分布函数 F ( x )并画出曲线。
解: 分几个区间来讨论。
当 x <0时, F ( x )= P ( X < x )=0
当0≤ x <1时, F ( x )= P ( X ≤ x )= P (0)=1/4
当1≤ x <2时, F ( x )= P ( X ≤ x )= P (0)+ P (1)=1/4+1/4=1/2
当2≤ x <3时, F ( x )= P ( X ≤ x )= P (0)+ P (1)+ P (2)=1/4+1/4+1/4=3/4
当3≤ x <∞时, F ( x )= P ( X ≤ x )= P (0)+ P (1)+ P (2)+ P (3)=1/4+1/4+1/4+1/4=1
根据上面的讨论结果,画出 F ( x )曲线如图2-11所示。
图2-11 概率分布函数曲线
若存在连续随机变量 X ,其分布函数 F ( x )与一个非负函数 f ( x )之间有如下关系:
则称 f ( x )为 X 的概率密度函数(P robability Den-sity Function,PDF),简称概率密度。因为式(2-93)表示随机变量 X 在(-∞, x )区间上取值的概率,故 f ( x )具有概率密度的含义。式(2-93)也可写成
因此,概率密度就是概率分布函数的导数。
概率密度有如下性质。
1) f ( x )≥0。
2)
。
3)
。
要说明的是,PDF表示随机变量取值概率在横轴上的分布情况,PDF在横轴上的积分即面积表示概率,如图2-12所示。
【例2-9】 某随机变量 X ,其概率分布函数如图2-13a所示,求其概率密度函数 f ( x )。
图2-12 概率密度函数
图2-13 某随机变量概率分布和概率密度图
解: 由图2-13a可得概率分布为
由式(2-94)得概率密度函数为
概率密度函数示意图如图2-13b所示。
上面仅考虑了单个即一维随机变量的情况。实际上,许多随机试验的结果只用一个随机变量来描述是不够的,必须同时用两个或多个随机变量来描述。我们把这种由多个随机变量所组成的一个随机变量总体称为多维随机变量,记作:二维( X 1 , X 2 ),…, n 维( X 1 , X 2 ,…, X n )。
设有两个随机变量 X 、 Y ,我们把两个事件( X ≤ x )和( Y ≤ y )同时出现的概率定义为二维随机变量( X , Y )的二维概率分布函数
如果 F ( x , y )可表示成
则称 f ( x , y )为二维概率密度函数。式(2-95)也意味着下式成立:
二维联合概率分布有如下性质。
1) f ( x , y )≥0。
2)
。
3) F (-∞, y )= F ( x ,-∞)=0。
4)
5)
上面的性质4)和5)分别称为二维边际概率分布函数和二维边际概率密度函数。这说明,知道了二维概率分布,就可以求出一维概率分布。
前面讨论的统计独立的条件式(2-87)也可以用概率分布来表述,即若
则称随机变量 X 、 Y 统计独立。
由上式可见,当随机变量 X 、 Y 统计独立时,可以由一维概率分布确定二维联合分布。但在一般情况下,需要引入条件概率分布,将一维和二维分布联系起来。给定随机变量 X 后,随机变量 Y 的条件概率密度定义为
从而有
结合式(2-98)可知,若随机变量 X 、 Y 统计独立,则有
以上的概念和结论可以推广到 n 维随机变量,但在本书中,掌握一维和二维就可以了。
具有图2-13b所示概率密度函数的随机变量称为均匀分布的随机变量,其概率分布函数如图2-13a所示。均匀分布是常见的概率分布之一。例如,正弦振荡源所产生的振荡信号的初相在(0,2π)上均匀分布。
高斯分布(也称为正态分布)随机变量的概率密度函数为
其中, a 为高斯随机变量的均值(数学期望); σ 2 为高斯随机变量的方差( σ 为标准差)。当 a =0, σ 2 =1时,我们称其为标准正态分布。
高斯分布(正态分布)随机变量的概率密度函数 f ( x )如图2-14所示。
概率密度函数的中心位置由均值 a 确定,其形状由方差的平方根即标准差 σ 确定。图2-15画出了不同 a 和不同 σ 时的概率密度函数曲线示意图。由图可看出,均值 a 决定 f ( x )极大值的位置, f ( x )曲线的宽窄和极值与方差的平方根 σ 有关。
图2-14 正态分布随机变量的概率密度函数
图2-15 不同参数下高斯分布概率密度函数曲线示意图
a) σ 不变 b) a 不变
“通信原理”课程中遇到的窄带高斯噪声的包络是服从瑞利分布的,瑞利分布随机变量的概率密度函数为
式中, σ >0,其曲线如图2-16a所示。
图2-16 瑞利分布和莱斯分布随机变量的概率密度函数
a)瑞利分布 b)莱斯分布
正弦(或余弦)信号加上窄带高斯噪声包络的瞬时值服从莱斯分布。莱斯分布随机变量的概率密度函数为
式中, I 0 ( x )为零阶贝塞尔函数; A 为正弦波的振幅,其曲线如图2-16b所示。当 A =0时,莱斯分布退化为瑞利分布。当 A 相对于噪声较大时,莱斯分布(图中 A =5对应的曲线)趋近于高斯分布(图中虚线)。
若要完整地描述一个随机变量的统计特性,就必须求得它的分布函数或概率密度函数。在实际应用中,除了关心随机变量的概率密度函数外,还需要考察随机变量的数字特征。因为在有些场合,要确定随机变量的分布函数,并且加以分析是比较困难的。而数字特征既能描述随机变量的部分重要特征,又便于进行运算和实际测量。经常用到的数字特征有以下几个:
1)随机变量的数学期望,也称为随机变量的均值。
2)随机变量的方差。
3)两个随机变量的相关系数。
数学期望是随机变量的统计平均值。对于离散随机变量 X ,如果它可能的取值有 x 1 、 x 2 、 x 3 、…、 x n ,其相应的概率分别为 P ( x 1 )、 P ( x 2 )、 P ( x 3 )、…、 P ( x n ),则其数学期望定义为
对于连续随机变量 X ,如果其概率密度函数为 f ( x ),则其数学期望定义为
【例2-10】 (1)测量某随机电压 X ,测得3.0V的概率为2/5,测得3.2V的概率为2/5,测得3.1V的概率为1/5,求该随机电压的数学期望。
(2)某连续随机变量
X
的概率密度函数
,其中
a
、
σ
2
均为常数,求该随机变量的数学期望。
解: (1)由式(2-105)得
(2)由式(2-106)得
数学期望有如下特性:
1) E ( C )= C , C 为常数。
2) E ( X + Y )= E ( X )+ E ( Y )。
3) E ( XY )= E ( X ) E ( Y ), X 、 Y 统计独立。
4) E ( X + C )= E ( X )+ C 。
5) E ( CX )= CE ( X )。
其中 X 、 Y 为随机变量。
随机变量的方差反映了随机变量取值的集中程度,方差越小,说明随机变量取值越集中,方差越大,说明随机变量取值越分散。
对于离散随机变量 X ,如果它可能的取值有 x 1 、 x 2 、 x 3 、…、 x n ,其相应的概率分别为 P ( x 1 )、 P ( x 2 )、 P ( x 3 )、…、 P ( x n ),则其方差定义为
对于连续随机变量 X ,如果其概率密度函数为 f ( x ),则其方差定义为
方差有如下特性:
1) D ( C )=0, C 为常数。
2) D ( X + Y )= D ( X )+ D ( Y ),此式成立的条件是 X 、 Y 统计独立。
3) D ( X + C )= D ( X )。
4) D ( CX )= C 2 D ( X )。
5) D ( X )= E ( X 2 )- E 2 ( X )。
如果 X 代表某随机信号,则随机信号的功率为
其中, E 2 ( X )= a 2 为信号的直流功率; D ( X )= σ 2 为信号的交流功率。
两个随机变量之间的协方差定义为
其中, E ( XY )称为两个随机变量 X 、 Y 之间的相关矩,它是两个随机变量乘积的均值,可由如下表达式求得:
当随机变量 X 、 Y 相互独立时, f ( x , y )= f ( x ) f ( y ),上式变为
相关系数反映了两个随机变量之间的相关程度,相关系数定义如下:
显然 ρ ≤1。下面结合协方差、相关系数和相关矩的定义,解释三个重要的概念。
1)不相关。当协方差 C ( XY )=0时,相关系数 ρ =0,称两个随机变量是不相关的。
2)正交。当相关矩 E ( XY )=0时,称两个随机变量是正交的。
3)独立。当两个随机变量的联合概率密度函数等于两个随机变量各自概率密度函数的乘积时,即 f ( x , y )= f ( x ) f ( y )时,称两个随机变量是独立的。
若两个随机变量 X 、 Y 是统计独立的,则它们必不相关,这是因为
从而由式(2-113)可知, ρ =0,故 X 、 Y 互不相关。但是应注意,若 X 、 Y 互不相关,并不意味着它们是统计独立的。