有些随机试验的结果可以直接用数字来表示,如投骰子试验,结果可能出现的量是1,2,3,…,6;而有些则不能。从方便研究的角度出发,我们需要对随机试验的结果进行数量化,即用一个数值来表示随机试验的结果。但这个数值在试验之前是不能确定的,它只由试验的结果决定。比如抛硬币试验中,可以把出现字面记为1,出现徽面记为0。这样,我们就可以将随机试验的结果与实数对应起来,从而引进了 随机变量 (random variable)概念。
随机变量的引入,极大地方便了对随机事件的描述,并且使我们可以利用数学的方法对随机试验的结果进行深入的研究和分析。
在各种随机变量中,有些只能取有限个或可列个离散值,这种随机变量称为 离散型随机 变量 (discrete random variable)。例如掷一个质量均匀的骰子,如果设可能出现的数为 X 的话,那么 X 为一离散型随机变量,它可能取的值为1,2,…,6。
还有一类随机变量,它们可能取的值不能一一列举出来,而是连续地充满一个区间,这种随机变量称为 连续型随机变量 (continuous random variable)。例如,一个射击手瞄准靶心射击,设命中点到靶心的距离为 X ,它可能取的值为0≤ X <∞,则 X 为一连续型随机变量。
在以后的叙述中,我们用大写的英文字母 X , Y , Z ,…表示随机变量,而用小写的英文字母 x , y , z ,…表示它们所取的值。
为了掌握随机变量的统计规律,需要了解随机变量与相应取值的概率。和事件与概率的关系一样,我们用随机变量与其取值的概率之间的关系来描述随机变量的概率规律。如果一个随机变量每一个可能取的值以及取这些值的概率都能确定的话,那么这个随机变量的分布也就确定了。这里所说的分布是指 分布函数 (distribution function)。
设 X 是一随机变量, x 是任意实数,则定义 X 取值小于或等于 x 这一事件的概率为随机变量 X 的分布函数 F ( x ),即
常见的随机变量一般可分离散型和连续型两类,下面我们分两种情况介绍。
离散型随机变量 :设 x 1 , x 2 ,…, x n 是离散型随机变量 X 的可能取值,而 p 1 , p 2 ,…, p n 为 X 取上述这些值时的概率,则称
为 X 的 概率分布律 (distribution law),也可表示为下面表格的形式:
如果用图形来表示(1.19)式,则称它为 X 的分布图(见图1.1)。
根据概率的性质,易知 p i ( i =1,2,…)具有性质:
(1) p i ≥0,
(2) 。
根据分布函数的一般定义,离散型随机变量的分布函数为
图1.1 概率分布律
式中 表示对小于等于 x 的所有 x i 求和。(1.20)式可以写成更明了的表达式:
由这个式子我们可以看到,离散型随机变量的分布函数是一阶梯函数。当 x 等于 X 的每一可能值时,函数 F ( x )在该处发生跳跃,其跃度等于 X 取该值时的概率。通常称 X 的每一可能值 x i 为分布函数 F ( x )的跳跃点。
连续型随机变量 :如果我们把 X 的取值比作随机地向直线上投点,则 P ( X ≤ x )表示随机点落在直线上坐标为 x 的“固定点”左边的事件的概率。显然,当“固定点”的位置在直线上变动时,这个概率也可能变化,由此可见,函数 P ( X ≤ x )的自变量是 x 而不是 X ,所以分布函数 F ( x )是普通变量 x 的函数。
对于任意的 x 1 < x 2 ,事件 X ≤ x 1 与事件 x 1 < X ≤ x 2 是互不相容的,因此有
于是 X 在区间( x 1 , x 2 ]上取值的概率为
可见,只要知道了随机变量 X 的分布函数,这个随机变量的概率性质就完全确定了。
分布函数具有下列几个性质:
(1) F ( x )为非降函数,即对任意的 x 1 < x 2 ,有 F ( x 2 )≥ F ( x 1 )。这一性质由(1.22)式可以证明。
(2)0≤ F ( x )≤1,而且任何一个分布函数都必须满足
分布函数的图形在图1.2中示出,从图中可以看出,连续随机变量的分布函数曲线是一条单调上升到1的曲线,
图1.2 分布函数
若连续随机变量 X 的分布函数连续、可导。则定义
为 X 的 分布密度函数 或 概率密度函数 (probability density function)。下面我们来看分布密度函数的意义。由定义,在 f ( x )的连续点 x 处有
若不计高阶无穷小,有
这表明 X 落在小区间[ x , x +d x )上的概率近似地等于 f ( x )d x 。或者说随机变量落入点 x 附近一个无限小区域内的概率等于该点的概率密度和区间长度的乘积。
分布密度具有以下性质:
(1) f ( x )≥0。因为 F ( x )是单调增函数,所以 f ( x )非负。
(2) 。这个性质叫做 归一化条件 ,任何概率密度函数都必须满足归一化条件。
(3)
随机变量 X 的值落入某一区间( x 1 , x 2 ]内的概率 P ( x 1 < ξ ≤ x 2 )叫做随机变量 X 在区间( x 1 , x 2 ]内的概率含量。它是( x 1 , x 2 ]区间内概率密度曲线下的面积。
在(1.27)式中令 x 1 →-∞,并把 x 2 改为 x ,则得到
这表明,连续型随机变量的分布函数可以用概率密度函数表示。因此,对连续型随机变量来说,分布密度函数和分布函数一样能够完全地刻画出随机变量的概率性质。它们之间的关系((1.28)式)由图1.3示出。由性质(2),图中分布密度曲线下的总面积为1。性质(1)和(2)是概率密度函数的两个重要性质。如果一个函数满足这两个性质,它就可以是一个连续型随机变量的概率密度函数。
图1.3 概率密度曲线
在许多实际问题中,研究的对象并不能够被直接观测,它往往是另一个随机变量的函数。因此,我们需要根据可直接观测的随机变量的概率性质,来研究其函数的概率性质。一般说来,随机变量的函数也是随机变量。例如,若分子的运动速度 v 是随机变量,则动能 仍然是一个随机变量,随机变量函数的概率分布可以通过作为自变量的随机变量的分布求得。
设随机变量 X 的概率密度为 f ( x ), Y = φ ( X )是 X 的单值连续函数,且处处可导,则 Y 的概率密度函数 g ( y )为
其中 ψ ( y )是 φ ( x )的反函数, ψ '( y )是 ψ ( y )的导数。
证明 :设 φ ( x )单调增加,如图1.4(a),事件( Y < y )与事件( X < x )等价。因此, Y 的分布函数为
图1.4 y = φ ( x )
由于 y = φ ( x )的单值性,所以有唯一的反函数 ψ ( y )。因此,
对 y 求导得到 Y 的概率密度为
当 y = φ ( x )是减函数时,如图1.4(b),事件( Y < y )与事件( X > x )等价。 Y 的分布函数为
对 y 求导后得
合并(1.30)和(1.31)则得(1.29)式。
例 1.6 :由统计物理学可知,分子运动速度的绝对值 X 服从麦克斯韦分布,其概率密度为
其中 a >0为常数,求分子动能 ( m 为分子的质量)的概率密度。
解 :由 ,得 ,由(1.29)式得