上一节我们研究了离散型随机变量,这类随机变量的特点是它的可能取值及其相对应的概率能被逐个地列出.这一节我们将要研究的连续型随机变量就不具有这样的性质了.连续型随机变量的特点是它的可能取值连续地充满某个区间甚至整个数轴.例如,测量一个工件长度,因为在理论上说这个长度的值 X 可以取区间(0,+ ∞ )上的任何一个值.此外,连续型随机变量取某特定值的概率总是零(关于这点将在以后说明).例如,抽检一个工件其长度 X 丝毫不差刚好是其固定值(如 1.842 cm)的事件{ X = 1.842}几乎是不可能的,应认为 P { X =1.842}= 0.因此讨论连续型随机变量在某点的概率是毫无意义的.于是,对于连续型随机变量就不能用对离散型随机变量那样的方法进行研究了.为了说明方便我们先来看一个例子.
例 2.12 一个半径为 2 米的圆盘靶,设击中靶上任一同心圆盘上的点的概率与该圆盘的面积成正比,并设射击都能中靶,以 X 表示弹着点与圆心的距离,试求随机变量 X 的分布函数.
解 ①若 x < 0,因为事件{ X ≤ x }是不可能事件,所以
②若 0≤ x ≤2,由题意 P {0≤ X ≤ x } = kx 2 , k 是常数,为了确定 k 的值,取 x = 2,有 P {0≤ X ≤2}=2 2 k ,但事件{0 ≤ X ≤2 }是必然事件,故 P {0 ≤ X ≤2 }= 1 ,即2 2 k 所以 ,即
于是 F ( x )= P { X ≤ x }= P { X < 0}+ P {0≤ X ≤ x }= .
③若 x ≥2,由于{ x ≤2}是必然事件,于是
综上所述
它的图形是一条连续曲线如图 2.3 所示.
图 2.3
另外,容易看到本例中 X 的分布函数 F ( x )还可写成如下形式
其中
这就是说 F ( x )恰好是非负函数 f ( t )在区间(-∞ , x )上的积分,这种随机变量 X 我们称为连续型随机变量.一般地有如下定义.
定义 2.5 对于随机变量 X ,如果存在某一非负函数 f ( x ),使得对于任意实数 x ,有
则称 X 为连续型随机变量(continuous random variable).其中函数 f ( x )称为 X 的概率密度函数,简称概率密度(density function)或分布密度.
由上式知连续型随机变量的分布函数是连续函数.
由定义知,概率密度 f ( x )具有以下性质:
性质 1 f ( x )≥0(-∞ < x < + ∞ ).
性质 2 .
性质 3 对任何实数 a , b ( a ≤ b ),有
性质 4 若 f ( x )在点 x 处连续,则有
由性质 2 知,介于曲线 y = f ( x )与 x 轴之间的面积等于 1(图 2.4).由性质 3 知道, X 落在区间( a , b ]的概率 P { a < X ≤ b }等于区间( a , b ]上曲线 y = f ( x )之下的曲线边梯形的面积(图2.5).
图 2.4
图 2.5
由性质 4 知,在 f ( x )的连续点 x 处有
在上式中,若不计高阶无穷小,有
即表示 X 落在小区间( x , x + Δ x ]上的概率近似地等于 f ( x )Δ x.
由连续性随机变量的定义知,对于任一常数 a ,有
这是连续型随机变量的一个特殊性质.
事实上,设 X 的分布函数为 F ( x ),Δ x > 0,则由{ X = a }⊂{ a -Δ x < X ≤ a }得
由于 F ( x )是一连续函数,于是有
所以,有
P { X = a } = 0.
因此,在计算连续型随机变量落在某一区间的概率时,可以不必区分该区间是开区间或闭区间或半开半闭区间,即有
特别要指出的是,尽管{ X = a }的概率为零,但它不一定是不可能事件.这事实也说明,不可能事件的概率一定为零;反之,概率为零的事件不一定是不可能事件.由此可知,概率为 1 的
事件也不一定是必然事件.
例 2.13 设连续型随机变量 X 的分布函数为
求:① A , B 的值.
② X 的概率密度 f ( x ).
解 ①由分布函数性质 F ( -∞ )= 0 及 F ( + ∞ )= 1,可得
解得 ,所以
②根据性质 4,有
例 2.14 设随机变量 X 的概率密度为
求:① a 的值;
② X 的分布函数 F ( x );
③ P {1 < X ≤3}及 P { X ≤2}.
解 ①由于 ,即有 ,解得
②当 x < 0 时, F ( x ) = .
当 0 ≤ x < 4 时, F ( x ) = .
当 x ≥ 4 时, F ( x ) = .
因此,分布函数为
③ P {1 < X ≤ 3} = ,
或
本节介绍 3 种常见的连续型随机变量.
定义 2.6 若连续型随机变量 X 的概率密度(图 2.6)为
则称 X 在[ a , b ]上服从均匀分布(uniform distribution),记作 X ~ U [ a , b ].
容易验证均匀分布的概率密度函数 f ( x )满足:
① f ( x )≥0, x ∈(-∞ ,+ ∞ ).
② .
均匀分布函数如图 2.7 所示,即
图 2.6
图 2.7
若 X ~ U [ a , b ],则对于任一长度 l 的子区间[ c , c + l ]⊂[ a , b ],有
即在区间[ a , b ]上服从均匀分布的随机变量 X ,其取值落在[ a , b ]中任意等长度的子区间的概率是相同的,且与子区间的长度成正比,与子区间位置无关,这就是“均匀”的含义.
例 2.15 某人叫了一辆出租汽车从学校去火车站乘火车.火车发车时间为 11:30,出租汽车开出的时间为 10:50,出租汽车从学校行驶到火车站的时间 X ~ U [30,60],从下汽车到上火车需 5 min,问该人能赶上这趟火车的概率为多少?
解 若要赶上火车,出租汽车行驶的时间必须少于或等于 35 min,所以
即此人能赶上火车的概率只有 17%.
定义 2.7 若随机变量 X 的概率密度(图 2.8)为
其中 λ > 0,则称 X 服从 参数为 λ 的指数分布 (exponential distribution).
容易验证指数分布的概率密度函数 f ( x )满足
① f ( x ) ≥ 0, x ∈ (-∞ , + ∞ ).
②
指数分布的分布函数如图 2.9 所示,即
图 2.8
图 2.9
指数分布有很广泛的应用,我们常用它来作为各种“寿命”分布的近似.例如,无线电元件的寿命、动物的寿命、保险丝的寿命、电话问题中的通话时间、随机服务系统中的服务时间以及某一复杂系统中两次故障的时间间隔等都近似地服从指数分布.
例 2.16 已知某种电子元件的寿命 X (年)服从参数为 的指数分布,求
①求其寿命小于 2 年的概率.
②若某元件已正常工作了 2 年,求其还能正常继续工作不超过 2 年的概率.
解 由题意可知, ,即
① P { X < 2}= F (2)= 1 - e -0.2×2 = 1 -0.670 3 = 0.329 7,
即该种子电子元件在 2 年内损坏的概率为 32.97%.
②依题意,所求事件为{2 < X ≤4 X > 2},则根据条件概率的定义有
即工作了 2 年的元件,再继续工作 2 年内损坏的概率与最初的 2 年是一样的,都是 32.97%.
指数分布也具有“无记忆性”,设随机变量 X 服从参数为 λ 的指数分布,则对于任意的 s > 0, t > 0,有
假如把 X 解释为寿命,则上式表明,如果已知寿命长于 s 年,则再活 t 年的概率与年龄 s 无关,所以有时又称指数分布是“永远年轻”.
(3)正态分布
定义 2.8 若随机变量 X 的概率密度为
其中 μ , σ 均为常数,且 σ > 0,则称 X 服从 参数为 μ , σ 2 的正态分布 (normal distribution),记作
正态分布的分布函数为
正态分布的概率密度 f ( x )的图形如图 2.10 所示,它具有以下特征:
①正态分布的概率密度函数 f ( x )以 x 轴为渐近线.
②正态分布的概率密度函数 f ( x )在 x = μ 处达到极大,极大值为 ,并且 f ( x )关于 x = μ 对称,即 f ( x + μ )= f ( x - μ ).
③服从正态分布的随机变量落在等长度区间内的概率越靠近 μ 就越大,离 μ 越远, X 落在这个区间上的概率越小.
图 2.10
④如果固定 σ ,改变 μ 的值,则图形沿着 x 轴平移,不改变其形状(图 2.10).如果固定 μ ,改变 σ ,由于最大值 ,可知 σ 越小时图形变得越尖(图 2.11),因而落在 μ 附近的概率越大.
特别,当 μ = 0, σ = 1 时称 X 服从 标准正态分布 ,即 X ~ N (0,1),其概率密度和分布函数分别用 φ ( x ), Φ ( x )表示,即
图 2.11
易知
如图 2.12 所示,显然 Φ (0)= 0.5.
图 2.12
书末附表 3 是 Φ ( x )的数值表.若 X ~ N (0,1),直接查表可得 Φ ( x )的值,从而可求出 x 落在任意区间上的概率,如
一般地,若 X ~ N ( μ , σ 2 ),可通过一个线性变换将它化成标准正态分布.
定理 2.2 若 X ~ N ( μ , σ 2 ),则 .
证 的分布函数为
令 ,得
由此知
推论 若 X ~ N ( μ , σ 2 ),则它的分布函数 F ( x )可表示为
对于任意区间( a , b ],有
例 2.17 设 X ~ N (3,4),求
① P {3 < X < 7}.
② P { X -3 < 2}.
例 2.18 设 X ~ N (0,1),求 x 的值,使 P { X > x } = 0.05.
解 因为
由题意 P { X > x } = 0.05,所以有 2[1 - Φ ( x )]= 0.05,即
查附表 3,得 x = 1.96.
一般地,对随机变量 X ~ N ( μ , σ 2 ),不难算得
如图 2.13 所示,注意第三个数据,我们看到,对于正态随机变量来说,它的值落在区间( μ -3 σ , μ + 3 σ )内几乎是肯定的事件,这就是所谓“3 σ 原则”.
例 2.19 公共汽车车门的高度是按照成年男子与车门顶碰头的机会在 1%以下来设计的.设男子身高服从 μ = 170 cm, σ = 6 cm的正态分布,即 X ~ N (170,6 2 ),问车门高度应如何确定?
解 设车门高度为 h cm,按设计要求 P { X ≥ h }≤0.01 或 P { X < h } ≥0.99.因为 X ~ N (170,6 2 ),故
查附表 3 得
图 2.13
故取 ,即 h ≈184.设计车门高度为 184 cm时, 可使成年男子与车门碰头的机会不超过 1%.
例 2.20 某单位招聘 2 500 人,按考试成绩从高分到低分依次录用,共有 10 000 人报名,假设报名者的成绩 X ~ N ( μ , σ 2 ),已知 90 分以上有 359 人,60 分以下有 1 151 人,问被录用者中最低分为多少?
解 根据题意, , 故
而
反查标准正态分布表,得
同样, , 而
反查标准正态分布表,得
解得
μ = 72, σ = 10,
所以 X ~ N (72,10).
已知录用率 ,设被录用者最低分为 x 0 ,则
二维码 2.3
血液指标分析
反查标准正态分布表,得
解得 x 0 ≈78.75,即被录用者中最低分为 79 分.
二维码 2.4
路程问题
在自然现象和社会现象中,大量随机变量都服从或近似服从正态分布.例如,人体的身高、体重,测量的误差,农作物的收获量,海洋波浪的高度等均服从正态分布.在概率论和数理统计的理论研究和实际应用中,正态随机变量起着特别重要的作用.在第 5 章中我们将进一步说明正态随机变量的重要性.