在第一节引入统计概率的概念时,我们提到随机事件发生的频率随着试验次数 n 的增加而逐渐稳定为某个常数,因此频率的稳定性是定义概率的客观基础。大数定律则是事件发生的频率具有稳定性的数学描述;中心极限定理给出了大量随机变量之和逼近正态分布的条件。下面主要介绍大数定律和中心极限定理。
基于随机变量的数学期望与方差的概念,先介绍切比雪夫不等式。
如果随机变量 X , E ( X )= μ , D ( X )= σ 2 ,则对任意 ε >0有
这就是 切比雪夫不等式 (Chebyshev inequality),其等价不等式为
证明 :设连续型随机变量 X 的概率密度函数为 f ( x ),有
切比雪夫不等式给出了在随机变量的分布未知而数学期望和方差已知的情况下,快速估算随机变量落在有限区间上的概率的方法。
例 1.11 :事件 A 发生概率 P ( A )=0.5,求 n =1000次试验中事件 A 发生的次数在400~600次之间的概率。
解 :设事件 A 发生的次数为 X , X ~ B (1000,0.5),有
利用切比雪夫不等式(1.94),可得
概率论中的极限定理以及数理统计学中各种统计量的极限性质,都是按随机变量序列的各种不同的收敛性来研究的。以下是几种常用的收敛概念:
(1)设 X 1 , X 2 ,…, X n ,…是一随机序列, X 为一常数,若对任意 ε >0,有
则称序列 X 1 , X 2 ,…, X n ,… 依概率收敛 (convergence in probability)于 X 。
(2)设 X 1 , X 2 ,…, X n ,…是一随机序列, X 为一随机变量,若
则称序列 X 1 , X 2 ,…, X n ,… 以概率 1 收敛 (converges with probability 1)于 X 。
(3)设 X 1 , X 2 ,…, X n ,…是一随机序列, X 为一随机变量,若
则称序列 X 1 , X 2 ,…, X n ,… 以均方收敛 (converges in mean square)于 X 。
以概率1收敛是从随机变量的值出发,阐明事件发生的频率和观测值的算术平均几乎必然收敛于该事件的概率和总体的均值,约束最为严格;均方收敛是从整体的二阶矩考虑随机变量值,约束比较严格,在宽平稳过程(见1.10小节)理论中经常用到;依概率收敛同样是考虑随机变量值,表明随机变量 X n 与 X 发生较大偏差的概率随 n 的增大而趋于零。
大数定律是一种描述当试验次数很大时所呈现的概率性质的定律。这里仅介绍常用的两个重要定律:
设随机变量 X 1 , X 2 ,…, X n 相互独立且同分布,则对任意 ε >0,有
其中 μ 为 X i 的期望。若 X 1 , X 2 ,…, X n 非同分布,则有
证明 :记 ,则有
由切比雪夫不等式(1.94),有
在上式中令 n →∞,由概率的性质,可得
切比雪夫大数定理表明,随着试验次数 n 的增加,样本平均数将接近于总体平均数。这为采用样本平均数作为总体平均数的估计提供了理论依据。
设 n A 为 n 次独立试验中 A 发生的次数, p 为 A 发生的概率,对给定 ε >0,有
证明 :引入随机变量序列
则 ,且 X k 相互独立。又 X k ~ B (1, p ),故有
由切比雪夫定理,有
即
伯努利大数定理表明,当独立试验重复次数 n 无限增大时,事件 A 发生的频率依概率收敛于事件 A 的概率 p 。
在客观实际中,许多随机变量受大量的相互独立的随机因素的综合影响,而其中每一个因素所起的作用都是微小的。这种随机变量往往近似服从正态分布,这一现象就是中心极限定理的客观背景。下面给出两个常用的 中心极限定理 (central limit theorem):
设随机变量 X 1 , X 2 ,…, X j ,…, X n 相互独立,服从同一分布,且具有有限的数学期望 E ( X )= μ 和方差 D ( X )= σ 2 ≠0,则随机变量
的分布函数 F n ( y )对于任意 y ,满足
证略。
设随机变量 X n ( n =1,2,…)是具有参数为 n , p (0< p <1)的二项分布,则当 n →∞时, X n 趋向于正态分布 N ( np , np (1- p )),且对任意区间( a , b ]恒有
此定理表明,当 n 较大(≥50)时,可用正态分布计算二项分布的近似值。
例 1.12 :保险公司有10000人参保,保险费1800元/人。若投保人死亡,需赔偿250000元。问何种情况下保险公司亏本及其概率(死亡率 p =0.006)?
解 :保险公司亏本应为保险金少于赔偿金,即死亡人数 X 多于10000×1800/250000=72人时,其概率为