本节介绍了几种最常见的变量分布,包括离散的二项分布、泊松分布及连续的正态分布、指数分布等。这些分布都来自现实现象,它们各有特点,能解决许多不同的问题。通过阅读本节,读者将掌握概率分布的基本性质。
二项分布是最基本的概率分布,通常用 B ( k ; n , p )来表示, p 代表某一事件的结果为“1”的概率; n 代表随机事件发生的次数; k 代表在这 n 次事件中结果为“1”的事件的个数。将二项分布的两个结果用“0”和“1”来表示。
给定具体的 k 、 n 、 p 后, B ( k ; n , p )便是一个固定的事件。使用 B k 来指代这一事件,则有公式 成立,其中 k 为不大于 n 的整数。
改变某一事件的结果为“1”的概率 p 和 n 次事件中结果为“1”的事件的个数 k , P ( B ( k ; n , p ))的值也会发生变化。图3.1揭示了这种变化。
图3.1 不同的二项分布图
图3.1将伯努利实验的次数固定为10次。当 p 为0.1时, k 为1的概率比较大,随着 k 的增加, P ( B ( k ; n , p ))逐渐减小。当 p 增大时, P ( B ( k ; n , p ))先随着 k 的增加而增加,达到极大值后,再随着 k 的增加而减小。此外, p 越接近0.5, P ( B ( k ; n , p ))形成的曲线就越对称,曲线的最高点也越低。
将 P ( B ( k ; n , p ))取到最大值的项称为中心项,中心项对应的 k 称为最可能成功次数。由图3.1可知,当 p 为0.1、 k 取1时, P ( B ( k ; n , p ))最大,1即为最可能成功次数。即 p 为0.1时,做10次伯努利实验,结果为“1”的实验次数最可能是1。
此外,当 n 越来越大时,最可能成功次数对应的 P ( B ( k ; n , p ))会越来越小,其值趋于 ,显然,当 n 趋于无穷大时,该值会趋于0。
一种从二项分布推广而来的分布是几何分布。以购买彩票为例,这个实验仅有中奖和不中奖两种结果,仍旧假设中奖的概率是 p ,若一个人每天都买彩票,一直买到中奖为止,那么他在第 k 天中奖的概率是多少?
要令这个人恰好在第 k 天第一次中奖,就需要在前 k -1天都不曾中奖,并且在第 k 天恰好中奖。这件事的概率就是(1- p ) k -1 · p 。通常用 g ( k , p )来表示这个概率分布,其中 k 为实验首次成功的次数; p 为实验成功的概率。符合这个形式的概率分布就是几何分布。
几何分布是一种常见的概率分布,它还有一个二项分布和多项分布都不具备的特殊性质,即无记忆性。
仍以买彩票为例,若已知买彩票时,前5次不中奖后在第6次中奖的概率是0.05,前10次不中奖后在第11次中奖的概率是0.1,那么若某个人已经买了5次没中奖的彩票,他再买6次彩票,且在第6次买彩票时首次中奖的概率是多少?
答案是0.05。
换句话说,无论之前失败多少次,都不会影响后续的结果,之后的概率分布依旧服从几何分布。这个结论反过来也成立。将实验首次成功的时间记为 η ,若已知 η > k , η = k +1的概率与 k 无关,那么 η 服从几何分布。
当二项分布中的 n 和 k 较小时,计算二项分布的概率值是比较容易的;但是随着 n 和 k 的增长,计算也变得复杂起来。如果能将二项分布中的两个参数合并为一个参数,计算也会相对容易一些。
根据这个思路,数学家泊松找到了一个二项分布的近似分布。这个近似分布通常用 p ( k ; λ )来表示,其对应的概率分布计算公式为 ,其中 k 为实验成功的次数; λ 为分布的参数。
回顾二项分布 B ( k ; n , p ),其中 n 为总的实验次数; p 为每次实验成功的概率,那么当 n 趋于无穷大时, n·p 趋于 λ ,则 B ( k ; n , p )就趋于 。
图3.2画出了 n 为10、 p 为0.3的二项分布与 λ 为3的泊松分布各自的概率散点图。图中圆形散点对应着二项分布,星形散点对应着泊松分布。此处 n 与 p 的乘积恰好等于 λ ,二项分布与泊松分布的概率分布也十分相似。
图3.2 二项分布与泊松分布
泊松分布的其他性质也与二项分布十分相似。当 λ 固定时, P ( p ( k ; λ ))先随着 k 的增加而增加,达到极大值后,又随着 k 的增加而减小。此外, λ 越大, P ( p ( k ; λ ))形成的曲线就越对称,曲线的最高点也越低。但与二项分布不同的是,泊松分布的概率值仅与 λ 有关。
泊松分布的发现大大减少了二项分布的计算量,自然生活中有许多现象都服从泊松分布,这也提高了泊松分布的重要性。
服从泊松分布的随机现象主要集中在两个领域。一个是社会生活领域,例如,电话交换台的呼叫数、网站的访问数、车站候车的乘客数等都近似地服从泊松分布;另一个是物理学领域,例如,热电子的发射数、显微镜下落在某区域的微生物数、放射性物质放射出的质点数等都近似地服从泊松分布。
正态分布是最重要的一种随机分布,与泊松分布类似,它也是从二项分布中推导得出的一种随机分布。回顾图3.1,二项分布的参数 p 越接近0.5,根据 P ( B ( k ; n , p ))绘制的概率图就越向中央集中,且越对称。
前文已经提到,泊松分布是二项分布的近似分布,当 n - p 的值趋于 λ ,二项分布就趋于参数为 λ 的泊松分布。类似地,当 n - p 的值趋于无穷大时,二项分布就趋于正态分布。
图3.3所示是高尔顿板实验,将小球从顶部投入,小球需要穿过10行钉板才能到达底部。穿过每行钉板时,小球转向左侧和转向右侧的概率都是1/2。小球最后落入底板的某一个格子中。
图3.3 高尔顿板实验
高尔顿板实验可看作关于二项分布 P ( B ( k ; 10, 0.5))的实验,投入大量小球后,最后结果总是如图3.3所示,形成一个格子越靠近中央,小球越多,且十分对称的形状。将它用曲线画出后,即可得到一条略粗糙的正态曲线。如果钉板有无数行,下方的底板有无数个,此时小球的可能结果也有无数个,结果就从离散分布变成了连续分布。若用无数个小球做实验,最后即可得到一条完美的正态分布。
正态分布的密度函数为 ,其中 μ 与 σ 为正态分布的参数,正态分布也简记为 N ( μ , σ 2 ),其对应的分布函数为 。它的密度曲线和分布曲线绘出后如图3.4所示。
图3.4 正态分布的密度曲线(a)和分布曲线(b)
由图3.4可以看出,正态分布的密度曲线是左右对称的,而它的分布曲线则沿中心点对称。
正态分布有两个参数,其中 μ 为正态分布的均值; σ 为正态分布的标准差。将 μ 为0、 σ 为1的正态分布称为标准正态分布。
观察图3.4,可以发现标准正态分布恰好以纵轴为对称轴,在原点处取得最高值。实际上,正态分布总是以 x = μ 处的垂直线为对称轴,且在该处取得最高点。而标准正态分布的 μ 正好为0。
由正态分布的密度函数可知,正态分布在 x = μ 处的最高点为 。且正态分布在(-∞, μ ]上严格递增,在[ μ ,+∞)上严格递减。当 x 趋于正负无穷时, p ( x )趋于零。由于正态分布的对称轴总为 x = μ ,故当 μ 增加时,正态分布右移;当 μ 减少时,正态分布左移。
如果说均值决定了正态分布的位置,那么标准差就决定了正态分布的扁平程度。标准差用于度量数据的集中程度,数据越集中,标准差就越小,对应的正态分布就越“险峻”;数据越分散,标准差就越大,对应的正态分布就越“平坦”。
指数分布也是一种连续分布,常用于各种“寿命”分布的近似。它的密度函数为
指数分布依赖于参数 λ ,简记为Exp( λ ),由它的密度函数,可推出它的分布函数为
指数分布经常应用于计算电子元件的寿命、某些动物的寿命、电话问题中的通话时间等,这些关于“寿命”的现象都服从指数分布。以电子元件为例,将一个电子元件使用至损坏的过程称为衰减过程,参数 λ 决定了衰减过程的快慢。
图3.5展示了3个参数 λ 不同的指数分布,当参数 λ 取1.5时,曲线下降的速度最快,电子元件的生存时间集中在两个小时以内。当参数 λ 取0.5时,曲线下降的速度最慢,电子元件的生存时间随着时间的增大而缓速下降。
图3.5 参数λ不同的指数分布
指数分布的期望是 λ 的倒数, λ 越大,电子元件的平均生存时间也就越小。当参数 λ 取1.5时,电子元件的生存时间小于两个小时的概率接近0.8,小于3个小时的概率接近1。当参数 λ 取0.5时,分布曲线的增加过程最缓慢, x 为5时,该曲线仍未逼近1。
考虑到电子元件的生存时间存在取到无穷大的可能,因此指数分布的分布函数会随着 x 的增加无限逼近1,而不会等于1。
指数分布最重要的一个性质为无记忆性。假设某电子元件生存时间长于两个小时的概率是0.2,若已知某电子元件已经生存了一个小时,那么它接下来的生存时间长于两个小时的概率仍为0.2。即如果某电子元件在时刻 t 还“活着”,那么它接下来的存活概率与时刻 t 之前无关,剩余寿命的分布仍与原来的寿命分布相同。
指数分布的无记忆性与几何分布中的无记忆性是相同的。这表明一个新的笔记本电脑的剩余寿命与一个已经用了两年的笔记本电脑的剩余寿命相同。实际上,笔记本电脑的损坏通常是由一些偶然原因造成的,例如,过高的突发电流等。电子元件的自身损耗是十分微小的。
不过,电器厂商并不会将电器的功能参数填成无限大,这是由于电子元件总会累积一些损耗,一旦出现损耗,电器寿命服从的指数分布就发生了变化,突发事件的发生概率也就增大了。
泊松过程与指数分布有紧密的联系。泊松过程用 N ( t )表示 t 时刻内事件发生的次数。不妨用 T n表示第 n 个事件发生的时间, X n表示第 n 个事件与第 n -1个事件发生的时间间隔,那么 X n就等于 T n与 T n-1之差。
如果 N ( t )是强度为 λ 的泊松过程,则此时有 X n服从参数为 λ 的指数分布;且当 n 取值不同时,对应的 X n相互独立。这个结论反过来也成立,如果每次事件发生的时间间隔相互独立,且都服从参数为 λ 的指数分布,对应的 N ( t )即为强度为 λ 的泊松过程。
这一结论的实际意义如下:假如某保险公司平均每年支付一笔赔付,在6月支付了一笔赔付,在7月又支付了一笔赔付,则支付下一笔赔付的时间间隔仍服从指数分布,不会因为今年支付的赔付数大于平均支付的赔付数而发生改变。
换言之,泊松过程在任何时刻都会“重新开始”,事件在任何相同长度的区间内发生的概率都是相等的。泊松过程的平稳增量性与指数分布的无记忆性是相互对应的。