上一节中,通过赌徒谬误介绍了概率论中的大数定律。大数定律说的是当随机事件重复多次时频率的稳定性,随着试验次数的增加,事件发生的频率逐渐稳定于某个常数,即实验得到的频率将趋近于预期的“概率”。对抛硬币实验而言,如果硬币是两面理想对称的,那么,抛多次之后,正面(1)出现的频率将逼近0.5;如果硬币不对称,正面(1)出现的频率也将逼近某一个极限值 p ,即出现1的概率。
大数定律决定试验多次后平均值的极限,但并未涉及事件频率(或者概率)的分布问题。随机变量取值概率形成的分布称为概率分布。概率分布函数在概率论中有其严格的定义,这里我们首先从通俗意义上理解一下“分布”。
比如说,统计100个3岁男孩的身高数据,结果如图1-6-1(a)左边的表格所示。我们可以将男孩的身高看作一个随机变量,这100个数据代表身高的100个样本值。这些样本值从91cm到100cm变化,表中没有给出每个样本的准确数值,只给出了每1cm范围中的样本数目(人数)。位于每一段身高范围中的人数可以转换成身高取值在该范围的概率,分别对应于1-6-1(a)右图中的两个垂直坐标轴。由此数据可计算身高的平均值大约为95.5cm。显而易见,平均值仅仅描述了这100个数据的部分特征,并不能说明100个数据在每个值附近的分布情况。也就是说,分布描述的是每一个不同的数据段中的人数,在总人数中所占的比例,也就是概率。比如,从1-6-1(a)右图可知:男孩身高在95~96cm的概率是22%,93~94cm的概率是14%,99~100cm的概率是2%……
图1-6-1 概率分布函数和概率密度函数例子
(a)3岁男孩身高的分布;(b)分布函数和密度函数
图1-6-1(a)右图所示图像的包络线是概率分布的密度函数 p ( x )。另一个相关概念是概率分布函数 P ( x 0 ),指的是 x < x 0 范围内事件发生的概率。概率分布函数和概率密度函数之区别见图1-6-1(b)。
回到抛硬币的例子,抛硬币的概率可以用二项分布描述。比如说,我们将一枚均匀硬币抛4次,正反(1、0)出现的可能性有16种(可用从0000到1111的16个二进制数表示),大数定律中涉及的概率 p =0.5,指的是这16种情形的平均值。而所谓“分布函数”,则是描述这16种可能性在概率图中分别所处的位置。从理论上说,这16种可能性中,1出现0、1、2、3、4次的概率,分别是1/16、4/16、6/16、4/16、1/16。图1-6-2(a)显示的便是当实验次数 n =4时,1的概率对不同“出现次数”的分布情形。
图1-6-2 多次抛硬币得到正面的概率分
(a)正面的次数;(b)二项分布
显而易见,抛硬币概率的分布图形随着抛掷次数 n 的变化而变化。抛硬币实验 n 次的概率分布就是二项分布。对对称硬币来说,二项分布是一个取值对应于二项式系数的离散函数,也就是帕斯卡三角形中的第 n 行。当实验次数 n 增大,可能的排列数也随之增多,比如,当 n =4时对应于(1、4、6、4、1);当 n =5时,对应于帕斯卡三角形中的第5行(1、5、10、10、5、1)……然后再依次类推下去。图1-6-2(b)中,画出了 n =5、20、50的概率分布图。
图1-6-2所示是“概率”分布图,不是真实实验所得的“频率”分布图。中心极限定理说的不仅仅是当实验次数很大时“频率”逼近“概率”的问题,而更为重要的是:当 n 足够大时,二项分布逼近一个特别的理想分布:正态分布,也被称为高斯分布。因其曲线呈钟形,因此人们又经常称之为钟形曲线。
为了更为直观地理解大数定律和中心极限定理,在图1-6-3中,将抛硬币所得的结果用数值表示(正面=1,反面=-1)。如此赋值以后,大数定律指的是:抛硬币多次( n 趋近无限大)后,结果的平均值将趋近于0,即正反面出现次数相等,其数值相加而互相抵消了。中心极限定理则除了考虑平均值(=0)之外,还考虑结果的分布情形:如图1-6-3(b)所示,如果只抛1次,出现正面(1)和反面(-1)的概率相等,对应于公平硬币的等概率分布,平均值为0。当抛掷次数 n 增加,平均值的极限值仍然保持为0,但点数和的分布情形变化了。 n 趋近无穷时,分布趋于正态分布,这是中心极限定理的内容。
图1-6-3 大数定律和中心极限定理(彩图附后)
(a)大数定律:平均值趋于0;(b)中心极限定理:趋于
二项分布不一定是对称的。图1-6-2及图1-6-3的图形对称,因为所示是均匀硬币( p =0.5)的概率分布,如果正面出现的概率 p 不等于0.5,即不是理想的均匀硬币的话,得到正反两面的概率不同,概率分布图便可能不对称。图1-6-4显示的是 p =0.1到1变化, n =20的概率分布图。
图1-6-4 不对称二项分布
除了二项分布之外,还有许多其他类型的概率分布,如泊松分布、指数分布、几何分布等。此外,对连续型随机变量,概率分布函数的概念用概率密度函数代替。
最常见的概率分布是正态分布。
正态分布最早是法国数学家棣莫弗(1667—1754)在1718年左右发现的。他为解决朋友提出的一个赌博问题,而去认真研究了二项分布。他发现当实验次数增大时,二项分布( p =0.5)趋近于一个看起来呈钟形的曲线。从图1-6-2(b)中 n =50的二项分布也看出这点。因为二项分布中需要用到阶乘的计算,棣莫弗由此而首先发现了(后被斯特灵证明)斯特灵公式,很方便用于 n 很大时阶乘的近似计算。棣莫弗进一步从理论上推导出了高斯分布的表达式。
大量的统计实验结果告诉我们:钟形曲线随处可见。我们的世界似乎被代表正态分布的“钟形”包围着,很多事物都是服从正态分布的:人的高度、雪花的尺寸、测量误差、灯泡的寿命、IQ分数、面包的分量、学生的考试分数,等等。19世纪的著名数学家庞加莱曾经说过:“每个人都相信正态法则,实验家认为这是一个数学定理,数学家认为这是一个实验事实。”大自然造物的美妙深奥、鬼斧神工,往往使人难以理解。钟形分布曲线无处不在,这是为什么呢?其奥秘来自于中心极限定理。
如上所述,棣莫弗证明了 p =0.5时二项分布的极限为高斯分布。后来,著名法国数学家拉普拉斯对此作了更详细的研究,并证明了 p 不等于0.5时二项分布的极限也是高斯分布。之后,人们将此称为棣莫弗—拉普拉斯中心极限定理 。
再后来,中心极限定理的条件逐渐从二项分布推广到独立同分布随机序列,以及不同分布的随机序列。因此,中心极限定理不是一个定理,成为研究何种条件下独立随机变量之和的极限分布为正态分布的一系列命题的统称。
不得不承认中心极限定理的奇妙。在一定条件下,各种随意形状概率分布生成的随机变量,它们加在一起的总效应,是符合正态分布的。这点在统计学实验中特别有用,因为实际上的随机生物过程或物理过程,都不是只由一个单独的原因产生的,它们受到各种各样随机因素的影响。然而,中心极限定理告诉我们:无论引起过程的各种效应的基本分布是什么样的,当实验次数 n 充分大时,所有这些随机分量之和近似是一个正态分布的随机变量(图1-6-5)。
图1-6-5 中心极限定理
在实际问题中,常常需要考虑许多随机因素所产生的总影响。例如,许多因素决定了人的身高:营养、遗传、环境、族裔、性别,等等,这些因素的综合效果,使得人的身高基本满足正态分布。另外,在物理实验中,免不了有误差,而误差形成的原因五花八门。如果能够分别清楚产生误差的每种单一原因,误差的分布曲线可能不是高斯的,但是所有误差加在一起时,实验者通常得到一个正态分布。
弗朗西斯•高尔顿(Sir Francis Galton, 1822—1911)是英国著名的统计学家、心理学家和遗传学家。他是达尔文的表弟,虽然不像达尔文那样声名显赫,但也不是无名之辈。并且,高尔顿幼年是神童,长大是才子,九十年的人生丰富多彩,是个名副其实的博学家。他涉猎范围广泛,研究水平颇深,纵观科学史,在同辈学者中能望其项背之人寥寥可数。他涉足的领域包括天文、地理、气象、机械、物理、统计、生物、遗传、医学、生理、心理等,还有与社会有关的人类学、民族学、教育学、宗教,以及优生学、指纹学、照相术、登山术,等等。
在达尔文发表了《物种起源》之后,高尔顿也将研究方向转向生物及遗传学,他第一个对同卵双胞胎进行研究,论证了指纹的永久性和独特性。他从遗传的观点研究人类智力并提出“优生学”,是第一个强调把统计学方法应用到生物学中去的人,他设计了一个钉板实验,希望从统计的观点来解释遗传现象。
如图1-6-6中所示,木板上订了数排( n 排)等距排列的钉子,下一排的每个钉子恰好在上一排两个相邻钉子之间;从入口处放入若干直径略小于钉子间距的小球,小球在下落的过程中碰到任何钉子后,都将以1/2的概率滚向左边,以1/2的概率滚向右边,碰到下一排钉子时又是这样。如此继续下去,直到滚到底板的格子里为止。试验表明,只要小球足够多,它们在底板堆成的形状将近似于正态分布。因此,高尔顿钉板实验直观地验证了中心极限定理。
图1-6-6 高尔顿钉板实验
中心极限定理似乎解释了处处是正态分布的原因,但仔细一想又不明白了:为什么大自然这个“上帝”创造出来一个中心极限定理呢?科学之所以如此有趣,正是在于这种连续不断的“为什么”激发出来的好奇心,一个又一个的追问和困惑吸引我们对世界万物进行永无止境的探索!
物理学中有一个最小作用量原理 ,无疑是大自然最迷人、最美妙的原理之一。它的简洁性和普适性令人震撼,就像歌德的诗句中所描述的:“写这灵符的是何等神人?使我内心的沸腾化为安宁,寸心充满欢愉!它以玄妙的灵机,为我揭开自然的面巾!”大自然犹如一个经济学家,总是使得物理系统的作用量取极值。概率和统计中的中心极限定理,往往也带给人们类似的震撼和惊喜。事实上,中心极限定理也与一个极值“原理”有关,那是我们在本书的后面章节中将介绍的“熵最大原理”。正态分布是在所有已知均值及方差的分布中,使得信息熵有最大值的分布。换言之,正态分布是在均值以及方差已知的各种分布中,被大自然选择出来的“特殊使者”,有其深奥的物理意义,充分表现出随机中的必然。就像光线选择时间最短的路径传播,引力场中的物体沿测地线运动一样,随机变量按照最优越的钟形曲线分布!
就数学理论而言,正态分布的确有不少优越性:①两个正态分布的乘积仍然是正态分布;②两个正态分布的和是正态分布;③正态分布的傅里叶变换仍然是正态分布。
我们还可以用与微积分中泰勒展开类比的方法,来理解大数定律和中心极限定理。微积分中,将一个连续可导函数 f ( x )在 a 的邻域泰勒展开为幂级数,可以近似计算函数的值:
这里,0阶近似 f ( a )是 f ( x )在 a 处的值,1阶修正中的 f′ ( a )是 f ( x )在 a 处的一阶导数值……剩余的是高阶小量,一定的条件下可忽略不计。从上式可知,函数泰勒展开的 n 阶系数是函数的 n 阶导数除以 n 的阶乘,即 f ( n ) ( a )/ n !。类似于此,我们可对随机变量 X 作形式上的展开:
X = nE ( X )+sqrt( n )std( X ) N (0,1)+…
其中随机变量的期望值 E ( X )对应于 f ( a ),标准方差的平方根std( X )对应于一阶导数,正态分布 N (0,1)对应于( x - a ),后面是可以忽略的高阶小量。此外,也可以用物理学中“矩”的概念来描述随机变量的各阶参数:期望值 μ 是一阶矩,方差 σ 2 是二阶矩。大数定律给出一阶矩,表示随机变量分布的中心;中心极限定理给出二阶矩(方差),表示分布对中心(期望值)的离散程度。如果还考虑高阶小量的话,三阶矩对应“偏度”,描述分布偏离对称的程度;四阶矩对应峰度,描述随机分布“峰态”的高低。正态分布的偏度和峰度皆为0,因此,正态分布只需要两个参数 μ 和 σ 就完全决定了分布的性质,见图1-6-7(b)。图1-6-7(a)显示的是,无论总体分布是何种形状,根据中心极限定理,当抽样数 n 足够大时,其分布可用两个简单参数的正态分布近似。这点给实际计算带来许多方便,再一次体现了中心极限定理的威力。
图1-6-7 正态分布
(a)总体分布和抽样分布;(b)正态分布两个参数 μ 和 σ
中心极限定理从理论上证明了,在一定的条件下,对于大量独立随机变量来说,只要每个随机变量在总和中所占比重很小,那么不论其中各个随机变量的分布函数是什么形状,也不论它们是已知还是未知,当独立随机变量的个数充分大时,它们的和的分布函数都可以用正态分布来近似。这就是为什么实际中遇到的随机变量,很多都服从正态分布的原因,这使得正态分布既成为统计理论的重要基础,又是实际应用的强大工具。中心极限定理和正态分布在概率论、数理统计、误差分析中占有极其重要的地位。
正态分布的应用非常广泛,下面便举两个简单例子予以说明。
例1: 小王到某保险公司应聘,经理给他出了一道考题:如果让你设计一项人寿保险,假设客户的数目有1万左右,被保险人每年交200元保费,保险的赔偿金额为5万元,估计当地一年的死亡率(自然+意外)为0.25%左右,那么你会如何计算公司的获利情况?
小王在经理面前紧张地估算了一下:从1万个客户得到的保费是200万元,然后1万人乘以死亡率,可能有25人死亡,赔偿金额为25×5万元,等于125万元。所以,公司可能的收益应该是200万元减去125万元,等于75万元左右。经理面露满意的笑容,但又继续问:75万元只是一个大概可能的数目。如果要你具体大略地估计一下,比如说公司一年内从这个项目得到的总收益为50万~100万元的概率是多少,或者是需要估计公司亏本的概率,你怎么算呢?
这下难倒了小王:要真正计算概率需要用到分布,这是什么分布啊?小王脑袋里突然冒出大学统计课上学过的“中心极限定理”。1万个客户的数目应该足够大了,所以这道题目应该可以用正态分布来计算。然而,正态分布需要知道平均值和方差,又该如何计算它们呢?小王心想,这种人寿保险的规则是,受保人死亡公司给赔偿,没死就不赔偿,是一个像抛硬币一样的“二项分布”问题,只不过这里死亡的概率比较小,不像抛公平硬币时正面(或反面)出现的概率各有50%。这个问题中保险公司赔偿的概率只是0.25%。但没关系,照样可以应用正态分布来近似,只要知道了期望和方差,概率便不难计算。小王回想起来正态分布的简单图像以及几个关键数值,于是,在纸上画了画,算了算(图1-6-8):这个具体情况下,二项分布的平均值 μ = E ( X )= np =10 000×0.25%=25,二项分布的方差( σ 2 =Var( X )= np (1- p )=25),由此可以得到 σ =5。
图1-6-8 正态分布用于估计人寿保险
然后,要计算公司赚50万~100万元的概率,从图1-6-8可知,也就是死亡人数在20~30之间的概率,刚好就是从 μ - σ 到 μ + σ 之间的面积,在68.2%左右。至于公司何种情况下会亏本呢?直观而言,如果死亡的人数多于40,公司便亏本了,概率到底是多少呢?同样可用正态分布图进行估计,40和25之间相差15,等于3 σ ,因而得到概率大约等于0.1%,所以,保险公司亏本的概率几乎为零。
例2: 图1-6-9(a)是美国2010年1 547 990个SAT考试成绩的原始数据,其中有1 313 812个分数在1850之下,有74 165个成绩是在2050分以上。由此我们从原始数据可以算出:分数在1850分之下的比例是84.9%,分数在2050之上的比例是4.79%。
另一方面,原始的结果可以用一个平均分数 μ =1509,标准方差的平方根 σ =312的正态曲线来近似。因此,我们也可以从正态分布曲线来计算分数低于1850分及高于2050分的百分比,它们分别对应于图1-6-9(b)和(c)中阴影部分的面积。根据高斯积分求出两个图中的面积分别为0.8621和0.0418。对照从原始数据的计算结果0.849和0.0479,相差非常小。
图1-6-9 SAT成绩
(a)SAT成绩原始数据;(b)求分数低于
图1-6-9(续)