



本节将简单介绍大数定律与中心极限定理。
大数定律,也称为大数法则或大数定理,是概率论领域的基本定律之一。最早的大数定律由瑞士人Jacob Bernouli于1713年发现。伯努利大数定律的基本概念是:当大量重复某一试验时,最后的频率无限接近事件概率。大数定律本质上反映的是当随机现象的观察量足够大时,随机事件A出现的频率几乎接近其发生的概率,即频率具备一定的稳定性。其基本逻辑是,如果被研究现象的总体是由大量相互独立的随机因素形成的,而且每个随机因素对总体的影响都相对较小,那么对大量随机因素进行综合平均,个别随机因素的影响将互相抵消,并显现出它们共同作用的倾向,使总体具有稳定的性质。
契比雪夫进一步丰富了大数定律,相较于伯努利大数定律不再要求随机因素相互独立,指出当抽取的样本容量足够大时,样本的算术平均值会接近总体的数学期望。具体来说,如果由随机变量构成的总体具有有限的平均数和方差,则对于充分大的抽样单位数 n (至少 n >30),将会有几乎趋近1的概率使得样本平均值接近总体平均值。
不论是伯努利大数定律,还是契比雪夫大数定律,均强调了样本容量在以样本推断总体中的重要作用,为统计学中从样本出发来估计总体分布参数提供了理论依据。在挖掘现象的某种总体性规律时,将具有这种现象的足够多的样本加以综合汇总时,这种规律就能够明显地显示出来。一言以蔽之,当样本容量足够大时,就足以代表总体。
中心极限定理是指,不论总体服从何种分布,只要总体变量存在着有限的平均值和标准差,那么抽取的样本观测值数量越大,取样次数越多,样本平均值的分布也就越接近一条正态分布曲线。或者说,如果从某个总体中多次随机抽取数量足够多的样本,那么这些样本的平均值会以总体平均值为中心呈现正态分布。普遍经验表明,当样本数量超过30时,中心极限定理才能成立。
当抽取的样本观测值数量充分大、取样次数充分多时,样本平均值近似地服从正态分布,且样本的平均值等于总体平均值,样本平均值的标准误差
,其中
σ
为总体的标准差,
n
为样本观测值数。
标准差(在SPSS窗口界面通常为“标准偏差”)是用来衡量在一次抽取样本时,所抽取样本中所有样本观测值之间的差异程度。它是方差的平方根,而方差是一组样本数据与这组样本数据各样本观测值的平均值之差的平方数的算术平均值。标准差计算公式为:
标准误差衡量的是多次抽取样本时,多组样本平均值之间的差异程度,反映的是抽取的样本能否较好地代表总体,是所有样本平均值的标准误差,等于总体标准差除以样本量的平方根。其计算公式如下:
其中σ代表标准差, n 代表样本量。
如果标准误差很大,意味着样本平均值在总体平均值周围分布得极为分散;如果标准误差很小,意味着样本平均值之间的聚集程度很高。