



在统计学中,概率分布有离散型概率分布和连续型概率分布两种。
如果随机变量
X
的取值是离散的,比如取值为
,对应的取值概率分别为
,其中每个
p
i
都大于或等于0,且所有的
p
i
之和为1,那么就称
X
为离散型随机变量,服从离散型概率分布。统计学中的离散型概率分布主要包括伯努利分布(Bernoulli Distribution)、二项分布、泊松分布、负二项分布、多项分布等。
伯努利分布是为纪念瑞士科学家雅各布·伯努利而命名的,又称两点分布或者0-1分布。伯努利分布起源于伯努利试验(Bernoulli Trial)。考虑只有两种可能结果的随机试验,当成功的概率是恒定的且各次试验相互独立时,这种试验在统计学上被称为伯努利试验。伯努利试验只有一次试验,且只有成功、失败两种可能:若伯努利试验成功,则伯努利随机变量取值为1;若伯努利试验失败,则伯努利随机变量取值为0。因此,在伯努利分布中,只有一次试验,随机变量的取值也只有0和1两种可能。若将取1的概率设定为 p ,则取0的概率为1- p 。
伯努利分布的概率函数为:
P ( X = k )= p k ×(1- p ) 1- k k =0,1
二项分布是 n 个独立的成功/失败试验中成功次数的离散概率分布,其中每次试验的成功概率为 p 。因此,二项分布实质上是多次伯努利试验结果的概率分布。当 n =1时,二项分布就变成了伯努利分布。二项分布具有以下3个特点:
● 每次试验有两个可能的结果,这两个结果是互斥的,例如下雨或不下雨。
● 每次试验之间相互独立,某次试验的结果不会影响其他试验的结果。
● 每次试验发生事件的概率都是相同的,在整个系列试验中保持不变。
二项分布因为是多次伯努利试验,所以它衡量的是成功次数的概率,即在 n 次试验中,成功的次数 X 对应的概率。二项分布记为 X ~ B ( n , p ),概率函数为:
泊松(Poisson)分布由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)于1838年提出,用于描述单位时间或单位空间内随机事件发生次数的概率分布。
泊松分布的概率函数为:
其中,泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。当二项分布的 n 很大而 p 很小时,泊松分布可作为二项分布的极限近似,其中λ= np 。通常当 n ≥20, p ≤0.05时,就可以用泊松公式来近似计算。
如果随机变量 X 的取值是连续实数,比如取值为(-∞,+∞),则称 X 为连续型随机变量,服从连续型概率分布。
对于连续型随机变量,因为其取值是连续的,所以其取值概率的测量是通过概率密度函数来进行的。所有概率密度函数 f ( x )都具有以下共性特点:
(1)针对任意
x
,都有
f
(
x
)≥0,概率
。
(2)随机变量
X
的取值落入区间[
m
,
n
]的概率为
。
对于连续型概率分布,还有一个重要的概念是累计密度函数 F ( x ),其计算公式为:
统计学中的连续型概率分布主要包括正态分布(高斯分布)、卡方分布、T分布和F分布等。
正态分布(Normal Distribution)也称高斯分布(Gaussian Distribution),是应用最为广泛的一种连续型概率分布形式,也是许多统计方法的理论基础,通常被认为是概率论中最重要的分布之一。不论是在学术研究领域,还是在应用实践领域,很多随机变量的概率分布都可以近似地用正态分布来描述。参数检验、方差分析、相关和回归分析等多种统计方法均要求分析的变量服从正态分布。
如果随机变量 X 的概率密度函数为:
则称 X 服从正态分布,记为 X ~ N ( μ , σ 2 )。其中 μ 为随机变量 X 的期望,是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以 X = μ 为对称轴,左右完全对称。正态分布的期望、均数、中位数和众数相同,均等于 μ 。
正态分布的图形化表达如图3.1所示。概率规律表明,离 μ 越近的值的概率越大,而离 μ 越远的值的概率越小。 σ 2 为随机变量 X 的方差,是正态分布的形状参数,用于描述正态分布的离散程度, σ 越大则数据分布越分散,正态分布曲线越扁平;而 σ 越小则数据分布越集中,正态分布曲线越瘦高。
图3.1 正态分布的图形化表达
正态分布曲线下方,横轴区间( μ - σ , μ + σ )内的面积略大于68%。
横轴区间( μ -2 σ , μ +2 σ )内的面积略大于95%。
横轴区间( μ -3 σ , μ +3 σ )内的面积略大于99.7%。
随机变量 X 落在[ μ -3 σ , μ +3 σ ]以外的概率在0.003以下,因此在实际应用中,通常认为这些事件几乎不可能发生。因此,区间[ μ -3 σ , μ +3 σ ]被视为随机变量 X 实际可能的取值区间。这就是正态分布的3 σ 原则。
当
μ
=0且
σ
2
=1时,称
X
服从标准正态分布,记为
。
在很多情况下,为了便于描述和应用,需要将一般正态分布转换为标准正态分布。为此,可以对数据进行如下处理:
如果
X
~
N
(
μ
,
σ
2
),则
。
卡方分布由阿贝(Abbe)于1863年首先提出,后来由海尔墨特(Hermert)和卡·皮尔逊(C K.Pearson)分别于1875年和1900年推导出来。如果随机变量
是相互独立的,而且每个
都服从均值为0、标准差为1的标准正态分布
N
(0,1),那么这些
X
i
的平方和
服从自由度为
n
的卡方分布(
X
2
分布)。
不同的自由度决定不同的卡方分布。卡方分布的自由度越小,分布就会越向左边倾斜。随着自由度的不断增加,卡方分布会逐渐趋近正态分布。卡方分布的自由度分别为3、6、10时的分布曲线如图3.2所示(自坐标原点(0,0)出发,从左至右依次为自由度等于3、6、10时的分布曲线)。
图3.2 卡方分布曲线
T分布(学生T-分布,T-distribution)通常用于根据小样本估计正态分布且方差未知的总体均值,如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。如果随机变量Z服从均值为0、标准差为1的标准正态分布 N (0,1),而随机变量Y服从自由度为 k 的卡方分布,且随机变量Z和随机变量Y相互独立,那随机变量 P 服从自由度为 k 的T分布:
T分布曲线形态与自由度 k 的大小有关。与标准正态分布曲线相比,自由度 k 越小,T分布曲线越平坦,曲线中间越低,曲线两侧尾部翘得越高;自由度 k 越大,T分布曲线越接近正态分布曲线。随着自由度 k 的不断增加,T分布会趋近于标准正态分布。不同自由度下,T分布与标准正态分布的比较如图3.3所示。图中df表示T分布的自由度, x 表示标准正态分布。可以发现,当自由度达到200时,T分布曲线与标准正态分布曲线几乎重合。
图3.3 不同自由度下,T分布与标准正态分布的比较
F分布由英国统计学家R. A. Fisher于1924年提出,并以其姓氏的第一个字母命名。如果随机变量X服从自由度为 k 1 的卡方分布,随机变量Y服从自由度为 k 2 的卡方分布,且随机变量X和随机变量Y相互独立,那么随机变量Z服从自由度为( k 1 , k 2 )的F分布:
F分布是一种非对称分布,具有两个自由度,并且这两个自由度的位置不可互换。F分布常用于方差分析、回归方程的显著性检验等。