购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.2 概率分布

在统计学中,概率分布有离散型概率分布和连续型概率分布两种。

3.2.1 离散型概率分布

如果随机变量 X 的取值是离散的,比如取值为 ,对应的取值概率分别为 ,其中每个 p i 都大于或等于0,且所有的 p i 之和为1,那么就称 X 为离散型随机变量,服从离散型概率分布。统计学中的离散型概率分布主要包括伯努利分布(Bernoulli Distribution)、二项分布、泊松分布、负二项分布、多项分布等。

1.伯努利分布

伯努利分布是为纪念瑞士科学家雅各布·伯努利而命名的,又称两点分布或者0-1分布。伯努利分布起源于伯努利试验(Bernoulli Trial)。考虑只有两种可能结果的随机试验,当成功的概率是恒定的且各次试验相互独立时,这种试验在统计学上被称为伯努利试验。伯努利试验只有一次试验,且只有成功、失败两种可能:若伯努利试验成功,则伯努利随机变量取值为1;若伯努利试验失败,则伯努利随机变量取值为0。因此,在伯努利分布中,只有一次试验,随机变量的取值也只有0和1两种可能。若将取1的概率设定为 p ,则取0的概率为1- p

伯努利分布的概率函数为:

P X = k )= p k ×(1- p 1- k k =0,1

2.二项分布

二项分布是 n 个独立的成功/失败试验中成功次数的离散概率分布,其中每次试验的成功概率为 p 。因此,二项分布实质上是多次伯努利试验结果的概率分布。当 n =1时,二项分布就变成了伯努利分布。二项分布具有以下3个特点:

● 每次试验有两个可能的结果,这两个结果是互斥的,例如下雨或不下雨。

● 每次试验之间相互独立,某次试验的结果不会影响其他试验的结果。

● 每次试验发生事件的概率都是相同的,在整个系列试验中保持不变。

二项分布因为是多次伯努利试验,所以它衡量的是成功次数的概率,即在 n 次试验中,成功的次数 X 对应的概率。二项分布记为 X ~ B n p ),概率函数为:

3.泊松分布

泊松(Poisson)分布由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)于1838年提出,用于描述单位时间或单位空间内随机事件发生次数的概率分布。

泊松分布的概率函数为:

其中,泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。当二项分布的 n 很大而 p 很小时,泊松分布可作为二项分布的极限近似,其中λ= np 。通常当 n ≥20, p ≤0.05时,就可以用泊松公式来近似计算。

3.2.2 连续型概率分布

如果随机变量 X 的取值是连续实数,比如取值为(-∞,+∞),则称 X 为连续型随机变量,服从连续型概率分布。

对于连续型随机变量,因为其取值是连续的,所以其取值概率的测量是通过概率密度函数来进行的。所有概率密度函数 f x )都具有以下共性特点:

(1)针对任意 x ,都有 f x )≥0,概率

(2)随机变量 X 的取值落入区间[ m n ]的概率为

对于连续型概率分布,还有一个重要的概念是累计密度函数 F x ),其计算公式为:

统计学中的连续型概率分布主要包括正态分布(高斯分布)、卡方分布、T分布和F分布等。

1.正态分布

正态分布(Normal Distribution)也称高斯分布(Gaussian Distribution),是应用最为广泛的一种连续型概率分布形式,也是许多统计方法的理论基础,通常被认为是概率论中最重要的分布之一。不论是在学术研究领域,还是在应用实践领域,很多随机变量的概率分布都可以近似地用正态分布来描述。参数检验、方差分析、相关和回归分析等多种统计方法均要求分析的变量服从正态分布。

如果随机变量 X 的概率密度函数为:

则称 X 服从正态分布,记为 X ~ N μ σ 2 )。其中 μ 为随机变量 X 的期望,是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以 X = μ 为对称轴,左右完全对称。正态分布的期望、均数、中位数和众数相同,均等于 μ

正态分布的图形化表达如图3.1所示。概率规律表明,离 μ 越近的值的概率越大,而离 μ 越远的值的概率越小。 σ 2 为随机变量 X 的方差,是正态分布的形状参数,用于描述正态分布的离散程度, σ 越大则数据分布越分散,正态分布曲线越扁平;而 σ 越小则数据分布越集中,正态分布曲线越瘦高。

图3.1 正态分布的图形化表达

正态分布曲线下方,横轴区间( μ - σ μ + σ )内的面积略大于68%。

横轴区间( μ -2 σ μ +2 σ )内的面积略大于95%。

横轴区间( μ -3 σ μ +3 σ )内的面积略大于99.7%。

随机变量 X 落在[ μ -3 σ μ +3 σ ]以外的概率在0.003以下,因此在实际应用中,通常认为这些事件几乎不可能发生。因此,区间[ μ -3 σ μ +3 σ ]被视为随机变量 X 实际可能的取值区间。这就是正态分布的3 σ 原则。

μ =0且 σ 2 =1时,称 X 服从标准正态分布,记为

在很多情况下,为了便于描述和应用,需要将一般正态分布转换为标准正态分布。为此,可以对数据进行如下处理:

如果 X ~ N μ σ 2 ),则

2.卡方分布

卡方分布由阿贝(Abbe)于1863年首先提出,后来由海尔墨特(Hermert)和卡·皮尔逊(C K.Pearson)分别于1875年和1900年推导出来。如果随机变量 是相互独立的,而且每个 都服从均值为0、标准差为1的标准正态分布 N (0,1),那么这些 X i 的平方和 服从自由度为 n 的卡方分布( X 2 分布)。

不同的自由度决定不同的卡方分布。卡方分布的自由度越小,分布就会越向左边倾斜。随着自由度的不断增加,卡方分布会逐渐趋近正态分布。卡方分布的自由度分别为3、6、10时的分布曲线如图3.2所示(自坐标原点(0,0)出发,从左至右依次为自由度等于3、6、10时的分布曲线)。

图3.2 卡方分布曲线

3.T分布

T分布(学生T-分布,T-distribution)通常用于根据小样本估计正态分布且方差未知的总体均值,如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。如果随机变量Z服从均值为0、标准差为1的标准正态分布 N (0,1),而随机变量Y服从自由度为 k 的卡方分布,且随机变量Z和随机变量Y相互独立,那随机变量 P 服从自由度为 k 的T分布:

T分布曲线形态与自由度 k 的大小有关。与标准正态分布曲线相比,自由度 k 越小,T分布曲线越平坦,曲线中间越低,曲线两侧尾部翘得越高;自由度 k 越大,T分布曲线越接近正态分布曲线。随着自由度 k 的不断增加,T分布会趋近于标准正态分布。不同自由度下,T分布与标准正态分布的比较如图3.3所示。图中df表示T分布的自由度, x 表示标准正态分布。可以发现,当自由度达到200时,T分布曲线与标准正态分布曲线几乎重合。

图3.3 不同自由度下,T分布与标准正态分布的比较

4.F分布

F分布由英国统计学家R. A. Fisher于1924年提出,并以其姓氏的第一个字母命名。如果随机变量X服从自由度为 k 1 的卡方分布,随机变量Y服从自由度为 k 2 的卡方分布,且随机变量X和随机变量Y相互独立,那么随机变量Z服从自由度为( k 1 k 2 )的F分布:

F分布是一种非对称分布,具有两个自由度,并且这两个自由度的位置不可互换。F分布常用于方差分析、回归方程的显著性检验等。 adxowIOXyPAWuy8WRptRxeqltPAo8VIkIdYpuNFxhWbzNJp2waK9w6FmziwA2xSq

点击中间区域
呼出菜单
上一章
目录
下一章
×