SPSS统计学与案例应用精解最新章节_张甜著

3.2　概率分布

在统计学中，概率分布有离散型概率分布和连续型概率分布两种。

3.2.1　离散型概率分布

如果随机变量 X 的取值是离散的，比如取值为，对应的取值概率分别为，其中每个 p _i 都大于或等于0，且所有的 p _i 之和为1，那么就称 X 为离散型随机变量，服从离散型概率分布。统计学中的离散型概率分布主要包括伯努利分布（Bernoulli Distribution）、二项分布、泊松分布、负二项分布、多项分布等。

1．伯努利分布

伯努利分布是为纪念瑞士科学家雅各布·伯努利而命名的，又称两点分布或者0-1分布。伯努利分布起源于伯努利试验（Bernoulli Trial）。考虑只有两种可能结果的随机试验，当成功的概率是恒定的且各次试验相互独立时，这种试验在统计学上被称为伯努利试验。伯努利试验只有一次试验，且只有成功、失败两种可能：若伯努利试验成功，则伯努利随机变量取值为1；若伯努利试验失败，则伯努利随机变量取值为0。因此，在伯努利分布中，只有一次试验，随机变量的取值也只有0和1两种可能。若将取1的概率设定为 p ，则取0的概率为1- p 。

伯努利分布的概率函数为：

P （ X = k ）= p ^k ×（1- p ） ^{1-

k} k =0，1

2．二项分布

二项分布是 n 个独立的成功／失败试验中成功次数的离散概率分布，其中每次试验的成功概率为 p 。因此，二项分布实质上是多次伯努利试验结果的概率分布。当 n =1时，二项分布就变成了伯努利分布。二项分布具有以下3个特点：

●　每次试验有两个可能的结果，这两个结果是互斥的，例如下雨或不下雨。

●　每次试验之间相互独立，某次试验的结果不会影响其他试验的结果。

●　每次试验发生事件的概率都是相同的，在整个系列试验中保持不变。

二项分布因为是多次伯努利试验，所以它衡量的是成功次数的概率，即在 n 次试验中，成功的次数 X 对应的概率。二项分布记为 X ~ B （ n ， p ），概率函数为：

3．泊松分布

泊松（Poisson）分布由法国数学家西莫恩·德尼·泊松（Siméon-Denis Poisson）于1838年提出，用于描述单位时间或单位空间内随机事件发生次数的概率分布。

泊松分布的概率函数为：

其中，泊松分布的参数λ是单位时间（或单位面积）内随机事件的平均发生次数。当二项分布的 n 很大而 p 很小时，泊松分布可作为二项分布的极限近似，其中λ= np 。通常当 n ≥20， p ≤0.05时，就可以用泊松公式来近似计算。

3.2.2　连续型概率分布

如果随机变量 X 的取值是连续实数，比如取值为（-∞，+∞），则称 X 为连续型随机变量，服从连续型概率分布。

对于连续型随机变量，因为其取值是连续的，所以其取值概率的测量是通过概率密度函数来进行的。所有概率密度函数 f （ x ）都具有以下共性特点：

（1）针对任意 x ，都有 f （ x ）≥0，概率。

（2）随机变量 X 的取值落入区间［ m ， n ］的概率为。

对于连续型概率分布，还有一个重要的概念是累计密度函数 F （ x ），其计算公式为：

统计学中的连续型概率分布主要包括正态分布（高斯分布）、卡方分布、T分布和F分布等。

1．正态分布

正态分布（Normal Distribution）也称高斯分布（Gaussian Distribution），是应用最为广泛的一种连续型概率分布形式，也是许多统计方法的理论基础，通常被认为是概率论中最重要的分布之一。不论是在学术研究领域，还是在应用实践领域，很多随机变量的概率分布都可以近似地用正态分布来描述。参数检验、方差分析、相关和回归分析等多种统计方法均要求分析的变量服从正态分布。

如果随机变量 X 的概率密度函数为：

则称 X 服从正态分布，记为 X ~ N （ μ ， σ ² ）。其中 μ 为随机变量 X 的期望，是正态分布的位置参数，描述正态分布的集中趋势位置。正态分布以 X = μ 为对称轴，左右完全对称。正态分布的期望、均数、中位数和众数相同，均等于 μ 。

正态分布的图形化表达如图3.1所示。概率规律表明，离 μ 越近的值的概率越大，而离 μ 越远的值的概率越小。 σ ² 为随机变量 X 的方差，是正态分布的形状参数，用于描述正态分布的离散程度， σ 越大则数据分布越分散，正态分布曲线越扁平；而 σ 越小则数据分布越集中，正态分布曲线越瘦高。

图3.1　正态分布的图形化表达

正态分布曲线下方，横轴区间（ μ - σ ， μ + σ ）内的面积略大于68%。

横轴区间（ μ -2 σ ， μ +2 σ ）内的面积略大于95%。

横轴区间（ μ -3 σ ， μ +3 σ ）内的面积略大于99.7%。

随机变量 X 落在［ μ -3 σ ， μ +3 σ ］以外的概率在0.003以下，因此在实际应用中，通常认为这些事件几乎不可能发生。因此，区间［ μ -3 σ ， μ +3 σ ］被视为随机变量 X 实际可能的取值区间。这就是正态分布的3 σ 原则。

当 μ =0且 σ ² =1时，称 X 服从标准正态分布，记为。

在很多情况下，为了便于描述和应用，需要将一般正态分布转换为标准正态分布。为此，可以对数据进行如下处理：

如果 X ~ N （ μ ， σ ² ），则。

2．卡方分布

卡方分布由阿贝（Abbe）于1863年首先提出，后来由海尔墨特（Hermert）和卡·皮尔逊（C K．Pearson）分别于1875年和1900年推导出来。如果随机变量是相互独立的，而且每个都服从均值为0、标准差为1的标准正态分布 N （0，1），那么这些 X _i 的平方和服从自由度为 n 的卡方分布（ X ² 分布）。

不同的自由度决定不同的卡方分布。卡方分布的自由度越小，分布就会越向左边倾斜。随着自由度的不断增加，卡方分布会逐渐趋近正态分布。卡方分布的自由度分别为3、6、10时的分布曲线如图3.2所示（自坐标原点（0，0）出发，从左至右依次为自由度等于3、6、10时的分布曲线）。

图3.2　卡方分布曲线

3．T分布

T分布（学生T-分布，T-distribution）通常用于根据小样本估计正态分布且方差未知的总体均值，如果总体方差已知（例如在样本数量足够多时），则应该用正态分布来估计总体均值。如果随机变量Z服从均值为0、标准差为1的标准正态分布 N （0，1），而随机变量Y服从自由度为 k 的卡方分布，且随机变量Z和随机变量Y相互独立，那随机变量 P 服从自由度为 k 的T分布：

T分布曲线形态与自由度 k 的大小有关。与标准正态分布曲线相比，自由度 k 越小，T分布曲线越平坦，曲线中间越低，曲线两侧尾部翘得越高；自由度 k 越大，T分布曲线越接近正态分布曲线。随着自由度 k 的不断增加，T分布会趋近于标准正态分布。不同自由度下，T分布与标准正态分布的比较如图3.3所示。图中df表示T分布的自由度， x 表示标准正态分布。可以发现，当自由度达到200时，T分布曲线与标准正态分布曲线几乎重合。

图3.3　不同自由度下，T分布与标准正态分布的比较

4．F分布

F分布由英国统计学家R. A. Fisher于1924年提出，并以其姓氏的第一个字母命名。如果随机变量X服从自由度为 k ₁ 的卡方分布，随机变量Y服从自由度为 k ₂ 的卡方分布，且随机变量X和随机变量Y相互独立，那么随机变量Z服从自由度为（ k ₁ ， k ₂ ）的F分布：

F分布是一种非对称分布，具有两个自由度，并且这两个自由度的位置不可互换。F分布常用于方差分析、回归方程的显著性检验等。

3.2 概率分布

3.2.1 离散型概率分布