正态分布又称高斯分布(Gaussian distribution)。正态分布随机变量 X ( X ~ N ( μ , σ ))的概率密度函数(probability density function,PDF)为:
其中, μ 和 σ 分别为正态分布的平均数和标准差,即 E [ X ]= μ , Var [ X ]= σ 2 ;e为自然对数的底,约为2.72;π为圆周率,约为3.14。公式中的 为正态化因子,使标准化后数据概率密度分布曲线下的面积为1。
所有的正态分布都可以转化为标准正态分布( N (0,1)),即 μ =0和 σ =1。标准正态分布随机变量 Z 的概率密度函数可以简化为:
正态分布取决于平均数和标准差两个参数。平均数决定正态分布曲线的中间位置,标准差决定分布曲线的高度和宽度。图3.3显示平均数不同但是标准差相同时的三个正态分布。
图3.3 不同平均数条件下的正态分布
图3.3中的三条曲线形状相同( σ =1),显示对称(symmetric)分布,只是位置不同( μ 1 =0, μ 2 =3, μ 3 =5)。随着 μ 值的增大,曲线右移。
图3.4显示标准差不同但是平均数相同时的正态分布。图中三条曲线的中心相同( μ =0),分布对称,但是随着标准差增大( σ 1 =1, σ 2 =3, σ 3 =5),“尖峰状”趋于“扁平状”。需要注意的是,这些分布仍然是正态分布。当我们说正态分布是钟形的(bell-shaped),那只是简单化的或者是为了便于记忆的说法。
图3.4 不同标准差条件下的正态分布
正态分布有以下特征:①分布曲线在中间集中,向两边降低;②平均数、中位数和众数相等,且位于分布的中心;③分布曲线呈单峰状(unimodal);④分布曲线在平均数周围是对称的;⑤分布曲线是连续性的(continuous),对于横坐标上 X 的每一个值,都有对应的纵坐标上的 Y 值;⑥分布曲线下的总面积等于1。
正态分布的累积概率分布函数(cumulative distribution function,CDF)根据概率密度函数求积分得到,即:
相应地,标准正态分布累积概率分布函数为:
知道正态分布的两个参数就能够知道分布中的每个分值对应的累积概率。譬如,在标准正态分布中, p ( Z ≤1)=0.841 3, Z 值在±1个标准差范围内的概率为: p ( Z ≤1)- p ( Z ≤-1)=0.682 6。图3.5为标准正态分布中 Z 分数与对应的累积概率图。
图3.5显示,标准正态分布平均数为0,“0”线左右的面积均为50%。在±1个标准差范围内的面积(累积概率)约为68%,即68.26%的数值位于±1个标准差范围内。±2个标准差范围内的面积约为95.44%,即95.44%的数值位于±2个标准差范围内。±3个标准差范围内的面积约为99.72%,即99.72%的数值位于±3个标准差范围内。在标准正态分布中,小于或等于2的数值的概率约为0.977 2,小于或等于3的数值的概率约为0.998 7。
图3.5 正态分布累积概率