购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.4 正态分布与标准正态分布

正态分布,又名高斯分布,既是概率论中最重要的一种分布,又是最常见的连续性随机变量的概率分布,更是自然界中最常见的一种分布。正态分布的概念是由法国裔英国籍的数学家和天文学家 Moivre于1733年首次提出的,但由于德国数学家高斯(Gauss)率先将其应用于天文学研究,对后世的影响极大,所以使正态分布同时有了“高斯分布”的名称。在德国面额为10马克的纸币上,就印有高斯人像与正态分布的图案。

如前面所言,数值变量数据的分布形态多呈现正态分布。正态分布曲线呈现独特的钟形特征,即两头低、中间高,且左右对称,因其曲线呈钟形,人们又称之为钟形曲线。我们高中的数学课中介绍的很多曲线都能够用方程来表示,如抛物线方程等。采用方程表示后,其规律就可以运用方程进行演示和推算了。我们现在学习的正态分布是否也能用一个方程来表示呢?答案是肯定的。正态分布的方程就是正态分布的概率密度函数,见式3.8。

公式较为复杂,大家不必记忆,能够看明白即可。这个公式决定了一个正态分布的形状,公式中包含两个未知的参数,总体均数(μ)和总体标准差(σ),而这点恰恰和我们前面所学的知识相呼应,即正态分布形态特征包括集中趋势和离散趋势。正态分布示意图如图3.4所示。

图3.4 正态分布示意图

3.4.1 正态分布曲线规律

正态分布曲线有以下规律。

(1)正态分布曲线以均数为对称中心,均数处曲线最高。

(2)μ为位置参数,在总体标准差(σ)相同的情况下,μ越大,分布越往x轴右移,如图3.5所示。

(3)σ为变异参数,在总体均数(μ)相同的情况下,σ越大,分布曲线越“矮胖”,σ越小,分布曲线越“瘦高”,如图3.6所示。

图3.5 不同位置参数的正态分布

图3.6 不同变异参数的正态分布

(4)正态分布曲线下面积分布规律如下。

正态分布的方程为概率密度函数,概率取值范围为0~1,因此整个曲线下面积为1(100%)。统计学的前身就是概率论,我们用概率去判断事件发生的可能性大小,正态分布图与概率相结合,让我们可以对事件的概率进行可视化,如图3.7、图3.8和图3.9所示。

图3.7 正态分布曲线中间95%面积分布规律

图3.8 正态分布曲线中间99%面积分布规律

图3.9 正态分布曲线中间90%面积分布规律

上述面积分布规律是用总体参数进行描述的,针对正态分布的样本数据,只要更换对应的统计量,规律同样适用,如表3.1所示。

表3.1 正态分布曲线下面积分布规律

下面我们用一个案例来演绎正态分布是如何与概率结合,用于判断某事件的规律及其发生概率的。

案例分享

某班级有120人,测量所有学生后,平均身高 = 168cm,标准差s = 5.0cm,请利用正态分布规律,回答如下问题。

(1)该班所有学生中,中间95%同学的身高范围是多少?

(2)该班所有学生中,中间99%同学的身高范围是多少?

(3)该班所有学生中,最高的5%同学的身高高于多少?

(4)在该班级中,随机抽取一名同学,能够抽到身高大于178cm的同学吗?

按照正态分布规律,回答如下。

(1)中间95%同学的身高范围 = ± 1.96s = 168 ± 1.96 × 5 = [158.2,177.8]cm。

(2)中间99%同学的身高范围 = ± 2.58s = 168 ± 2.58 × 5 = [155.1,180.9]cm。

(3)最高的5%同学的身高高于: + 1.64s = 168 + 1.64 × 5 = 176.2cm。

(4)因为最高的5%同学的身高≥176.2cm,即身高≥176.2cm是小概率事件,P ≤ 0.05,而178 >176.2,因此,随机抽取一次,抽到身高大于178cm同学的概率P ≤ 0.05,是小概率事件,因此不可能抽到。

貌似我们已经可以利用正态分布去解决概率分布的问题了,但是我们只能利用中间95%、99%、90%这些已知的特殊界值规律。无法知道正态分布x轴上任意一个界值对应的面积规律。因为正态分布有两个参数(μ)和(σ),在两个方程中,只要两个参数中的任何一个不一样,就是一个不同的正态分布,所以正态分布的个数是无穷无尽的。面对无穷无尽的正态分布去阐明其个性化的规律,是不可能完成的任务,如果可以化繁为简,化无限为唯一,那么这个问题就会变得简单很多。而统计学中确实有这么一个过程,即正态分布的标准化。

3.4.2 标准正态分布

“横看成岭侧成峰,远近高低各不同。”正态分布无穷尽,正态分布的“众生相”如图3.10所示。

图3.10 正态分布的“众生相”

虽然正态分布无穷尽,其实两不同,即在x轴上的位置不同(位置参数不同)和离散趋势不同(变异参数不同)。如果能够将这两个参数的不同消除,那么所有的正态分布都将变成一样的分布,“万宗归一”。因为所有的正态分布都变成了一个分布,所以这个分布被叫作“标准正态分布”。那么正态分布是如何实现正态变换的呢?其实只要经过简单的两步就可以,下面我们来推演一下。

1.向中心看齐

为了能够看清楚,我们仅画出三个位置参数不同的正态分布,如图3.11所示。现在我们让它们在同一个位置上。

如何做呢?很简单,只要让分布曲线对应的第一个x减去μ即可。这个和我们高中所学的几何图形平移道理是一样的。例如,某正态分布μ = 4,那么将该分布曲线对应的所有x减去4之后的分布,其变换后μ就等于0,且以y轴为对称轴;某分布μ = -3,则x - (-3) = x + 3,变换后分布的μ也等于0。图3.11变换后就如图3.12所示。

图3.11 三个位置参数不同的正态分布

图3.12 x - μ后的正态分布

2.变成相同的体型

经过第一步变换后,正态分布就像“千手观音”一样集中在y轴,但是因为变异参数的不同,还是有着不一样的外形。变异性的不同是由标准差决定的,因此采用所有(x - μ)后的数据,去除以标准差(σ),见式3.9。

(x - μ)只是平移图形位置,而不会改变图形的形状。如果该组数据的σ = 5,平移后,(x - μ)除以5,那么得到的分布的标准差 = 5/5 = 1。不管原来的正态分布的标准差σ等于多少,平移后除以该标准差,将会得到标准差为1。集中位置μ = 0的分布,我们用N(0,1)表示,即这个分布是以0为均数,以1为标准差的正态分布。因为所有正态分布经过变换后都可以变成N(0,1)的一个分布,所以我们称这种分布为“标准正态分布”,称这种变换为标准正态变换。标准正态分布示意图如图3.13所示。

图3.13 标准正态分布示意图

标准正态分布也是正态分布,也具备正态分布曲线的面积分布规律。因为其均数和标准差分别为0和1,所以面积规律更加简单,如表3.2所示。

表3.2 正态分布曲线与标准正态分布曲线下面积分布规律

在标准正态变换公式中,x为正态分布总体或样本中的某个研究对象的测量值,而Z是标准正态分布在x轴上的坐标值。也就是说,我们检测的每一个测量值,经过标准正态变换后,都可以在x轴上找到对应的Z值。因为标准正态分布只有1个,统计学家已经把所有Z值对应的曲线左侧的面积计算出来了,称之为标准正态分布面积规律表,标准正态分布面积规律表(部分)如图3.14所示。查表法现在已经基本不用了,只在统计理论学习时用于讲解,现在统计软件可以直接给出对应的概率值。

基于正态分布的规律,我们只要在一个正态分布样本中拿到任意一个检测值,就能够得到它在标准正态分布曲线上的Z值,通过专家建立的面积分布规律表,就能够知道其所处的位置。例如,在前面的案例分享中,想知道身高为158cm的学生在班级中的位置分布,则可以得到式3.10。

通过查表可知,Z = -2.0对应的曲线下左侧尾部面积为0.0228,即该同学的身高在班级居于2.28%的位置,如图3.15所示。

图3.14 标准正态分布面积规律表(部分)

图3.15 身高158cm的学生对应标准正态分布曲线位置

正态分布是大自然给我们人类的馈赠,很多自然或社会现象均符合正态分布,因此,我们可以利用正态分布的规律去研究这些现象。尽管正态分布是无穷无尽的,却可以通过标准正态变换,转换为唯一的标准正态分布,其以y轴为对称轴,以1为标准差。 AfrD3gLPURRhV8f308Q27ATqTEA6o5aESbF+SV95E1G/TukPyfKkLwAxwqygI+IL

点击中间区域
呼出菜单
上一章
目录
下一章
×