购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第三节
分配数列

一、分配数列的基本内容

(一)分配数列的概念

分配数列也称频数分布或分布数列,它是将总体按某一标志分组,并依次列出每个组的单位数,从而显示出总体单位在各组中的分布情况。分布在各个组的单位数也称频数、次数;各组频数与总频数之比称为频率或比率。

(二)分配数列的构成要素

分配数列有两个构成要素:一个是总体按某标志所分的组,另一个是各组所出现的单位数,即频数(次数)。就变量数列而言,总体按数量标志分组,分组标志在各组有不同的数量表现,形成标志值数列,也称变量,一般用 x 表示;频数(次数)一般用 f 表示。

(三)分配数列的种类

根据分组标志的不同特征,分配数列可分为两类:按品质标志分组所形成的数列称为品质分配数列,也称品质数列;按数量标志分组所形成的数列称为变量分配数列,也称变量数列。

1.品质分配数列

品质分配数列是指按品质标志分组所形成的分配数列,简称品质数列。它是用来观察总体中不同属性单位在各组中的分配状况的。某高校2023年年底在职教师职称分配数列如表3-7所示。

表3-7 某高校2023年年底在职教师职称分配数列

2.变量分配数列

变量分配数列是指按数量标志分组所形成的分配数列,简称变量数列。变量数列可以反映总体中各组间的数量差异和结构状况。

按变量是否连续以及数目差距的不同,变量数列可分为以下几种,如图3-4所示。

图3-4 变量数列的种类

离散变量可以编制单项式变量数列,也可以编制组距式(等距式或异距式)变量数列;连续变量只能编制等距式或异距式变量数列。

(1)单项式变量数列。单项式变量数列是指每个组仅有一个变量值作为分组标志值的数列,它通常适用于离散变量值不多且变量的变动范围不很大的情况。例如,某社区家庭人口数分组情况如表3-8所示。

(2)组距式变量数列。组距式变量数列是指以变量的一定变化区间作为分组标志的数列,它通常适用于变量值多且变动范围较大的情况。例如,居民居住水平情况按人均居住面积分组,分为10m 2 以下、10~20m 2 、20~30m 2 、30m 2 以上四组。组距式变量数列有间断组距式分组和连续组距式分组两种。

表3-8 某社区家庭人口数分组情况

在组距式分组中,每组包含许多变量值,每一组变量值中,其最小值为下限,最大值为上限。组距是上下限之间的距离,相邻两组的界限称为组限。凡是组限不相连的,称为间断组距式分组。例如,工人按看管机器台数分组,分为10~19、20~29、30~39、40~49四组。凡是组限相连(或称相重叠)的,即以同一数值作为相邻两组的共同界限,称为连续组距式分组。例如,工人按工时定额完成程度分组,分为90%~100%、100%~110%、110%~120%等组。

连续变量只能采用连续组距式分组。在连续组距式分组中,存在以同一个数值作为相邻两组共同界限的情况,根据统计分组必须遵循的“互斥性原则”,如果总体某个单位的变量值是相邻两组的界限值,则这个单位归入作为下限值的那一组内,即所谓“上限不在内”原则。例如学生按成绩分组,80分的学生不归入70~80分一组,而是归入80~90分一组内。

此外,组距式变量数列还可以采用等距式分组与异距式分组。等距式分组就是标志值在各组保持相等的组距,即各组标志值的变动都在相同的范围内。凡是在标志值变动比较均匀的情况下,都可采用等距式分组。等距式分组有很多好处,如便于计算、便于绘制统计图等。例如,某工厂工人日产量分布的等距式变量数列如表3-9所示。

表3-9 某工厂工人日产量分布的等距式变量数列

异距式分组是指各组的组距不都相等。异距式分组通常适用于如下几种场合。

第一,标志值分布很不均匀的场合。

第二,标志值相等的量具有不同意义的场合。例如,生命的每一个月对新生婴儿和成年人是大不一样的,此时,若按年龄分组进行人口疾病研究,应采用异距式分组。

第三,标志值按一定比例发展变化的场合。

例如,某高校2023年年末在职教师年龄分布的异距式变量数列如表3-10所示。

表3-10 某高校2023年年末在职教师年龄分布的异距式变量数列

二、组距式分配数列中相关指标的计算

(一)组距

组距是指在组距式分组中上、下限之间的距离。

连续组距式分组的组距计算公式是:

组距=本组上限-本组下限

间断组距式分组的组距计算公式是:

组距=本组上限-前组上限

=本组下限-前组下限

(二)组中值

进行组距式分组,组中值的计算十分重要。组中值是上、下限之间的中点数值,它代表各组变量的一般水平。组距式分组将各单位的具体标志值隐匿,取而代之的是变量值的变化范围,但在许多场合,仅仅了解这些变量值的变化范围还远远不够,为了便于分析,还要计算组中值。

组中值的计算需要根据各组的情况而定,对于“闭口组”,即一组中既有上限值又有下限值的组,组中值的计算公式是:

在计算平均指标或进行其他统计分析时,常以组中值来代表各组标志值的平均水平。当各组标志值均匀分布时,组中值作为各组标志值水平的代表,其代表性就强。因此,分组时应尽可能使组内各单位标志值均匀分布。

有时候,连续变量按离散变量表示,组距式变量数列的编制采取相邻组限不重叠的形式,此时组中值的确定应考虑到连续变量的自身特点。年龄就是比较典型的例子,它实质上是连续变量,习惯上用整数表示。例如一个班的大学生年龄分为17~19岁、20~22岁两组,则组距是3岁,组中值分别为18.5岁和21.5岁。因为第一组应包括19岁又不到20岁的大学生,上限应视为20岁。同样道理,第二组上限应视为23岁。

对于“开口组”的组中值,即一组中缺少下限值或缺少上限值的组,其计算公式是:

(三)频率、频数密度与频率密度

1.频率

频率是指各组频数与总体单位总和之比,它反映了各组频数的大小对总体所起作用的相对强度。计算公式如下:

式中, f i 是第 i 组频数。

通过对总体各单位分组而形成的变量数列,显示了各单位标志值在各组间的分布状况,从而使杂乱无章的原始数据显示出一定的规律性。频率有两个性质:一是任何频率都是界于0和1之间的一个分数;二是各组频率之和等于1,即100%。

2.频数密度与频率密度

对于异距式分组,由于各组次数的多少还受组距不同的影响,所以各组的频数可能会随着组距的扩大而增加,随着组距的缩小而减少。为消除异距式分组所造成的这种影响,需计算频数密度(也称次数密度)或频率密度,频数密度与频率密度的计算公式如下:

各组频数密度与各组组距乘积之和等于总体单位数,各组频率密度与各组组距乘积之和等于1。

(四)累积频数与累积频率

累积频数(或频率)可以是向上累积频数(或频率),也可以是向下累积频数(或频率)。计算向上累积频数(或频率)分布的方法是先列出各组的上限,然后由标志值低的组向标志值高的组依次累积。向上累积频数表明某组上限以下的各组单位数之和,向上累积频率表明某组上限以下的各组单位数之和占总体单位数的比重。计算向下累积频数(或频率)分布的方法是先列出各组的下限,然后由标志值高的组向标志值低的组依次累积。向下累积频数表明某组下限以上的各组单位数之和,向下累积频率表明某组下限以上的各组单位数之和占总体单位数的比重。

累积频数分布具有两个特点:一是第一组的累积频数等于第一组本身的频数;二是最后一组的累积频数等于总体单位数。累积频率同样也具有两个特点:一是第一组的累积频率等于第一组本身的频率;二是最后一组的累积频率等于1或100%。

现以某区所属工业企业有关产值资料为例,计算各相关指标,如表3-11所示。

表3-11 某区所属工业企业有关产值资料

利用“开口组”的组中值计算公式计算组中值是有假定条件的。假设各组中的变量值变化是均匀的,但实际各组内的变量值变化不一定都是均匀的,因此,以组中值代替变量值有一定的假设性,它不一定是真实值,而只是一个近似值。

三、变量分配数列的编制

编制变量分配数列的主要目的是反映总体的分布特征,并进一步研究总体的构成及变化规律等,而频数和频率是反映分配数列分布特征的。因此,分配数列编制的好与坏,关键要看其能否反映总体的分布特征,即要看各组频数与频率的分配是否符合客观规律。

变量分配数列的编制是比较复杂的,下面以一个实例说明变量数列的编制方法。

例如,某班40名学生的统计学考试成绩(单位:分)如下所示。

这些资料是比较零乱的,不能直接反映出总体的特征,因此,要对其进行加工整理,形成分配数列,以反映总体的分布特征。

第一,将原始资料顺序排列,确定变量值的变动范围。可以用计算机排序,也可以人工找出极大值和极小值,得知其波动幅度在51~97分,差距为97-51=46(分)。学生成绩大多数在70~90分,偏低或偏高都很少。

第二,确定组数和组距(往往靠经验确定)。组距的大小直接关系到组数的多少,组距大,组数就少;组距小,组数就多。美国学者斯特杰斯提出了一个“斯特杰斯经验公式”,即

式中, n 为组数; N 为总体单位数; d 为组距; R 为全距,即最大变量值 x max 与最小变量值 x min 之差。

也可以用经验确定。如上例中学生成绩的变动幅度较大,如果采用单项式分组,则组数过多,不足以反映总体不同性质组成部分的分布特征,因此可以考虑用组距式分组。组数的确定要根据研究现象的具体情况而定。对学生成绩的分析主要是看成绩的集中情况,因为总数是40人,所以可将其分成5组。

第三,确定组限。成绩虽然是连续变量,但习惯上用离散变量的表示方法,即采用偶数作为组限,并且采用重复组限的形式。确定组限时应注意,最低组的下限要小于或等于最小变量值,最高组的上限应大于最大变量值。

第四,统计各组次数,计算各组比率。根据组距、组数以及组限,将各变量值从最小组开始排列,按组归类,编制成组距式变量数列,形成统计表。

根据所确定的组数、组距及组限,可将40名学生的成绩编制成分配数列,如表3-12所示。

表3-12 40名学生的成绩分配数列

从这个分配列数中我们可以看出,这40名学生的成绩是“两头小,中间大”的分布,是符合学生成绩这一变化规律的,反映了总体的分布特征。

同步思考3-3 ▶▶▶

1.什么是组中值?怎样计算组中值?为什么要计算组中值?计算组中值的假设条件是什么?

2.变量分配数列由哪几个要素构成?任何情况下都可以编制单项式变量数列、等距式变量数列、异距式变量数列吗? /DbY6WbS6WNlqKpULRVO6u0PbhBS/g61dc9hBxEBNP1CCFVxzOcw4BDjT+EbsLI8

点击中间区域
呼出菜单
上一章
目录
下一章
×