统计学最新章节_李军红著

第三节分配数列

一、分配数列的概念和种类

（一）分配数列

在统计分组的基础上，将总体所有的单位按某一标志进行归类排列，并计算各组的单位数称为分配数列，或称为次数分布。

（二）分配数列的两个要素

1.组别，即总体按某个标志所分的组。

2.频数（次数）和频率，即各组的单位数（次数或频数），以及各组的单位数与总体单位总数之比（频率）。

例3-4 通过表3.2可了解次数分布的内容。

表3.2 某年某地区企业职工构成表

（三）频数分配的种类

1.品质分配数列

按品质标志分组所编制的分配数列叫品质分配数列或属性分配数列，简称品质数列。品质数列由组的名称和各组的次数两个要素构成。如表3.2所示。

2.变量分配数例

按数量标志分组所编制的分配数列叫变量分配数列，简称变量数列。任何一个变量数列都由各组变量值和各组的次数两个要素构成。

（1）单项数列，即以一个变量值为一组编制的变量频数分配。

例3-5 表3.3为某厂工人生产某产品日产量资料。

表3.3 某厂工人生产某产品日产量资料

单项数列一般在变量的变异幅度不大的情况下采用。如表3.3中，变量的最大变量值为18件，最小变量值为12件，变量值的变异范围为12~18件，变量值的数目为7件。如果变量值的个数较多，变动的范围也较大，为了准确地反映出总体各个单位分布的特征和分布的趋势，则应编制组距数列。

（2）组距数列，即以表示一定变动范围的两个变量值构成的组所编制的变量频数分布。

例3-6 表3.4为某地区33个工厂职工人数资料。

表3.4 某地区33个工厂职工人数资料表

① 组距数列按各组组距是否相等，分为等距数列和异距数列。

组距数列中各组组距相等的数列叫作等距数列。在统计研究中，采用等距进行分组是根据研究的目的、所研究对象的性质来进行的，如果社会经济现象性质差异的变动比较均衡，可以采用等距来进行分组。

组距数列中各组组距不相等的数列叫作异距数列。如按生产能力将工业企业划分为大中小企业就是采用异距进行的分组。异距数列能比较准确地反映总体内部各组成部分的性质差异。实际工作中，有一些现象性质的变动很大，这时采用等距分组就不能反映事物性质的差别，必须按异距进行分组。

② 组距数列按变量是否连续，分为连续型组距数列和离散型组距数列。

变量为连续型组距数列叫作连续型组距数列。在这种数列中前一组的上限与后一组的下限同为一个变量值，这样进行分组不会出现遗漏标志值的现象。

例3-7 表3.5为某企业100个工人工资资料。

表3.5 某企业100个工人工资资料

从表3.5中可以看出，前一组的上限与后一组的下限相等，这样的组距数列即为连续型数列。

变量为离散型的组距数列叫作离散型组距数列。由于离散型变量的取值为整数，因此组距数列中前一组的上限与后一组的下限不为同一个变量值。

例3-8 表3.6为某社区人口年龄分组表。

表3.6 某社区人口年龄分组表

从表3.6可以看出，它把年龄分为三组，第一组的上限为14，第二组的下限为15.因此，前一组上限与后一组的下限不相等。

二、分配数列的编制

（一）分配数列编制中常用的基本概念

1.组限和组距

组距数列中，各组变量值变动的界限称为组限，组内最大变量值称为上限，最小变量值称为下限。组距就是上限与下限之差，即：组距=组上限-组下限

实际上，这一公式只适用于计算连续组距式分组的组距大小，例如成绩分组中，60~70分，70~80分，其组距为10分（10=70-60或80-70）。如果将这一公式套用于间断组距式，将会产生谬误。例如，商店规模按职工人数分组，分为1~5人、6~10人、11~15人等。套用上述公式，得出5-1（或10-6，或15-11）=4，即组距为4人的结论，显然是错误的。对于间断式分组的组距大小的计算，必须采用如下公式：组距=上组下限-本组下限

2.全距和组数

全距是总体中最大的标志值与最小的标志值之差。

组数的多少直接取决于两个因素，一个是总体的全距，另一个是组距。在等距分组的条件下，组数等于全距除以组距。

在组距既定的条件下，全距大则组数多，全距小则组数少；在全距既定的条件下，组距大则组数少，组距小则组数多。全距是客观存在的事实，不以人的意志为转移，所以确定组数的关键是确定组距。如对学生成绩情况的统计分组中，若组数过少，例如学生成绩分为2组，不能很好地达到分组的基本要求；若组数过多，例如成绩分为101组，即分组过细，也无法起到化繁为简的作用，难以显示出总体分布的规律。

决定组数的多少，并无规则可言，必须凭借经验和所研究问题的性质做出判断。这里，向大家介绍一种确定组数和组距的经验公式，这一公式是美国学者斯特杰斯（Sturges）创立使用的，称为斯特杰斯经验公式，即：

上式中，n为组数；N为总体单位数；i为组距；R为全距，即最大变量值Xmax与最小变量值Xmin之差。根据这一公式，可以得出如下（见表3.7）的组数参考标准。

表3.7 分组组数参考标准表

上述公式及表中数据仅供参考，不能生搬硬套。实际分组时采用组数多少应依据所研究资料的性质而定。

3.组中值

组距数列掩盖了各组单位的实际变量值，为了反映分布在各组中个体单位变量值的一般水平，往往需要计算组中值。组中值是各组变量值的中间数值，通常根据各组上限、下限进行简单平均求得，公式为：

用组中值代表组内变量值的一般水平有一个前提，即组内各单位变量值在本组内均匀分布或在组中值两侧呈对称分布。实际上，完全具备这一前提是不可能的，但在划分各组组限时，必须考虑使组内变量值的分布尽可能满足这一要求。此外，为了计算方便，应力求使组中值能取整数。

在编制组距式变量数列时，使用“××以上”或“××以下”这样不确定组距的组，称为开口组。在组距数列中存在开口组的情况下，为了进行统计分析，需要计算开口组组中值。开口组的组中值的确定，一般可将邻组组距假定为开口组组距，然后计算组中值。组中值公式为：

（二）变量数列的编制

例3-9 根据抽样调查，某月某中学50名住校学生购买消费品支出资料如下（单位：元）：

对上述统计资料进行整理，编制统计表。

解1.将原始数据由小到大进行排列求出全距。

首先应对标志值的分布情况进行仔细审查，找出变量的最大值和最小值，求出全距为1 630-810=820（元）。

2.确定组数和组距。

根据分析确定采用等距分组，分为8组，则组距等于全距820除以8，约为100.再根据组距的大小定出上下限。一般地，第一组的下限必须略小于实际变量值的最小值，最后一组的上限必须略大于实际变量值的最大值，并尽可能使各单位的标志值在组内分布比较均匀。

3.分组归类合计形成次数分布，并制成统计表。

经过整理，得出计算结果如表3.8所示。表中第1列是变量，第2列是各组出现的次数，即频数，各组频数之和等于总体单位数，第3列是频率，频率反映了各组频数的大小对总体所起的作用的相对强度，它是各组频数与总体单位总和之比，计算公式如下：

表3.8 某校50名在校学生某月购买消费品支出情况表（单位：元）

通过对总体各单位分组而形成变量数列，显示了各单位标志值在各组间的分布状况，从而使杂乱无章的原始数据显示出一定的规律性。从表3.8可以看出，月消费品支出额在1 000 ~1300元的在校学生户占全部在校学生的60%，而低支出和高支出在校学生户所占比重较小，呈现出一种近似“两头小，中间大”的钟型分布特征。

（三）累计频数与累计频率

1.累计频数（频率）

累计频数（频率）可以是向上累计频数（频率），也可以是向下累计频数（频率）。

（1）向上累计频数（频率）分布，即先列出各组的上限，然后由标志值低的组向标志值高的组依次累计频数（频率）。某组向上累计频数表明该组上限以下的各组单位数之和是多少，某组向上累计频率表明该组上限以下的各组单位数之和占总体单位数的比重。

（2）向下累计频数（频率）分布，即先列出各组的下限，然后由标志值高的组向标志值低的组依次累计频数（频率）。某组向下累计频数表明该组下限以上的各组单位数之和是多少，某组向下累计频率表明该组下限以上的各组单位数之和占总体单位数的比重。

例3-10 现仍以50名在校学生某月购买消费品支出额的资料为例，分别进行向上和向下累计，其结果如表3.9所示。在校学生月消费品支出额在1 000元以下的有6名，占总数的12%；在校学生月消费品支出额在1 000元以上的有44名，占总数的88%；月消费品支出额在1 200元以上的有25名，占总数的50%，以此类推。

表3.9 某校在校学生某月消费品支出累计表（单位：元）

2.累计频数（频率）分布图

累计频数（频率）分布图，分为向上累计频数（频率）分布图和向下累计频数（频率）分布图。不论是向上累计或向下累计，它们均以分组变量为横轴，以累计频数（频率）为纵轴。

在直角坐标系上将各组组距的上限与其相应的累计频数（频率）构成坐标点，依次用折线（光滑曲线）相连，即是向上累计分布图。对于向下累计频数分布图，在直角坐标系上将各组组距下限与其相应累计频数（频率）构成坐标点，依次用折线（光滑曲线）相连，即是向下累计分布图。

例3-11 从图3.1“在校学生消费支出额向上（向下）累计频数分布”可以看出，在校学生月消费额支出在1 100元以下的有14人，占28%；在1 100元以上的有36人，占72%。在校学生月消费额支出在1 400元以下的有43人，占86%。

图3.1 在校学生消费支出额向上（向下）累计频数分布图

由此可见，累计频数和累计频率可以简要概括地反映总体各单位的分布特征。向上累计分布曲线呈上升状，向下累计分布曲线呈下降状。组的次数（频率）较少，曲线显得平缓；组的次数（频率）较密集，曲线显得较陡峭。

三、次数分配的主要类型

次数分配是统计分析的一种重要方法。由于社会经济现象性质不同，各种统计总体各有不同的次数分配，形成各种不同类型的分布特征。描述统计总体的分布特征，除采用统计表的形式以外，还可采用直方图和曲线图进行描述。通过这些图形，可以明显地表明不同类型现象的分布特征。

各种不同性质的社会经济现象的次数分布的类型，概括起来，根据曲线形状的特点，大致有三种类型：钟型分布、U型分布和J型分布。

1.钟型分布

钟型分布的特征是“两头小，中间大”，即靠近中间的变量值分布的次数多，靠近两边的变量值分布的次数少，其曲线图宛如一口钟，如图3.2所示。

图3.2 钟型分布图

如图3.2（a）所示，其分布特征是以标志变量中心为对称轴，左右两侧对称，两侧变量值分布的次数随着与中间变量值距离的增大而渐次减少。在统计学中，称这种分布为对称分布。而图3.2（b）为非对称分布，并各有不同方向的偏态，即左偏态分布和右偏态分布。客观实际中，许多社会现象统计总体的分布都趋于对称分布中的正态分布。正态分布是描述统计中的一种主要分布，它在社会经济统计分析中具有重要的意义。

2.U型分布

U型分布的形状与钟型分布相反，靠近中间的变量值分布次数少，靠近两端的变量值分布次数多，形成“两头大，中间小”的U型分布。如人口死亡率分布，人口总体中，幼儿和老人死亡率高，而中青年死亡率低。如图3.3所示。

3.J型分布

J型分布有两种类型，一种是次数随着变量的增大而增多，呈正J型分布，如投资按利润率大小分布。另一种呈反J型分布，即次数随着变量的增大而减少，如随着产品产量的增加，产品单位成本下降。如图3.4所示。

图3.3 U型分布图

图3.4 J型分布图

第三节 分配数列