旅游统计应用最新章节_徐乐著

第三节
分配数列

一、分配数列的概念和分类

（一）分配数列的概念

在统计分组的基础上，将总体的所有单位按组归类整理，并按一定顺序排列，形成总体中各个单位在各组间的分布，称为次数分配（ frequency distribution）或分配数列。

分布在各组的总体单位数叫次数，又叫频数。它有两种表现形式：一是绝对数形式，即次数（ f ）；二是相对数形式，即频率，各组次数与总次数之比（ f／ ∑ f ）。在加权算术平均数的计算中，次数亦称为权数。

分配数列是由两个部分组成的：一是各组的名称；二是各组的次数（一般用 f 来表示），如表 3－3 所示。

表 3－3 银杏标准酒店应收账款数统计

（二）分配数列的分类

根据分组标志的不同，分配数列可以分为两种。

1.品质分配数列

品质分配数列是按品质标志分组成为品质数列。编制品质数列时，分组标志一旦确定，组数和各组的界限也就随之确定了。品质数列一般比较稳定，能准确地反映总体的分布特征。

2.变量分配数列

变量分配数列是按数量标志分组成为变量数列。变量数列的编制与品质数列相比较要复杂些。表 3－4 所示就是一个变量数列。

表 3－4 某年入境游客在不同区域人均消费基本情况单位：美元／人

可见，变量数列也有两个组成部分：一是变量值或由变量值形成的组；二是次数（频数）或频率。其中次数（或频数）表示各组单位数的多少，是各组单位数的绝对数表示形式；频率表示各组单位数占总体单位数的比重，是各组单位数相对数的表示形式。与分配数列的两个组成部分相区别的是，变量数列中的分组一定是由变量值所形成的各个组。通常，为了计算的方便，将变量值用 x 表示，次数表示用 f 表示，频率表示为。

二、变量数列的种类

变量数列，因其对变量的处理方法不同，分为单项变量数列和组距变量数列。

（一）单项变量数列

只以一个变量值代表一组的变量数列，称为单项变量数列，简称分组数列，如表 3－5 所示。

表 3－5 某酒店客房服务人员负责客房数情况分组

单项变量数列适用于变量值比较少，且变量的变异幅度不太大的离散型变量。如表 3－3 中，变量值为每日客房服务的间数，是离散变量。日工作量最小的组值为 20间，最大的组值为 20 间，其变动幅度是 10 ～ 20 间。因此，此资料适合采用单项式分组。

（二）组距变量数列

组距变量数列，是指在变量数列中，不是以一个变量值来代表一个组，而是由一个表示一定变动范围的区间或表示一定距离的两个变量值形成一个组。由这些组及其所包含的单位数组成的变量数列就叫组距变量数列，简称组距数列。

单项变量数列在应用中有一定的局限性。如果变量值很多且变量的变异范围很大时，单项变量数列形成的组数就会太多，这样不便于分析问题。此时，就需要使用组距数列。例如，对来华游客的年龄进行统计，则会因游客的年龄跨度过大（老者七八十岁，小的只有几岁，甚至几个月），而显得过于烦琐。如果采用组距数列，且按年龄段分组，则既简捷又能说明问题。表 3－6 即为一个组距分组。

表 3－6 某年某旅行社接待游客年龄分布

在表 3－6 中，年龄是数量标志，也是分组标志。分组形成的各个组均由两个变量值形成多个区间。其中第一组“20 岁以下”和最后一组“50 岁及以上”也反映为一定的区间，只不过他们是开口组，后面将详细解释。

与单项变量数列所不同的是，无论是离散型变量，还是连线型变量，都可以采用组距数列，这对于后者——连续型变量尤为适用。

在组距数列中，有以下名词或概念需要熟练掌握。

1.组限

组距数列的上限和下限统称为组限。其中上限（U）是指每个组中的最大值，如表3－6 中第二组中的 30，第三组中的 50 等。下限（L）是指每一个组中的最小值，如表3－10 中第二组中的 20，第三组中的 30 等。

2.组中值

组中值指组距数列各组中上限与下限之间的中点数值。组中值的一般计算方法是：组中值＝。例如，表 3－6 中第二组的组中值＝＝ 25（岁），表 3－6 中第三组的组中值＝＝ 40（岁）。如果前一组的上限与后一组的下限不是同一数值的离散型变量，则前一组的组中值＝，或者后一组的组中值＝。

3.组距

组距指组距数列中每组中上、下限之间的距离或差数。组距的一般计算公式是：组距＝上限（ U ）－下限（ L ）。表 3－6 中第二组的组距＝ 30－20 ＝ 10 （岁），第三组的组距＝ 50－30 ＝ 20 （岁）。如果前一组的上限与后一组的下限不是同一数值的离散型变量，则前一组的组距＝后一组的下限－前一组的下限，或者后一组的组距＝后一组的上限－前一组的上限。

4.等距数列与不等距数列

组距式分组因各组组距的宽度是否相同而有等距分组与不等距（异距）分组之分，组距数列也因此分为等距数列与不等距数列（或异距数列）。等距分组组成等距数列，不等距分组组成不等距（异距）数列。表 3－6 即为不等距数列。

5.开口组

统计上，对缺少上限或下限的组叫做开口组。反之，上限与下限都齐备的组叫做闭口组。表 3－6 中的第一组和最后一组均为开口组。开口组的组距习惯上都以相邻组的组距为组距，即假设该组的组距与相邻组的组距相等。这样，开口组组中值的计算便是：

（1）缺下限的开口组组中值＝；

第一组的组中值＝ 20－15 ＝ 5 （岁）

（2）缺上限的开口组组中值＝。

第四组的组中值＝＝ 60 （岁）

三、变量数列的编制

无论是单项数列还是组距数列，其编制在方法上只有一般性原则，也就是说，编制变量数列大致可以依照以下步骤进行：

（一）整理原始资料

将原始资料按数值大小顺序排列，并确定最大值、最小值及全距。以某饭店餐厅50 名员工的年龄资料为例（单位：岁）：

19，20，45，31，24，19，30，22，25，61，34，23，26，39，27，20，29，39，47，34，22，28，36，26，39，50，22，25，33，22，37，21，34，23，52，20，22，39，23，36，22，40，24，27，34，25，36，26，21，25。

将上述零乱的年龄资料按大小顺序进行排列，以便于确定标志的最大值、最小值以及全距，并为确定组距和组数提供依据。资料经过初步的整理，排列如下：

19，19，20，20，20，21，21，22，22，22，22，22，22，23，23，23，24，24，25，25，25，29，26，26，26，27，27，28，29，30，31，33，34，34，34，34，36，36，36，37，39，39，39，39，40，45，47，50，52，61。

经过初步的加工可以看出，资料中最小标志值是 19，最大标志值是 61，其变动幅度在 19～61 岁，全距 R ＝最大值（ U ）－最小值（ L ）＝ 61－19 ＝ 42 （岁），从数值的排列顺序中还可以看出，该饭店中餐厅的 50 名员工，年龄的分布较集中在 20～40 岁。

（二）确定组数和组距

对于组数和组距，其确定的原则是：符合社会经济现象的实际情况，能够充分反映总体分布的特点。至于是先确定组数，还是先确定组距，没有硬性规定。组数的多少和组距的大小是互为制约的，根据经验，组数过多或过少都不妥。一般来说，组数的多少取决于组距大小和组距是否相等。组数确定了，组距也就确定了；反之，若先确定了组距，组数也就随之而定了，用公式表示为

以上述 50 名员工的年龄资料为例，则组数和组距的确定如下：

1.确定等距分组还是不等距分组

因为组距分组有等距分组和不等距分组之分，所以组距数列也分为等距数列和不等距数列两种。问题在于何时采用等距分组，何时采用不等距分组呢？一般在实际进行分组时，应根据现象的性质和研究目的选择合适的组距分组。如果标志值的变动比较均匀，现象性质的相对差异是由数量的绝对变化逐渐积累起来的，则适宜采用等距分组。例如，年龄、身高、单位成本等。采用等距分组有很多好处：①便于各组单位数（次数）的直接比较，以研究各组的次数分配情况。因为等距分组是指标志变量在各组保持相等的距离，即各组标志值的变化都限于相同的范围，所以等距分组的各组单位数只受标志变量的影响。②便于根据其资料计算各项综合指标和进行分析对比。③便于制图，而且等距数列次数分配图也便于表示次数分配的实況。

可见，该饭店中餐厅员工的年龄分组，适宜采用等距分组。

2.初定组距

可以假定把组数定位为组距相等的 6 组，组距则为 i ＝ R ／ K ＝ 42 ／6 ＝ 7 （岁）。这样，该饭店中餐厅 50 名员工的年龄资料可被分为以下 6 组：19 ～ 26，26 ～ 33，33 ～ 40，40 ～47，47～54，54～61。但是这样的分组也有一定的问题，既不利于计算，也不利于制图和描点。

3.调整组距

为了方便起见，组距最好取 5 或 10 的倍数，组限也最好是 5 或 10 的倍数。如前例，我们将该 50 名员工的年龄资料进一步整理如下，分成这样的 5 组：

20 岁以下，20～30 岁，30～40 岁，40～ 50 岁，50 岁及以上，因此而得到的次数分配如表 3－7 所示。

表 3－7 某饭店中餐厅员工年龄次数分配表

由此可见，上例资料是先确定组数，还是先确定组距都未尝不可，但是有些资料由于研究目的的不同以及现象本身的特点，决定了在编制分配数列时，只能是先定组距，再定组数。例如，研究饭店的规模，可按照客房数进行分组，但并不是按每 100间客房为一组地分成：99 间以下，100 ～ 199 间，200 ～ 299 间，300 ～ 499 间，500 间以上。再比如，对游客的年龄进行分组，由于票务和其他服务结算的关系，也是习惯上分成 16 岁以下，17～30 岁，31～50 岁，51 岁及以上这样的四组。

（三）确定组限和组限的表示法

组距和组数被确定之后，还要考虑具体确定以什么数值做组限的问题。一般情况下，确定组限要考虑的是：最小一组的下限应低于最小变量值，最大一组的上限应该高于最大变量值，而且组限值与最小或最大变量值的数值不应过于悬殊。组限的确定应该尽可能的反映出总体分配的规律性，如果组距为 5，10，15……则每组的下限最好是它们的倍数。

常见的组限表示方法如表 3－8 所示。

表 3－8 组限表示法例表

表3－8（续）

表 3－8 中，一式是最常用的写法，适用于连续型变量，但应用中一般遵循“上限不包括在内”的原则；二式是一式的简化形式；三式是对一式的补充和修正，含义明确，明确指出各组上限不包括在内；四式适用于离散型变量，以及精确至最近单位或最后完整单位的连续变量的分组；五式是四式的延伸，只适用于离散型变量；六式是“下组限不在内”的分组表示法，以区别于的面五种形式。例如，成本计划完成百分比分组的组限，就适合用第六式表示。可以写成图 3－5 的形式。

图 3－5

四、分配数列的表示方法

（一）表示法

表示法是指用统计表来表示次数与分配，并可计算累计次数。在统计上，计算累计次数的方法有两种。

1.较小制累积

较小制累积也称向上累积，是指将各组的次数从标志值最小一组的次数起逐组累计。每组的累计次数表示小于该组上限的次数共有多少，即上限以下的总体单位数有多少。

2.较大制累积

较大制累积也称向下累积，是指将各组的次数从标志值最大一组的次数起逐组累计。每组的累计次数表示大于该组下限的次数共有多少，即下限以上的总体单位数有多少。

同时，也可以按频率进行累积。它是从相对数上说明次数累积结果而非从绝对数角度，但仍同频率累积一样，可以反映总体各单位的分布特征，如表 3－7 所示。

表 3－7 某酒店职工基本工资收入次数分布

从表中找出任意一组，如 5 000～ 6 000 元组，则其较小制（向上）累积次数为 53与 66. 25％，表示工资收入低于 6 000 元的共有 53 人，占总人数的 66. 25％；其较大制（向下）累积次数为 57 与 71. 25％，则表示工资收入高于 5 000 元的共有 57 人，占总人数的 71. 25％。

（二）图示法

图示法即用统计图形来描述变量数列的次数分布的方法。最常用的有直方图、次数多边形图（次数分配折线图）、次数分布曲线图与累计次数分布图。

1.直方图

直方图是用直方条的宽度和高度来分别表示次数分布的图形。

绘图时，通常横轴表示各组组限，纵轴表示次数（一般标在左侧）和频率（一般标在右侧），然后以组距为宽度，次数（或频率）为高度绘成直方图，见图 3－6。

图 3－6 直方图

2.次数多变形图（次数分配折线图）

次数多边形图是在直方图的基础上，用折线将各组次数的高度的坐标连接而成。对于单项数列来说，就是将以变量值为横坐标，次数（或频率）为纵坐标所描出的在坐标中的各个点连接起来即可。而对组距数列而言，则以各组的组中值为横坐标，以各组的次数（或频率）为纵坐标（在直方图中是指各条形图的顶端的中点），这样连接起来的图形即为次数多边形图形。

五、次数分配的主要类型

由于社会经济现象性质的不同，各种统计总体都有不同的次数分布，从而形成了各种不同类型的分布特征。概括起来，各种不同性质的社会现象的次数分布主要有三种类型：钟形分布、 U形分布、 J形分布。

（一）钟形分布

钟形分布的特征是“两头小、中间大”，即靠近中间的变量值分布的次数多，靠近两边的变量值分布的次数少，其曲线图宛如一口古钟。如图 3－7 所示，钟形分布可分为正态分布和偏态分布。正态分布如图 3－7 （a）所示，其分布特征是以标志变量中心为对称轴，左右两侧对称，两侧变量值分布的次数随着与中间变量值距离的增大而渐次减少。而图 3－7 （b）为偏态分布，它们各有不同方向的偏态，即左（负）偏态分布和右（正）偏态分布。客观实际中，许多客观现象统计总体的分布都趋于对称分布中的正态分布。正态分布是描述统计中的一种主要分布，它在统计分析中具有重要的意义。

图 3－7 正态分布示意图

（二） U形分布

U形分布的形状与钟形分布相反，靠近中间的变量值分布次数少，靠近两端的变量值分布次数多，形成“两头大，中间小”的U形分布。例如，人口死亡率分布，人口总体中，幼儿和老人死亡率高，而中青年死亡率低，如图 3－8 中的（c）所示。

（三） J形分布

J形分布有两种类型，一种类型次数随着变量的增大而增多，呈J形分布；另一种类型呈反J形分布，即次数随着变量增大而减少，如随着产品产量的增加，产品单位成本下降，如图 3－4 中的（d）所示。

图 3－8 J形和U形分布示意图

第三节 分配数列