统计分组是根据统计研究的目的,将统计总体按照某种标志划分为若干组成部分的一种统计方法。总体的这些组成部分称为“组”,统计分组同时具有两个方面的含义:对总体而言是“分”,即将总体区分为性质相异的若干部分;对个体而言是“合”,即将性质相同的个体组合起来。就作为分组标准的某一标志而言,同组的个体单位间都有相同之处,不同组的个体单位间则具有相异之处。统计分组主要是在统计总体内部进行的一种定性分类。
统计分组不仅是为了把总体中各个体的特质找出来,加以区别对待,分清事物的本性,而且是为了把个体中具有相关性、个体与个体之间、个体与总体之间的相关性理顺,从更深层次的层面上,揭示事物表象后面所存在的元素,以及各元素之间存在的关联性。
统计分组应遵从以下原则:
穷尽原则是指同一组内各单位性质相同,不同组所包含的各单位性质相异,保证做到总体中的每一个单位都有“组”可归,落在“组”内。比如:将银杏标准酒店入住率按客房总数进行统计,分为入住率 100%~ 90%,90%~ 80%,80%~ 70%三组,但假设在疫情期间,入住率低于 70%,就会出现该企业无“组”可归的现象。而正确的分组是:入住率 100%~ 90%,90%~ 80%,80%~ 70%,70%以下。所有组要能一起容纳总体的全部单位,这样符合分组的穷尽原则。
互斥原则是指总体中的任何一个单位都是互斥的,分组过程中一个单位只能归属于某一个组,而不能同时归属于多个组。互斥原则就是强调同一个总体单位是无法模糊分类的。
统计分组在统计研究中占有重要地位,其主要有三个基本作用:将现象划分为不同类型、表明现象的内部结构和分析现象之间的依存关系。
社会经济现象千差万别,要了解各种社会经济现象的性质、特点及其相互关系,必须根据各种标志把它们划分为性质不同的类型,以便解释不同社会经济现象质的差异。大量社会经济现象的数量关系是错综复杂的,但它们都可以通过统计分组划分为各种不同的类型,且不同类型有着不同的数量特点和发现规律。因此,借助统计分组的方法,我们可以将所研究的统计总体划分为不同的类型来加以深入分析。
2019 年前三季度全国旅行社外联接待入境外国游客 1 846. 69 万人次,占入境外国游客总数的 63. 31%。从这些入境外国游客的来源洲来看:694. 09 万人次(39. 78%)来自亚洲,324. 13 万人次(18. 57%)、172. 59 万人次(9. 89%)、54. 4 万人次(3. 12%)分别来自欧洲、美洲和大洋洲,而来自非洲的只有 16. 17 万人,占比仅0. 93%(图 3-1)。
图 3-1 2019 年前三季度全国旅行社外联接待入境外国游客的来源洲
从这些入境外国游客的来源国来看:旅行社外联接待入境游客人数排名前 10 的国家是韩国、美国、俄罗斯、日本、泰国、新加坡、马来西亚、印度尼西亚、英国、澳大利亚(图 3-2),合计为 1 163. 73 万人次,占比达到 63. 02%。其中:韩国、美国和俄罗斯为前三名,旅行社外联接待入境游客人数分别为 301. 15 万人次、141. 02 万人次和 134. 04 万人次,占比分别约为 16. 3%、7. 64%和 7. 26%。
图 3-2 2019 年前三季度全国旅行社外联接待入境外国游客的来源国
因此根据现象划分的类型可进行进一步将其深化分解成不同的项目和数据规律。
说明总体现象内部结构的统计分组简称为结构分组。结构分组在社会经济统计研究中应用广泛。
任何现象的总体都包含着不同的组成部分,从数量上说明部分与整体的关系是统计研究的重要内容。总体的内部结构可体现部分与整体的关系以及各部分之间存在的差别和相互联系,反映事物从量变到质变的过程,帮助掌握事物的特征,认识事物的性质。通常我们用比重指标说明总体的内部结构,从而反映其特点、性质或类型,并说明各部分的地位、作用与联系。通常我们用比重指标的变化来说明总体内部结构的变化,因为总体内部占比最大的部分的特点、性质决定或影响着总体的特点、性质。
图 3-3 为我国 2022 年酒店业数量及客房数按城市级别分布的总体情况。
图 3-3 2022 年全国酒店和客房数(按照城市级别分布)
社会经济现象之间存在着广泛的相互联系和制约关系。但现象之间发生联系的方向和程序各不相同。关系比较紧密的一种联系就是现象间的依存关系。研究现象间依存关系的统计方法很多,如相关与回归分析法、指数因素分析法、统计分析法等,其中统计分组法是最基本的方法,是运用其他分析法的基础和前提。统计分组法确定现象间的依存关系,通常是把表现为事务变化发展原因的因素叫作影响因素,而把表现为事物变化发展结果的因素叫作结果因素。
统计分组的上述三个方面作用分别是从类型分组、结构分组和分析分组角度来说明的,它们不是彼此独立的,而是相辅相成、相互补充、配合运用的。
分组标志是统计分组的依据或标准。正确选择分组标志是进行统计分组的关键,分组标志确定得恰当与否会直接影响统计分组的效果好坏。正确选择分组标志应遵循以下原则:
1.要符合统计研究的目的和任务要求
统计分组是为统计研究服务的,统计研究的目的不同,选择的分组标志也应有所不同。例如,同是以工业部门为研究对象,当研究的目的是分析部门中各种规模的企业的生产情况时,应该选择产品数量或生产能力作为分组标志。
2.选择最重要的标志作为分组依据
客观现象纷繁复杂,研究某一问题可能涉及许多标志,科学的统计分组应从中选择与统计研究的目的、与有关事物的性质或头型关系最密切的标志,即最主要或最本质的标志作为统计分组的依据。
3.要考虑到客观现象所处的具体历史条件
客观事物的特点和内部联系随着条件的变化而不同,因此选择分组标志时,要具体情况具体分析,根据事物的不同条件来选择分组标志。
统计分组是按照标志进行分组的,分组的标志是统计分组的重要标准和依据。
1.按分组标志的多少,统计分组可分为简单分组和复合分组
简单分组就是将统计总体按照一个标志进行分组,突出总体在这个方面存在的差异性,但掩盖了总体在其他方面的差异性。简单分组只能从一个方面说明和反映总体的分布特征和内部结构。表 3-1 为简单分组式例。
表 3-1 简单分组式例
复合分组就是对同一总体按照两个或两个以上的标志进行分组并层叠排列形成的分组体系。复合分组,首先按照最主要的标志对总体进行第一次分组,然后再按照次要标志对第一次所分的组再进行第二次分组,依次按照所有标志分到最后一个为止。复合分组可以多角度地对同一总体进行较为全面的分析,充分发挥统计分组的作用。图 3-4 即为将某财务管理系的学生按专业分类,然后在这个基础上,再按照学生的籍贯和性别进行分组,这样形成的分组就是复合分组。
图 3-4 某财务管理系的学生按专业分类
2.按分组标志性质的不同,计分组分为品质分组和数量分组
品质分组就是按照说明总体单位属性特征的品质标志进行分组,并在品质标志的变异范围内划分各组的界限,将一个总体划分为若干个性质不同的组成部分。
数量分组就是按照说明总体单位数量特征的数量标志进行分组,并在数量标志的变动范围内划分各组的界限,将一个总体划分为若干个性质不同的组成部分。
3.按分组的作用和任务不同,统计分组分为类型分组、结构分组和分析分组
类型分组就是把错综复杂的现象总体,划分为若干个性质不同的部分,以说明总体所具有的数量特征和数量变化规律。
结构分组就是在统计分组的基础上,观察总体各单位在各组间的分布情况,以研究总体各组成部分在总体中起到的不同作用。
分析分组就是为了研究现象之间的相互依存关系而进行的分组,通过分析分组,我们可以进一步发现、分析社会经济现象之间存在的数量关系。
选择分组标志是统计分组的核心问题。分组标志选择正确与否,关系到能否客观、真实地反映统计总体的性质和特征,能否达到统计分析研究的目的。统计分组的关键就是正确选择分组标志。选定了分组标志,还要进一步在分组标志变异的范围内划定各个相邻组之间的性质界限和数值界限。如果划不清各组的界限,那么分组就将失去意义。
(1)根据研究问题的目的和任务,正确选择分组标志。同一个总体,由于研究目的不同,所选择的分组标志也就不同。如果研究的目的是分析银杏标准酒店的收益情况,就应该选择“不同时段”或“不同收益类型”作为分组标志;如果研究的目的是分析银杏标准酒店的服务水平,就应该选择“服务评级”或“客户评分”作为分组标志。所以,对同一个总体,当研究目的和任务发生改变时,分组标志也要随之而改变。
(2)选择最能反映现象本质特征的标志。找到最能反映现象本质特征的标志,必须要以经济学理论和对社会经济现象的分析为基础。
(3)要结合现象所处的具体历史条件或经济条件来选择。任何社会经济现象在不同的历史、经济条件下都会有不同的数量变化,如果标志的选择不考虑这种数量上的变化,就会混淆事物的性质,进而掩盖事物具有的数量特征和数量关系。比如,现行统计制度在划分酒店规模时,就有“客房数量”“配套设施”“价格区间”等多种标志可供选择,如果是度假型酒店,就应选择“城市”“环境”等来划分酒店的差异。
1.品质标志的分组方法
按品质标志分组,是指选择反映事物属性差异的品质标志为分组标志,并在其变异范围内确定各组之间的界限。
按品质标志分组有简单和复杂两种情況。简单的分组,分组标志一经确定,组的名称、组数和各组组限也随之确定了,如企业按经济类型分为“公有制经济”和“非公有制经济”两类。而比较复杂的按品质标志的分组称为分类,如国民经济的部门划分,就有三次产业分类、机构部门分类、产业部门分类等。对于这种比较复杂的分类,一般会有国家相关部门制定的统一分类目录。这些分类标准为统计数据整理提供了统一的依据。
2.数量标志的分组方法
按数量标志分组时,我们应根据被研究的现象总体的数量特征,采用适当的分组形式进行分组,分组形式有单项式分组和组距式分组两种。
(1)单项式分组。单项式分组按每个具体变量值对总体进行的分组,即一个变量值代表一组,单项式分组一般适用于变异范国较小的离散变量。
(2)组距式分组。组距式分组是按变量值的一定范围对现象总体进行的分组,一般适用于连续变量和变异范围较大的离散变量,如对本市酒店客房保有数量进行分组,见表 3-2。
表 3-2 本市酒店客房保有数量
组距式分组还可以根据各组组距是否相等,分为等距分组和异距分组。
等距分组中各组的组距都相等,适用于标志值的变动比较均匀的情况。比如,酒店客房保有量、星级酒店数量、酒店员工工资等。等距分组便于计算和绘制统计图。
异距分组中各组的组距不完全相同,适用于三种情況。
第一,标志值分布很不均匀。比如,某企业职工的年龄集中分布在 30 ~ 50 岁,而其他年龄段的职工人数较少。如果这时仍采用 10 岁为组距进行等距分组,就会无法显示年龄分布的特征。
第二,标志值相等的量具有不同意义。比如,人的年龄在幼年的一岁和成年后的一岁,虽然时间长度一致,但其包含的意义不一样。因此,在人口普查中,人口的年龄分组是:不满周岁、1~3 岁、4~ 6 岁、7 ~ 12 岁、60 ~ 64 岁、65 ~ 79 岁、80 ~ 99 岁、100 岁以上。
第三,标志值按一定比例发展变化。比如,某市各工厂一年内创造的增加值可采用公比为 10 的不等距分组:6 万~60 万元、60 万~600 万元、600 万~6 000 万元。
组距式分组时,变量由于取值形式的不同,分为离散变量和连续变量,因此组距分组的组限确定就有了与之相适应的两种形式。
第一,间断组距式分组。间断组距式分组就是相邻两组的上下组限的取值是间断的。如按人均户籍人口数分组可分为:1 ~ 2 个、3 ~ 4 个、5 ~ 6 个。间断组距式分组适用于离散变量。
第二,连续组距式分组。连续组距式分组就是相邻两组的上下组限的取值是连续的。比如,工厂按生产计划完成程度分组:100%以下、100%~ 110%、110%~ 120%、120%以上,连续组距式分组适用于连续变量。在进行连续组距分组时,由于相邻两组的上、下限是重叠的,每一组的上限同时是下一组的下限,为避免计算总体单位分配数值的混乱,一般原则是把到达上限值的单位数计入下一组内,即称为“上限不在内”原则。如 110%应作为下限统计到第三组 110%~ 120%,而不是统计到作为上限的第二组 100%~110%。
1.全距(rang)
全距反映整个数列中变量值的最大差异程度。计算公式如下:
全距(R)=数列中的最大值-最小值
2.组距(class interval)
组距是指每一组上、下组限之间的距离。计算公式如下:
组距(d)=上限-下限
组距的确定要根据事物的数量特征来确定。组距过大,会使性质不同的单位归并到同一组,破坏组内的同质性。组距过小,会使同一性质的单位分到不同的组,破坏了组与组之间的差异性。
3.组数(group)
组数是分组的个数。当全距一定时,组数的多少是由组距来确定的。计算公式如下:
组数的多少与组距的大小有关。在全距一定时,组数和组距成反比关系,组距大,组数就少;组距小,组数就多。
因此,在确定组距和组数时,我们应注意保证各组都能有足够的总体单位数,组数不能太多,也不宜太少,应以能充分、准确体现现象的分布特征为宜。
实际分组时将数据整理为多少组,应根据所依据数据的性质和表现出来的数量特征来确定。有时须凭借经验和对研究对象的认识做出判断,美国的H. A. Sturgis有一个经验公式可供参考,即 k = 1+3. 322gN。其中, k 为组数, N 为总体单位数。
组距的确定因此可表示为
4.组限(class limits)
组限是组距两端的变量值,其中,一组中的最大值称为上限,一组中的最小值称为下限。
一般来讲,按数量标志分组的组限应是决定事物性质的数量界限。然而,在具体划分时,尚需在遵循这一原则的前提下,从分布特征的角度考虑编成的组距数列是否真实地反映了总体内部各单位的实际分布特征。
5.组中值(mid-point of class)
组中值是各组变量范围的中间数值,反映各组变量值的一般水平,通常可根据各组上限、下限进行简单平均。计算公式如下:
组中值可用来代表该组变量值的平均水平,是建立在如下的假设条件下,即分类到该组的各总体单位在该组的分布是均匀分布。
在组距式分组中,缺少下限或上限的组被称为开口组。开口组组中值的确定,一般以其相邻组组距的一半来调整。计算公式如下: