统计分组是根据社会经济现象的特点和统计研究的目的要求,按照一定的标志把总体划分为若干不同性质的组或类型,称为统计分组。统计分组的依据就是分组标志,它可以是品质标志,也可以是数量标志。统计分组的对象是总体,对于现象总体而言,是“分”,即把总体分为性质相异的若干部分;而对于总体单位而言,又是“合”,即把性质相同的许多总体单位合为一组。对于分组标志而言,是“分”,即按分组标志将不同的标志表现分为若干组,而对于其他标志而言,是“合”,即在一个组内的各单位即使其他标志表现不相同也只能结合在一组。由此可见,选择一种分组方法,突出了一种差异,显示了一种矛盾,必然同时掩盖了其他差异,忽略了其他矛盾。不同的分组方法,可能得出不同的结论。缺乏科学根据的分组,不但无法显示事物的根本特征,甚至会把不同性质的事物混淆在一起,歪曲社会经济现象的本质。因此,统计分组必须先对所研究现象本质做全面、深刻的分析,确定所研究现象类型的属性及其内部差别,而后才能选择反映事物本质的正确的分组标志。
社会经济现象千差万别,要了解各种社会经济现象的性质、特点及其相互关系,必须根据某种标志把它们划分为性质不同的类型,以便揭示不同社会经济现象的质的差异。
从数量上反映总体内部的结构是统计研究的重要任务。总体的内部结构可体现部分与整体的关系以及各部分之间存在的差别和相互联系,反映事物从量变到质变的过程,帮助人们掌握事物的特征,认识事物的性质。
社会经济现象之间广泛地存在着相互依存的关系,如农作物的耕作深度与收成率之间、合理密植与农产量之间、家庭的工资收入与生活费支出之间、工人技术级别与产品质量之间、工人劳动生产率与产品成本之间、市场商品价格与其需求量之间等,都在一定程度上存在相互依存的关系。所有这些依存关系,都可通过统计分组分析出影响因素与结果因素之间的变动规律。
例3-1 某地区农作物的施肥量与单位面积产量关系如表3.1所示。
表3.1 某地区农作物施肥量与亩产量关系表
表3.1中的分组资料反映了化肥施用量与农作物亩产量之间的依存关系,一般来讲,随着化肥施用量的增加,农作物亩产量也在增加,但当化肥施用量为21.8kg时,农作物亩产量则减少到464.4kg。因此,过少或过多的施用量都可以使农作物产量降低。
按分组标志的多少,可分为简单分组和分组体系。
简单分组就是对总体只按一个标志进行分组。例如国民生产总值按产业分为第一、第二、第三产业三组;货运量按运输方式分为铁路运输、公路运输、水陆运输、航空运输与管道运输五组。
分组体系是根据统计研究的需要,通过对同一总体进行多种不同分组而形成的一种相互联系、相互补充,能从各种不同角度加深对统计总体数量表现的认识体系。统计分组体系有平行分组体系与复合分组体系之分。
(1)平行分组体系,又可称为并列分组,就是对总体按两个或两个以上的标志分别进行简单分组。
例3-2 对工业企业按经济类型、隶属关系、企业规模、轻重工业进行的并列分组。
按经济类型分组
国有经济
集体经济
私营经济
按隶属关系分组
中央工业
地方工业
其他经济
按企业规模分组
大型企业
中型企业
小型企业
按轻重工业分组
轻工业
重工业
(2)复合分组体系。就是对总体按两个或两个以上的标志进行的重叠式分组,即在按某一标志分组的基础上再按另一标志进一步分组。
例3-3 对工业企业按轻重工业和企业规模重叠分组形成的复合分组如下:
按轻重工业和企业规模分组
轻工业 重工业
大型工业企业 大型工业企业
中型工业企业 中型工业企业
小型工业企业 小型工业企业
复合分组中随着分组标志的增加,对总体所分的组数也不断地成倍增加,因而更不容易反映现象的本质特征,所以复合分组时分组标志不宜过多。因此,不能滥用复合分组,尤其不宜采用过多的标志进行复合分组,也不宜对较小总体进行复合分组。
按分组标志的性质不同,分为属性分组和变量分组。
属性分组是按品质标志进行的分组,即按事物的某种属性分组。如企业按经济类型、行业分组;人口按性别、民族分组;大学生按专业分组等。这种分组可以反映总体的构成和不同属性事物在总体中的地位和作用。按属性分组时,确定各组的界限有以下两种情况。
(1)组限是自然形成的或比较明显的。例如,人口按性别、文化程度、党派分组等。
(2)由于存在属性之间的过渡形式,使分组界限难以确定。这种比较复杂的属性分组,国家有关部门都制定有标准的分类目录,分组时可以依据分类目录来确定组限。例如,人口按职业分组、企业按行业分组、产品按经济用途分组等。
变量分组是按数量标志进行的分组。如企业按生产能力、劳动生产率分组;商店按商品流转额、职工人数分组;人口按年龄、身高分组等。这种分组的目的在于通过事物在数量上的差异来反映事物在性质上的区别。
应根据被研究的现象总体的数量特征,采用适当的分组形式,确定相宜的组距、组限和组数。
(1)单项式分组与组距式分组。
① 单项式分组,就是以一个变量值(标志值)作为一组,形成单项式变量数列。单项式分组一般适用于离散型变量且变量变动范围不大的场合。例如,育龄妇女按其生育子女存活数分组,可分为0个、1个、2个、3、4个、5个6组。
② 组距式分组,就是将变量依次划分为几段区间,一段区间表现为“从……到……”距离,把一段区间内的所有变量值归为一组,形成组距式变量数列。区间的距离就是组距。对于连续型变量或者变动范围较大的离散型变量,适宜采用组距式分组。例如,反映居民居住水平情况,可按人均居住面积分组,分为:4 m 2 以下、4~6 m 2 、6~8 m 2 、8 m 2 以上4组;再如了解某班学生成绩情况,按成绩进行组距式分组。
(2)间断组距式分组和连续组距式分组。
在组距式分组中,每组包含许多变量值,每一组变量值中,其最小值为下限,最大值为上限。组距是上下限之间的距离,相邻两组的界限,称为组限。
① 间断组距式分组,指凡是组限不相连的分组。例如,儿童按年龄分组,可分为:未满1岁、1~2岁、3~4岁、5~9岁、10~14岁。
② 连续组距式分组,指凡是组限相连(或称相重叠的)分组,即以同一数值作为相邻两组的共同界限的分组。例如,工人按工时定额完成程度分组,可分为:90%~100%、100%~110%、110%~120%等组。
如果变量值只是在整数之间变动,例如企业数、职工数、机器设备台数等离散型变量,可采用间断组距式分组,也可采用连续组距式分组。如果变量值在一定范围内的表现既可以是整数,也可以是小数,如产值、身高、体重等连续型变量,只能采用连续组距式分组。
在进行连续组距式分组时应注意,由于以同一个数值作为相邻两组共同的界限,为了遵循统计分组穷尽和互斥原则,统计上规定,凡是总体某一个单位的变量值是相邻两组的界限值,这一个单位归入作为下限值的那一组内,即所谓“上限不在内”原则。例如,学生成绩分组,把70分的学生归入70~80分组内,把80分的学生归入80~90分组内。根据这一原则,离散型变量的分组,各组的上限也可以写为下一组的下限,这样处理既简明又便于计算。
(3)等距分组与异距分组。
按数量标志进行组距式分组,还可分为等距分组和不等距(或称异距)分组。
① 等距分组。指标志值在各组保持相等的组距,即各组的标志值变动都限于相同的范围。凡是在标志值变动比较均匀的情况下,都可采用等距分组。例如,工人的年龄、工龄、工资的分组;零件尺寸的误差、加工时间的分组;农产品单位面积产量、单位产品成本的分组等。等距分组有很多好处,它便于绘制统计图,也便于进行各类运算。
② 异距分组。分组的形式应服从分组的要求,即性质相同的单位应合并在一个组内,性质不同的单位应当分开。现象的差别取决于现象的本质,而不在于数学形式,必须根据现象的本质特征和统计研究的目的和任务来确定分组的等距与否。
对于异距分组方法的运用,没有固定模式可供依循,全凭统计人员在实践中不断探索,关键在于对所研究现象的内在联系必须十分熟悉,才能很好地运用异距分组来揭示事物的本质。
分组标志是统计分组的依据或标准。正确选择分组标志是进行统计分组的关键,分组标志确定得恰当与否会直接影响统计分组的作用。为了正确选择分组标志,必须遵循以下几条原则。
统计分组是为统计研究服务的,统计研究的目的不同,选择的分组标志也应有所不同。例如,同是以工业部门为研究对象,当研究的目的是为了分析部门中各种规模的企业的生产情况时,应该选择产品数量或生产能力作为分组标志;当研究目的在于确定工业内部比例及平衡关系时,应该以行业为分组标志,将工业部门划分为重工业与轻工业或冶金、电力、化工、机械、纺织、煤炭等工业行业。
社会经济现象纷繁复杂,研究某一问题可能涉及许多标志,科学的统计分组则应从中选择与统计研究的目的、与有关事物的性质或类型关系最密切的标志,即最主要或最本质的标志作为统计分组的依据。
例如,根据统计调查资料,研究人民生活水平变动情况时,可供选择的分组标志有家庭人口数、每户就业人数、每一就业者负担人数、家庭总收入、平均每人月生活费收入等。而其中最能反映人民生活水平变动的标志是平均每人月生活费收入,故应选择这一标志作为分组标志。
客观事物的特点和内部联系随着条件的变化而不同,因此选择分组标志时,要具体情况具体分析,根据事物的不同条件来选择分组标志。例如,同是划分企业规模,在劳动密集型的行业或地区,可采用职工人数作为分组标志;而在技术密集型的行业或地区,则应选择固定资产价值或生产能力作为分组标志。