人口的特征可以成为观测人口的视角。因此,可依据人口的特征对人口进行分类。而这种分类通常是分析人口状况,特别是分析人口结构状况的一种基础性工作。因此,了解和掌握人口分类的相关问题是非常必要的。
人口特征指人所具有的某种属性或标识性特点,如性别、年龄、种族、职业等都是人所具有的属性,而高个子、高鼻梁、大眼睛、黑头发等也可以成为人的标识性特点。人的这些属性或标识性特点都可以成为人或人口的特征。而对人或人口按怎样的特征分类,主要取决于观测者分析问题的目的。
一般而言,人口有怎样的特征,就可以按怎样的特征分类。按常见的人口特征可以对人口进行如下的分类。
(1)按性别分类。如分为男性与女性两类人口。
(2)按年龄分类。如分为未成年人口、劳动年龄人口及老年人口;或按具体的年龄或年龄段分类,如按每1年,或每5年,或每10年作为一年龄段进行分类。
(3)按受教育的程度或学历分类。如分为大学及以上、高中、初中、小学及以下等类别的人口。对受大学及以上教育程度的人口还可以细分为专科学历、本科学历、研究生学历等。
(4)按行业分类。如分为农业、工业、建筑业、交通运输业、信息技术业、金融业、其他服务业等行业类别的人口。
(5)按职业分类。如分为教师、律师、科研、公务员、医护人员、军人、警察等职业类别的人口。
(6)按国籍分类。如分为中国、美国、英国、日本、德国、俄罗斯、韩国、朝鲜等国家类别的人口。
(7)按民族分类。如分为汉族、蒙族、鲜族、回族、满族、土家族、藏族等民族类别的人口。
(8)按地区分类。如分为北京、上海、河北、山东、河南等地区类别的人口。也可按更大类别的地区分类,如东北、华东、华北、华中、华南、西南、西北等地区的人口。
(9)按患病情况分类。如分为恶性肿瘤、心脏病、脑血管病、呼吸系统疾病等患病类别的人口。
(10)按收入水平分类。如分为高收入、中等收入、低收入等收入类别的人口。
在现实中,对人口结构的划分,肯定不止上述所列。总之,有多少类别的人口特征,就可以有多少种对人口分类的方式。按人口特征对人口进行分类,通常旨在考察人口结构,进而反映人口总体状况。因此,仅有人口数量,并不能全面反映人口状况。对人口状况的考察需要从多视角,即从多维特征方面展开。
在有关人口数据的描述中需要一些关键词来体现数据所具有的特征。例如,在“中国有14亿人口”这一数据中,“人口”和“中国”是两个关键词,前者表明14亿是关于人口的数据,后者进一步表明是中国的人口数据。描述数据的这种关键词称为数据特征。或者说,数据特征是指赋予数据的各种属性,这些属性是对数据信息在不同方面的解释。数据具有的特征越多,所包含的信息也相对越多。如在“中国有14亿人口”中增加时间特征,即变成“2019年中国有14亿人口”,则该数据的信息可被进一步明确。
然而,数据所具有的不同特征,其地位和性质可能是不同的。例如,在“中国有14亿人口”这一数据中,“人口”是最主要的特征,因为这一特征决定了该数据是人口的数据,而如果没有这一特征,该数据的含义将不明确。而“中国”只是对数据本身的进一步说明,是一种辅助性特征。可见,数据特征分为主特征和辅特征两类。
主特征是表明数据本身属性的特征。或者说,主特征是决定数据所属对象的特征。如在“2019年中国有14亿人口”中,数据的主特征是人口,因为有了这一特征的存在,才表明此数据是关于人口的数据,而不是关于其他方面的数据,如不是钢铁、粮食或金钱等方面的数据。辅特征是对主特征的进一步解释或说明,是辅助性、从属性的特征。如在“2019年中国有14亿人口”中,时间、国别和地域都是辅特征,“2019年”及“中国”则分别是相应辅特征的一组具体的对应值。
可见,上述的分析表明,存在如何对多维特征的数据进行描述的问题。可以归纳出,描述一个多维特征的数据可以按下面的结构形式进行:
式(1-1)表明,对一个数据的描述必须要有一个主特征,同时可以有若干个(如 n 个)辅特征。需要注意的是,主特征和辅特征应具有各自的对应值,这取决于主特征和辅特征各自的具体情况。因此,描述“2019年中国有14亿人口”这一数据的结构形式是:
它的一个具体对应值是:
可见,获取数据的过程,实际就是在确定一定的辅特征值后,取得相对应主特征值的过程,该过程可用如下关系表示:
辅特征的情况决定了数据分类的情况。如式(1-1)所表现的数据特征的结构形式,可用数学中的多维空间来表示。因此,一个具有多维特征的数据可表示为:
其中, A 为主特征的对应值, 为第 i 辅特征的第 j 个对应值;而 j i ≤ m i ( i =1,2,…, n ),即 m i 为第 i 个辅特征所有对应值的个数。实际上,(1-4)式可进一步简记为 。
人口有多种乃至无数种特征,因此按人口的特征进行分类,不仅可以按单一种类的特征分类,如单纯按性别分类或单纯按职业分类,而且可以按多种特征进行交叉分类。因此,对具有式(1-4)结构形式的数据,亦称为有多维特征数据。在式(1-4)中, i 和 j 的不同组合,可以形成具有不同特征组合的数据,对此可称之为按不同特征进行交叉分类的数据。按照排列组合的计算方法,容易计算出这些不同辅特征组合的最多结果为:
举例说明,如果一个数据的描述结构形式如下:
其中,辅特征的具体对应值如表1-1所示。
表1-1 辅特征的对应值
从表1-1可以看到,时间特征有4个值,产业特征有3个值,教育程度特征有3个值,性别特征有2个值。因此,由这些特征组合所形成的最多数据有4×3×3×2=72个。这72个数据可按表1-2的格式表示。在表1-2中,A表示人口数据,并且A分别具有性别、职业、受教育程度和时间这4个方面的特征,对此也可以说A是具有4维特征的人口数据。将这些特征综合在一起,并按时间特征(时间序列)进行排序,由此形成了表1-2的数据。
表1-2 按时间分布的产业、受教育程度和性别交叉分类的人口数据
一般而言,表现在纸面上的数据表通常是一种二维平面表。因此,如何设计具有多维特征的数据表并不是一件轻松的事。在表1-1中,行是按时间和产业特征组合来划分,由于时间的对应值的个数为4,产业对应值个数是3,因此表1-2中的数据行数为4×3=12行;列是按教育程度和性别来划分,由于教育程度对应值的个数是3,性别对应值个数是2,因此表1-2中的数据列数为3×2=6列。
可见,用表格的形式表现多维特征数据时,一种可借鉴的方法是:将全部数据辅特征划分为2组,即把式(1-4)中的 , ,…, 分为两组,其中一组数据的辅特征的组合将决定行,另一组数据辅特征的组合将决定列。数据表中的数据行数,等于行的辅特征组的特征组合数目;数据表中的数据列数,等于列的辅特征组的特征组合数目。因此,将所有数据的辅特征分为怎样的两个组,将影响数据表中的数据行数和列数。这需要根据实际而定。但无论是多少维特征的数据,最终都可以通过这样的方法做成二维平面数据表。
容易看到,在人口的诸多特征中,一些特征的性质是不同的。如有些特征一旦形成便不可变更,而有些特征则是可以变化的。于是,可将人口的特征分为内在特征和外在特征两大类性质。
人的年龄、性别、种族、学历等这些特征,一旦形成或拥有便不可更改或不再失去。因此,对这种一经形成或拥有便不可更改或不再失去的特征,称为人口的内在特征。例如,年龄是人口的一种内部特征,因为人的年龄是由人的成长时间决定的,是人的生理发生变化的过程所决定的。人的年龄只能随时间推移而增长而无法逆回。再如,性别也是人口的一种内部特征,因为性别是一种生命现象,是由受精卵结合的情况决定的,一旦形成则无法改变。虽然可以通过现代医疗技术手段实现变性,但是这并不是真正的性别改变,并且不是决定性别的一般性意义的方式。学历也是人口的一种内部特征,因为学历是人受教育的经历,是人力资本积累的一种形式,这种学习和受教育的经历一旦形成则是无法改变的。学习和受教育的经历只能继续发展而无法逆回。
人的职业、国籍、职务、职称、党派等这些特征是可以改变的。例如,一个人的职业可以从农民转变为工人,可以从工程师转变为教师,可以从军人转变为警察。再如,一个教师的职称可以从讲师转变为副教授,再转变为教授。因此,对这些可以改变的人的特征称为人口的外部特征。
内在特征与外在特征的形成机理通常是不同的。内在特征主要是由内在性因素决定的,而外在特征主要是外在性因素决定的。因此,按内在特征分类的人口结构是由内在性因素决定的,外在性因素难以对其改变。这意味着内在特征的人口结构的改变通常具有长期性和非主观性。例如,按年龄特征分类的人口结构,即人口年龄结构,是由人口的生育状况与人的生长客观规律决定的,不是人的主观意志所能决定的,甚至计划生育政策在相对短的时间内也是难以改变的。这提示我们,一项政策的有效性,需要考虑人口结构的特征是内在性还是外在性的。一般而言,对内在特征的人口结构的调整,需要通过长期政策的作用,而不能期望一蹴而就。