3.1节中提到,在分析研究受诸多因素影响的复杂现象时,若人们尚未形成对现象机理的成熟认知,通常可以采用牛顿的还原论方法,将影响复杂现象的各因素层层分解,得到比较简单、可采用社会经济指标反映,易于比较的各个部分,再通过统计技术综合各个部分信息,完成现象的比较与评价。显然,上述工作第一阶段是经影响因素的层层分解,得到一个用于反映复杂现象不同层面的指标体系,但该体系的信息是分散的,还不能综合反映现象的整体特征。为解决这一问题,必须进行第二阶段工作,即将分散的信息集成在一起,得到可以综合反映复杂现象特征的综合信息。
我国新型城镇化是典型的复杂现象,本书基于相关理论和中央顶层设计确定其5个维度影响要素,又进一步将各要素分解为子要素及其支撑点,并设定测度支撑的统计指标,构建了一个具有4个层次结构的统计指标体系。该结构包括5个要素,20个子要素(各要素分别下设4个),57个子要素支撑点(各子要素分别下设2~4个不等)
,以及为得到各子要素支撑点数据信息的90多个统计指标。该体系为监测评价各省份落实中央完善城镇化健康发展体制机制改革和新型城镇化顶层设计的情况提供了基本的信息测度框架。基于该框架,可以分别监测评价省域落实中央要求的具体项目操作的情况。但显然其还无法完成对省域落实中央要求的总体评价。解决这个问题,需要开展分散信息的集成工作。
与指标体系各层次对应,通过对各层次信息的集成,得到一个分层的集成信息体系。在统计理论中,一般将反映被测度现象不同维度的一系列指标集成后的信息称为复合指数。可以将通过信息集成方法得到的新型城镇化评价指标体系称为评价指数体系。该体系由3个层次构成,分别对应子要素支撑点、子要素和要素,反映相应层次的综合信息。据此开展进一步的监测评价。
完整的复合指数计算过程覆盖了理论框架、数据选择、缺失数据的插补、归一化处理、加权与加总、稳健性和敏感性检验、与其他变量的关系、指数可视化等步骤,形成了一般范式(OECD, 2008;Mazziotta and Pareto, 2012)。我们借鉴OECD和欧洲委员会European Commission的联合研究中心(Joint Research Centre,JRC)
(2005,2008)提出的复合指数形成步骤,重点开展三个方面的工作:各项参评指标标准化处理;确定要素、子要素、子要素支撑点及参评指标权数;合成计算子要素支撑点、子要素和要素的指数,并给出排名。
(1)参评指标的标准化
通过去量纲,实现参评指标的可比性。标准化处理技术包括直线型的极值法和标准误差方法,以及折线或者曲线型标准化方法等。需要根据评价目标和指标数据特点进行选择。考虑到我们的评价目标是用于比较,而且指标反映的是社会经济现象,不存在违背其逻辑的数据,因此可以选择广泛使用的标准误差方法。该方法适用于大量数据处理,具有对离群值较为稳健、不影响指标间的关系、避免对于极值赋予过度关注等优点。标准误差方法的指标标准化处理技术很简单,就是将原始指标数据减去均值后除以标准差,其用来测度评价主体之间各指标表现的相对差异。即:
其中,
X
ij
表示第
i
个区域的第
j
项指标的原始数据,
n
表示参评区域总数。
s
j
表示第
j
项指标的标准误差,
表示第
j
项指标
n
个参评区域的平均值。显然,这是对原始数据的线性转换,不影响指标间的相关结构。应当指出,该标准化处理是针对同一时期指标的。当分别处理不同时期指标时,一般会出现不同时期总体各项指标的均值不一样的情况。这意味着,用来参照对比的评价标准出现不同。因此参评对象在不同时期的指数变化,或者排位变化,反映了当期整体平均水平的变化及其离差的影响。
(2)权重确定问题
为显示各指标的经济显著性和统计充分性等,选择不同维度合成中的加权方法是困难的,其取决于合成指数的目标、各子集合指标的特征、各指标的相关程度,以及子指标的个数和计算成本等方面。常用加权方式可以总结为3类(Michela Nardo et al.,2005;Salvatore Greco et al.,2017):①等权,对指标间相关关系的要求较为灵活。②以专家意见为代表的主观的多元加权体系
。③数据导向的加权
。考虑各种方法的使用范围和有效边界,主观加权并不适用于多变量、多要素、多个比较对象的复杂比较;而数据导向的加权方式,则面临基于经验信息是否为理性认知的卢卡斯批判,难以保证我们评价信息的有效性。考虑到我们的评价研究是以问题为导向的,是着眼于未来的,新型城镇化建设所包括的人本城镇化、经济效应、农业效应、城乡一体化效应、绿色发展效应5个方面的推进,在新时代的当前和未来是同等重要的,各方面需要协调发展,不存在哪个是主导,哪个是从属的认知。借鉴肖红叶(2004,2006)的研究,利用等权方法确定综合要素及指标作用的权数。
(3)指数合成
按照权重将不同维度的信息合成为指数,一般有三类合成规则:线性加总、几何相乘,或者是多目标分析的非线性技术(OECD and JRC, 2005,2008)。不同技术暗含不同假设和不同结果,其中,线性加总合成得到广泛使用,即:
其中,
为经前述标准误差方法处理得到的数据
。该合成技术处理极值稳健,可给出各参评主体综合发展横向比较的相对位次,也可以通过时期合成指数,考察每个被评价主体综合发展的历史进程。
根据评价指标体系,利用信息集成方法计算得到一个分层的集成信息体系,即评价指数体系,需明确以下几个问题:
(1)4个层次的评价指数计算
按照上述指数合成步骤,逐级线性合成可得到4个层次的评价指数。首先,将代表性指标标准化得分按其权重相乘后线性加总,计算出每个支撑因素的得分,并转换为百分数,得到第1层次的支撑因素指数信息。其次,将每个子要素所包括的各指标标准化分值按其权数相乘后加总,得到子要素的分值,并转换为百分数,得到第2层次的子要素指数。进而将每个推进要素中包含的各子要素分值加总,得到相应各要素分值,并将其转化为百分制得分,得到第3层次的要素指数。最后,将要素得分加总,得到各反映参评主体的新型城镇化推进综合水平的总指数,为第4层次评价指数。根据4个层次的评价指数对参评主体排名。
(2)引入“全国”作为一个参评对象
说明两点:
其一,设定目标。本书是基于省级区域比较进行的评价研究,为了判别各省份在全国中的位置,特别给出一个全国水平的比较参照标的。具体操作中,将全国作为一个评价对象,按新型城镇化评价体系搜集的数据,直接纳入评价指数计算公式中,得到对应的指数和排名。该信息是与省份的指数信息同列比较的。
其二,“全国”作为参评对象的统计意义。目前我国采用分级统计的体制。长期以来,存在大量各省数据之和与全国数据不一致的现象,其中GDP增速核算一直受人诟病。目前国家通过GDP下算一级的统计改革,力图解决这个问题。本书的新型城镇化评价指数体系的计算,基本数据取自省级区域层面,存在各省份相关指标数据合成与全国数据的衔接问题。该评价体系包含的指标太多,一一处理过于复杂,因而采用大道至简的方法,设置“全国”概念,利用全国相关指标数据处理后参与比较评价。基于这种思路,“全国”指标并不是严格统计意义上的各省平均数,称其为全国代表性水平,更符合相关指数的意义。需要指出的是,严格地说,“全国”纳入指数体系后,因其相应数据参与指数计算,对省域相关指数数值会产生稍许影响,但并不影响“全国”纳入前各省份的排位次序。
(3)指数信息的可视化
在利用4个层次评价指数完成比较评价与分析工作中,可以借助相应的指数表与排名表、要素综合信息表和优势短板信息表,以及条形图、雷达图、散点图等统计工具。其可实现评价信息的充分展示,譬如雷达图,具有可清晰观察不同要素、子要素、支撑要素的省域分布格局,以及各自的优势与短板等信息特征的优点。