健康中国指数评价体系,从《中国统计年鉴(2020年)》《国际统计年鉴(2020年)》《中国卫生健康统计年鉴(2020年)》和世界卫生组织(World Health Organization)数据库中选取采集30个指标数据,进而运用大数据分析方法对中国以及全国31个省区市“健康中国指数”得分作排序分析。
为了对中国以及全国31个省区市的健康中国建设作出评价,课题组对评价“健康中国指数”的十万多个数据,运用主成分数据建模,对中国以及全国31个省区市的“健康中国”建设开展评估。
在工业、农业、生物、医学、气象、地质、经济、管理、社会、政治等诸多领域中,我们常常会遇到需要对多个指标同时观测、研究、处理的问题。
例如,在经济管理中,要衡量一个地区的经济发展水平,需要同时观测多个指标:总产值、利润、效益、劳动生产率、万元生产值耗能、固定资产、流动资金周转率、物价、信贷、税收等。怎样根据这些数据,来衡量经济发展水平的高低,是一个多变量的复杂问题。
又如,对一个人做一次健康体检,最后得到一份体检报告,其中有人体的十几项、几十项生理指标:血压、心率、血糖、血脂、胆固醇、血小板、甲胎蛋白……怎样根据这些数据,判断一个人是否健康,健康状况处于什么水平,也是一个多变量的复杂问题。
在数学上,我们把这些需要分析研究的指标称为变量(Variable)。如何对多个变量的观测数据进行有效的分析和研究?当然,我们可以对各个变量一个一个分别研究,但是,变量之间往往有相关性,分开处理不仅会丢失很多信息,也不容易取得很好的研究成果。更好的办法是同时对多个变量的观测数据进行分析,研究变量之间的相互关系,揭示这些变量内在的变化规律。
多元统计分析(Multivariate Statistical Analysis)就是对多个变量之间的相互依赖关系以及内在统计规律进行研究的一门统计学科。主成分分析(Principal Component Analysis)是多元统计分析中主要的也是常用的一种统计分析方法。
主成分分析法的基本思想是:对原来多个变量进行适当的组合,组合成一些综合指标,用较少的综合指标来近似代替原来的多个变量。这种由原来多个变量组合而成的综合指标,就称为主成分(Principal Component)。
主成分选取的原则是:(1)主成分是原变量的线性组合,就是说,主成分是原来各个变量乘以一些系数以后加起来得到的一个综合指数;(2)各个主成分之间互不相关;(3)如果原来有m个变量,则最多可以取到m个主成分。这m个主成分的变化,可以完全反映原来全部m个变量的变化;如果选取的主成分少于m个,那么,这些较少的主成分的变化,应该尽可能多地反映原来全部 m个变量的变化。
一个主成分所反映的变化,在全部原变量变化中所占的百分比,称为贡献率(Percentage of Contribution)。通常主成分按照贡献率的大小,从大到小排列,即第一主成分贡献率最大,第二主成分贡献率次之,第三主成分贡献率又次之。用原变量表示主成分时的系数,也就是将原变量综合成主成分时,每个原变量所乘以的系数,称为主成分载荷(Principal Component Loading),也就是权重(Weight)。对每一次观测得到的观测数据,可以求出与这次观测对应的主成分的值,称为主成分得分(Principal Component Score)。
现在我们要制定一个“健康中国指数”,希望把与健康中国有关的健康资源、健康服务、健康保障、健康环境、健康水平等各维度的多项指标综合起来,得到健康中国的综合指数,以及健康中国各领域指数,并对全国31个省区市,东部、中部、西部和东北地区健康中国建设水平作排名。
为了达到这一目的,主成分分析法显然是一种有效的方法。
因为第一个主成分的贡献率最大,占了最大的百分比,说明第一个主成分尽可能多地集中了原来多个与健康中国有关的变量的信息,所以,我们就可以把这个第一主成分作为一个综合指数,即“健康中国指数”。第一主成分的载荷,就是各个原变量在“健康中国指数”中的系数(即权重)。第一主成分的得分,就是与全国各个地区(即各次观测)对应的“健康中国指数”的得分,可以根据全国各个地区的这个指数得分值的大小,来进行排序。
具体来说,计算“健康中国指数”得分,可以分为下列一些步骤。
第一步:收集和整理数据。
要运用主成分分析法计算,必须有完整的数据,哪怕只缺少一个数据,计算也不能进行。所以,我们选择纳入计算的健康中国指标,它们的数据必须基本完整。那些数据不完整、有较多残缺的指标,只能删除。
有些指标,数据基本完整,但有个别地区的数据残缺,如果就因此删除这个指标,又很难实现对全国31个省区市的评价计算。我们就对个别地区的数据,采取估计的办法,用相近地区的数据代替。
第二步:将总量数据都化为人均数据和百分比数据。
在各个指标的数据中,有些是人均数据和百分比数据,有些是总量数据。如果不考虑人均因素,直接用总量数据来纳入计算,就显得很不公平。
例如,医疗卫生机构数,如果直接比较总量的话,河北省的总量数据是84651个,山西省的总量数据是42162个,河北省的卫生机构数比山西省多,但这显然是不公平的,因为还要考虑人口因素,河北省的人口比山西省的人口多。所以,公平合理的做法,应该将总量数据除以人口总数,化为人均数据和百分比数据。按照除以人口总数得到的“每万人口医疗卫生机构数”的数据来看,河北省是11.15个,山西省是11.31个,这才显得公平合理。
第三步:对各变量的观测数据作中心化标准化处理。
在实际进行主成分分析法计算时,由于各个变量的实际意义不同,各个变量的量纲单位不一样,各个变量观测值的数量级也可能相差很大,所以,在进行主成分分析计算之前,我们还要对各变量的观测数据进行中心化标准化处理。
所谓“中心化标准化”,就是对每个变量的每个数据,都减去这个变量的样本均值,再除以这个变量的样本标准差。做这样的中心化标准化处理以后,各个变量都变成了无量纲单位的变量,样本均值都等于0,样本标准差都等于1,就不会发生数量级相差悬殊的情况了。我们的主成分分析计算,实际上是对中心化标准化以后的变量数据所进行的运用。
第四步:计算各个变量在“健康中国指数”中的权重系数。
因为“健康中国指数”就是主成分分析算出的第一个主成分,所以下面的计算工作,就是通过主成分分析,算出第一个主成分的载荷(即权重)。算出第一个主成分载荷后,我们再将它们除以各个变量的样本标准差,这样就得到了中心化标准化以前的原变量的载荷系数,也就是各个原变量在“健康中国指数”中的不同权重系数。
将与全国各个地区(即各次观测)对应的原变量的数据,乘以这些原变量在“健康中国指数”中的权重系数,再加起来,就得到了与各个地区对应的“健康中国指数”的得分。
为了使得分落在正常区间内,避免出现负的得分,有时根据实际情况,再加上一个常数。
例如,“健康中国指数”中的一个维度“健康环境”,是由“每万人拥有公共汽电车辆”“建成区绿化覆盖率”“城市污水日处理能力”“生活垃圾无害化处理率”“人均废气中污染物排放量”五个指标组成的。
上海在这五个指标中的数据,以及用主成分分析求出的这五个指标的权重系数如下表。
表1-1 以主成分分析法得出的五个指标权重系数
所以,上海的“健康环境”得分,就是:
9.29×0.17271247+36.8×0.174114198+834.3×0.001005501+100.0×0.139694833+0.01×(-16.8223486)=22.65205063
第五步:计算全国31个省区市“健康中国指数”的百分制得分。算出了“健康中国指数”得分后,还要化为百分制得分。
我们的计算公式是:
其中,“百分标准值”是根据实际情况,考虑到百分制得分必须处于一个合理区间内,给出的一个常数值。
例如,上海的“健康环境”得分是22.65205063,“健康环境”的百分标准值是30.81085463,所以,按照上面的公式,上海的“健康环境”百分制得分就是:
最后,根据算出来的全国31个省区市的“健康环境”的百分制得分,就可以按照从高到低的次序,对这些省区市进行排序。