部门与基层统计报表制度文件的时间范围为2009—2021年。部门统计制度共有120份文件,每年均有10个固定部门的文件,共有4837个报表(见表3-1)。统计各个部门的报表数量,其中教文卫、人口就业等方面的报表数量最多,科技、对外经济贸易的报表数量最少。
表3-1 2009—2021年各部门统计报表数量
基层统计报表制度文件提取295份,共有4869个报表。相较于每年固定数量的统计制度文件,基层统计报表制度文件数量则有较大的波动,基层制度文件的所属方面也有较大的改变。
部门与基层统计报表制度各年份文件数如图3-2所示。
图3-2 部门与基层统计报表制度各年份文件数
由于部门报表固定,各年的统计报表具有可比性,我们从时间序列角度分析不同年份部门统计报表之间的关系。首先抽取每个统计报表中的文本,汇总得到词库 W 。针对第 t 年的第 i 个制度文件 Z it 构造词向量 V it ,词向量的长度为词库中的词语数量,词向量的第 k 维分量 V k it 为是否包含词库 W 中第 k 个词语的示性函数,见公式3-1:
进而定义第 i 个制度文件的跨年文本相似度,见公式3-2:
之所以使用余弦相似度,首先是因为它在信息处理研究中应用广泛,性质得到了很好的理解,其次,它的网络和空间表现很直观,最后,该方法的归一化建立在对文字长度的控制上,可以测量单位球面上两个文本向量之间的夹角。
各部门制度文件各年份的文本相似度如图3-3所示。从图3-3中可以看出,各年部门制度文件相似度均在0.8以上,说明各年指标的变化不大。逐年对制度文件相似度求平均,发现2014—2016年的相似度大多为1,说明2014—2015年与2015—2016年的具体指标没有改变,而2013—2015的平均相似度均为0.90,说明有较大的变化。
图3-3 各部门制度文件各年份的文本相似度
2009—2011年部门统计报表平均跨年相似度如图3-4所示。各部门制度文件跨年相似度的描述统计如图3-5所示。根据各制度文件的平均跨年相似度,我们可以看出科技的跨年相似度最小,人口就业社会保障的跨年相似度最大,体现了科技报表更新较多、较快,而人口保障等方面更新较慢,符合常理。最不相似年份即各制度的主要更新时点,主要分为两个时间点2009—2011(人口、就业、科技、城市建设、对外经济贸易等)、2013—2015(环保、能源、市场监督管理、妇女儿童、司法、教育、文化等)。
图3-4 2009—2011年部门统计报表平均跨年相似度
图3-5 各部门制度文件跨年相似度的描述统计