我们进一步统计报表内容,对报表中的词语进行分词,统计词频,可以发现大多数的词语出现频率在10次以下,说明报表中的特殊词语较多,只有少部分词语出现20次以上,如图3-8所示。
图3-8 报表词频直方图
统计报表中最为重要的内容是指标名称,对指标名称进行词频统计,删除停顿词以及区县(区县频数最高)之后,统计出频数前三十的指标名称,见表3-3。部门报表的指标名称主要集中在各个行业。
表3-3 部门报表指标top30词频
我们可以分析各制度文件跨年的指标新增率(新增词语除以上一年词语总数)和指标减少率,见图3-9、图3-10。从指标数我们可以看出,大部分文件的指标变化不大,大多在20%以下。而环保能源指标数在2013—2015年突增,科技指标数在2017—2019年突增,体现了重要的时间点。
图3-9 各部门制度文件的指标新增率
图3-10 各部门制度文件的指标减少率