共词分析法起源于20世纪80年代初期。该方法通过统计一组关键词两两出现在同一篇文献中的次数,将其进行聚类分析,以反映出这些词之间的亲疏关系,进而分析这些词所代表的学科和主题的结构变化。有学者将文献计量方法迁移至公共政策文本研究中,通过对公共政策文本主题词进行文本聚类分析,反映政策主题热点与主题变迁轨迹,描述和印证了中国政府执政理念的转变。
我们使用国务院公文主题词表作为政策关键词表,该关键词分为综合金融、贸易、国防等15个方面。我们统计政策关键词在各年各部门统计制度文件中的出现频率,从时间维度和部门维度两个方面进行可视化。如图3-11所示。
图3-11 部门的关键词词频图
观察部门的关键词词频分布,可以看出各部门在各方面的分工与涉足。例如财政、金融部门的关键词主要分布在财政金融、综合金融、综合党团等方面,农林牧渔的关键词主要分布在综合金融、农业林业水利气象等方面。而从关键词的角度出发,我们可以看到综合金融、科教文卫体方面的关键词出现频率最高,中国行政区域、外事、世界行政区域方面的关键词出现频率最低。
从时间角度出发,观察关键词词频随时间变迁,可以发现各方面的关键词词频随时间呈稳定增加趋势(见图3-12、图3-13)。无论是部门还是基层,在2019—2020年各方面关键词词频大多为最高,又在2020—2021年有所滑落,这可能与新冠疫情有关。政策关键词词频主要和报表的增删相关,例如我们发现2013—2014年之后部门的世界行政区域关键词数减少至1,经检查,是因为删除了外国企业、我国港澳台企业常驻代表机构登记基本情况,导致国家名称指标骤降。
图3-12 部门关键词词频随时间变迁
图3-13 基层关键词词频随时间变迁
由于基层制度文件各年的变化较大,难以像部门制度文件一样分类,故我们利用政策关键词,对基层制度文件进行分类。我们首先提取各基层制度文件中所有统计报表中的政策关键词,构建关键词词频向量。进而,我们对各基层制度文件的关键词词频向量使用K-means聚类,手肘图如图3-14所示。
图3-14 K-means手肘图
根据该手肘图,选择3作为聚类的类数,根据K-means得到聚类标签如表3-5所示。我们可以看出K-means标签0主要是工业、建筑业等行业统计报表制度,K-means标签1主要是科技园区、企业、区县等统计报表制度,而标签2则主要是2016年之后的新一批行业统计报表制度。
表3-5 部分基层制度文件的K-means标签
为了便于可视化,我们以基层制度文件为结点,使用t-SNE方法将文本向量降维至2维,作为各基层制度文件在平面上的坐标,从而构建基层制度文件的聚类网络。图3-15中结点的颜色则代表该点所属的K-means标签。
图3-15 基于K-means聚类的基层制度文件网络
可以看出t-SNE降维后的坐标可以根据关键词词频向量分离不同制度文件,直观地体现了关键词词频向量所含的文本信息。K-means聚类结果也和t-SNE降维后的坐标一致,相同K-means标签的文件呈现明显的聚集状态,说明聚类效果较好。
同样的,我们对各基层制度文件的政策关键词词频向量计算余弦相似度,我们使用简单的最小相似度阈值,将余弦相似度大于阈值的制度文件之间相连,并定义相连的制度文件所属同一个方面。我们可以发现基于政策关键词的制度文件分类具有语义上的优良性和分类大小的灵活性。
当选定取相似度阈值为0.6时,平均每个基层制度文件有8条边,即平均和8个基层制度文件相似。我们继续将基层制度文件作为结点,将t-SNE降维后的数据作为坐标。每条边连接两个相似的基层制度文件,结点的大小代表边的数量,即结点的度。我们可以从余弦相似度网络图中看出,相连的结点大多聚集在一起,展示了余弦相似度良好的分类效果。见图3-16、图3-17。
图3-16 部分基层报表制度文件之间的余弦相似度
图3-17 基层统计制度文件基于余弦相似度的网络