购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第一节
统计报表制度

北京市统计报表制度主要分为部门统计和基层统计两部分。其中,部门统计报表制度是国务院有关部门实施部门统计调查项目的工作业务方案,而基层统计报表制度是县及县以上地方人民政府及其部门实施地方统计调查项目的工作业务方案。统计报表制度组织框架如图3-1所示。

图3-1 统计报表制度组织框架

为获取统计报表制度相关数据信息,这里依旧使用Python进行爬虫操作。首先使用requests包爬取北京市统计局网站上所有年份的统计制度文件。由于文件为pdf格式,使用pdfminer包读取每个制度文件中的各页内容,筛选出统计报表目录和具体表格的范围,进而在范围内使用camelot包分别提取出报表目录和具体表格。由于camelot只能提取表格框线内的内容,故需要文本匹配报表目录中的表名、表号等。最后对结果进行手动处理,总体提取成功率较高,只需手动修改一些文本错位的问题。值得注意的是,有的年份的制度文件为纯图PDF,我们需要对纯图PDF使用paddleocr包提取表格内容,paddleocr会将表格的表头表尾等提取出来,为了保证表格提取的一致性,需要手动将表头、表尾等信息去除。 ZloPsQrzNQrx4ikwJW6WUYQYE+mlscShrRCjbLx6FRt5unh0TV4WcthXk7T3Ljiv

点击中间区域
呼出菜单
上一章
目录
下一章
×