一般从相关网站下载的公司财报都是PDF格式的,复制粘贴财报里的财务数据还要调整格式。利用Tableau就简单得多,因为Tableau可以直接连接PDF文件,搜索并提取其表格数据。
一般情况下,Tableau可以正确提取一个简单的PDF文件里的表格,尽管会出现一些表格标题的问题,但很容易解决。
有一个“宏达科技资产负债表.pdf”文件,如图3-27所示。现在要连接这个文件,并提取里面的资产负债表数据,以便于进行分析。
图3-27 “宏达科技资产负债表.pdf”文件
打开Tableau,在左侧命令菜单中执行“PDF文件”命令,如图3-28所示。
图3-28 “PDF文件”命令
然后在文件夹中选择“宏达科技资产负债表.pdf”文件,如图3-29所示。
单击“打开”按钮,弹出“扫描PDF文件”对话框,如图3-30所示,可以指定要扫描的页面,下面有3个单选按钮。
“全部”表示扫描整个PDF文档。
“单个页面”表示扫描指定页面的文档。
“范围”表示扫描文档的第几页到第几页。
图3-29 选择“宏达科技资产负债表.pdf”文件
图3-30 设置PDF文件的扫描区域
设置完成后,单击“确定”按钮,得到该PDF文件里面的表格数据,如图3-31所示。
图3-31 扫描提取的PDF文件里的表格数据
不过,并不是任何情况下都能得到这样完整规范的表格。图3-32所示是“资产负债表.pdf”文件,使用Tableau连接此PDF文件得到的默认情况如图3-33所示。
图3-32 “资产负债表.pdf”文件
图3-33 连接“资产负债表.pdf”文件得到的两个表
此时,会得到“Page 1 Table1”和“Page 2 Table2”两个表,将其中的一个表拖放到右侧的工作区,可以看到标题并不是真正的标题名称,而是F1、F2……,如图3-34所示。即使是设置了“字段名称位于第一行中”,结果也是不对的,如图3-35所示。
图3-34 默认的表格标题F1、F2……
图3-35 设置“字段名称位于第一行中”后的标题
此时,只能采用默认的标题F1、F2……,然后参照原始PDF文档的标题,将两个表的标题进行手动修改,如图3-36所示。
图3-36 手动修改标题
3.3.1节内容介绍的例子比较简单,因为一个PDF文件中只有一个或几个表格,没有其他的文字。实际工作中,这种还是很少见的,更常见的情况是一个完整的PDF文件,有文字,有图表,有表格,例如上市公司财报,客户报价单,等等。此时,Tableau会扫描出很多表格来,此时再选择表格时就变得比较困难。
例如,从网站上下载的PDF文件是ZGRB公司的2019年年报,文件名是“ZGRB公司2019年年度报告.pdf”,如果扫描全部文档,扫描时间可能会较长,而且得到的结果是很多表格,如图3-37所示。
此时最好先浏览一下PDF文件,确定从PDF文件中的第几页开始提取表格数据,然后在“扫描PDF文件”对话框中指定要扫描的页面,这样要快得多,准确得多。
图3-37 扫描整个PDF文件得到的可利用表格
Tableau为用户提供了一种直接从PDF文件中获取表格数据的方法,尽管这种方法不是很完美,对于很多PDF文件的表格并不能达到100%的识别效果(这取决于PDF文件制作者对表格的处理方式,有些PDF文件里的表格很规范,但也有部分PDF文件的表格很不规范),但仍然为用户节省了大量时间。