下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.11 Power Query导入文件夹数据

在实际的业务处理过程中,通常都会有批量导入数据的需求。例如,一个文件夹中有100个Excel文件,我们需要统一地提取这100个或更多的数据内容,这就是使用文件夹进行数据提取的具体需求。例如,销售文件夹一共有22个文件,我们需要将这22个文件的数据进行导入,但这些数据总共有将近1000万行,而Excel最大数据导入的支持量为1048576行,这么庞大的数据我们如何处理呢?我们只能在Excel中实现数据连接访问和建模,而不能将这些数据导入Excel中进行再处理。接下来将分别通过Excel和Power BI来实现数据的批量提取。

2.11.1 Excel提取文件夹所有文件数据

对于上述多个数据来源的数据如何进行完全提取呢?这就涉及在Excel中使用文件夹进行批量数据的获取。Excel若要对文件夹内所有数据内容进行获取,需要在Excel的“数据”选项卡中单击“获取数据”下拉按钮,在弹出下拉列表中选择“来自文件”→“从文件夹”命令,如图2.111所示。

图2.111 Excel获取文件夹路径

这里我们通过数据获取当前文件路径的地址,如图2.112所示,选择完相应的路径后会弹出当前预览的部分内容。

需要特别注意的是,由于文件夹所有的数据超过了1000万行,不能直接使用组合功能或加载功能,只能通过转换数据继续进行转换,单击“转换数据”按钮后得到如图2.113所示的Power Query界面。

图2.112 文件夹内容的预览界面

图2.113 Power Query文件夹处理界面

接下来使用Power Query进行数据重构,这里将除了Content列之外的所有列都删除。图2.114所示为将Content列展开后的最终数据结果。

图2.114 扩展前的数据

数据扩展的过程中将自动生成自定义函数进行数据提取,不需要进行任何额外的操作,最终所有的数据能够在提取后合并。图2.115所示为最终数据合并和显示结果,这里可以看到生成的自定义函数和最终的数据展现。

图2.115 生成的自定义函数和最终数据

当前数据的总数量已经远远超过了104万,如果选择载入到表,那么将只能载入最初的1048576行,这明显不符合对数据统计和计算的要求。如果希望基于1000万行数据进行计算,必须在“导入数据”对话框中选中“仅创建连接”单选按钮和“将此数据添加到数据模型”复选框,如图2.116所示。

图2.116 超出数据总量的设置

在完成了数据的清洗和重构之后,Excel 支持将最终的数据实现多向输出,通过载入菜单可以实现多种数据保存和处理方式。

2.11.2 Power BI提取文件夹的所有数据

在Power BI中提取所有文件中的数据其实和Excel非常类似,差别在于Power BI不能实现数据保存和再处理。在Power BI中,它的所有内容都是以连接方式进行数据处理,在缓存中保存了计算的结果,在文件夹中我们需要在Power BI界面中单击“获取数据”下拉按钮,在下拉列表中选择“全部”,然后在弹出的界面中选择如图2.117所示的“文件夹”进行数据提取。

图2.117 Power BI文件夹获取界面

在选择路径时会提示需要选择的路径,如图2.118所示,在完成路径的选择后单击“确定”按钮返回操作界面。

图2.118 选择导入数据路径

在弹出的界面中单击“转换数据”按钮后,进入Power Query界面删除其他的列,同时将目前的数据进行扩展,如图2.119所示显示的是完成扩展后的模板样式选择。

图2.119 数据扩展后的模板样式

在数据合并过程中,Power BI将会在Power Query编辑器界面生成自定义函数和模板,以及最终数据合并后的界面预览,如图2.120所示。

图2.120 数据合并后的界面

完成数据保存之后,Power BI将所有数据内容保存在数据窗格里面。如果需要基于获取数的据进行再设置,直接选择“数据”选项卡操作即可,图2.121所示为数据最终处理的结果及后续数据格式设置。

图2.121 Power BI最终数据处理结果及格式设置界面 BS3d7ti736MmFxhXHzqIeiFH6Sd/MnbOGKysSuq+6bo38mxjY6tahNc8dZOPoIaz

点击中间区域
呼出菜单
上一章
目录
下一章
×