本节将介绍本书的核心内容之一——Excel与Python的选择和协作。
选择使用Excel还是Python进行数据分析,主要考虑数据量、掌握的技能、数据场景3个方面。
1.数据量
Excel不适合处理数据量太大的数据,微软官方给出的Excel可以处理的最大数据量为1048576行×16384列,相当于一个小型数据库,但会受限于电脑的内存与CPU。Python本身并不存储数据,而是连接到数据库、大数据平台等数据源进行操作。
2.掌握的技能
掌握一定的编程技能即可组合使用Excel和Python,完成更具创造性的工作。但如果只会使用Excel,对数据的分析处理操作会受到限制。
3.数据场景
对于临时性的、要快速处理的数据分析需求,使用Excel是一个明智的选择。而对于有计划性的、目标长远的数据分析需求,选择Python会带来更大的收益。
Excel可以作为Python的数据源,Python可以帮助Excel实现自动化。
1.Excel作为Python的数据源
Python中有很多能读取和操作Excel数据的包,如Pandas、openpyxl、xlwt等。Python可以读取Excel数据,然后将清洗转换后的数据存储到不同的目标中。
2.Python帮助Excel实现自动化
Python可以读取Excel数据并将数据处理转换功能固化到Python脚本中,然后以自动化的方式执行脚本,最终的处理结果还是保存在Excel文件中。