购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.1 数据的读取

在数据分析之前,我们首先需要准备数据分析的“食材”,也就是数据,主要包括商品的属性数据、客户的订单数据、客户的退单数据等。本节将会介绍Python读取本地离线数据、Web在线数据、数据库数据等各种存储形式的数据。

3.1.1 本地离线数据

1.读取TXT文件数据

调用Pandas包中的read_table()函数,Python可以直接读取TXT格式的数据,例如读取名为orders.txt的文件,示例代码如下:

在JupyterLab中运行上述代码,输出如下:

2.读取CSV文件数据

调用Pandas包中的read_csv()函数,Python可以直接读取CSV格式的数据,例如读取名为orders.csv的文件,示例代码如下:

在JupyterLab中运行上述代码,输出如下:

3.读取Excel文件数据

调用Pandas包中的read_excel()函数,Python可以直接读取Excel格式的数据,例如读取名为orders.xls的文件,代码如下:

在JupyterLab中运行上述代码,输出如下:

3.1.2 Web在线数据

Python可以读取Web在线数据,这里选取的数据集是UCI上的红酒数据集,该数据集是对意大利同一地区种植的葡萄酒进行化学分析的结果,这些葡萄酒来自三个不同的品种,分析确定了三种葡萄酒中每种葡萄酒含有的13种成分的数量。不同种类的酒品,它的成分也有所不同,通过对这些成分的分析就可以对不同的特定的葡萄酒进行分类分析,原始数据集共有178个样本数、3种数据类别,每个样本有13个属性。

Python读取红酒在线数据集的代码如下:

在JupyterLab中运行上述代码,输出结果如下:

3.1.3 常用数据库数据

1.读取MySQL数据库数据

Python可以直接读取MySQL数据库,连接之前需要安装pymysql库。例如,统计汇总数据库orders表中2020年不同类型商品的销售额和利润额,示例代码如下:

在JupyterLab中运行上述代码,输出结果如下:

2.读取SQL Server数据库数据

Python可以直接读取SQL Server数据库数据,连接之前需要安装pymssql库。例如,查询数据库orders表中2020年利润额在400元以上的所有订单,示例代码如下:

在JupyterLab中运行上述代码,输出如下: 8gaRdbHcl6hiMeHPSn0dfnJQ/gz2VEogCrDFUrKTtJx8eH4AhtkObfdsKjMVLNy0

点击中间区域
呼出菜单
上一章
目录
下一章
×