购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.2 读写数据

2.2.1 文件管理

在读入数据之前,工作路径的设置尤为重要,就像要想吃火锅,就必须要知道火锅店地址一样,这个叫“Python”的人,要去找到“数据”这个火锅店的地址。这是后面做一系列研究的基础,所以先来介绍设置工作路径的方法。

例2.2.1 设置工作路径

其中,os是Python的标准模块,import可理解为加载,import os即加载os模块。os.getcwd()可以查看当前的工作目录。不同的数据科学项目应该存储于不同的目录,所以这时就需要我们根据数据文件的位置来设置工作目录。命令os.chdir就是将工作目录更改成数据存放位置的函数。最后设置完成后,最好再利用os.getcwd()检查一下路径是否设置成功。本书为了方便起见,所有被使用的数据都尽量存储在网络上,所以导入数据时有时会使用其他命令。

2.2.2 读入火锅团购数据

围绕着“火锅团购”会有店铺信息、团购信息和评论这3个方面的数据。因此,本书会主要使用以下3个扩展名为.xIsx的文件。

(1)shops_nm. xIsx:店铺数据集。包含每家门店所在的城市及具体地址、大众评分、店铺菜品种类及该店铺的人均消费情况等信息。

(2)coupon_nm. xIsx:团购活动内容数据集。包含每个团购活动的举办地址、所属店铺、内容、价位、购买人数及评价人数等信息。

(3)comment_nm. xIsx:团购活动评论数据集。包含用户对该团购活动评论的时间、内容、评分及所属门店等信息。

这3张数据表的信息整合后共同记录了每个团购活动所属店铺的信息、具体的团购信息及大众对该活动的评价信息。

数据介绍清楚以后,接下来面临的问题就是如何读入这些数据。希望这里大家先“不求甚解”,记住一种叫作Pandas的Python模块能提供函数读取数据即可,关于Pandas的具体内容会在后续章节中详细讲解。接下来,就从导入团购活动内容数据集coupon_nm.xIsx开始Python之旅。

例2.2.2 读取.xIsx格式数据

运行结果如图2-2-1所示。

图2-2-1 coupon_nm.xIsx数据集信息

从图2-2-1中可以看出,这份数据可以观察到每个团购所属的店铺、内容介绍、购买人数、评价人数、价格和店铺地址等信息。如果coupon是CSV文件,则也可以很方便地读取,只需要将代码第2行中的pd.read_exceI改为pd.read_csv即可,注意这里的编码方式是'gbk'。

例2.2.3 读取.csv格式数据

代码运行后会得到与图2-2-1同样的结果。

虽然已经读取了火锅数据,但是这些都是扩展名为.xIsx或.csv的数据文件。那么其他存储类型的数据如何读取呢?下面来介绍Python对于TXT文件的读写。

2.2.3 利用open()函数读写文件

open是Python中的内置函数,其正确的使用逻辑是:打开文件—读取文件内容—关闭文件。需要注意的是,文件使用完毕之后一般需要关闭,因为文件对象会占用系统资源,并且操作系统在同一时间内能够打开的文件数量有限。

open()函数使用的基本语法如下。

其中,打开模式用于控制使用何种方式打开文件。open()函数提供了7种基本的打开模式,见表2-2-1。

表2-2-1 open()函数的7种基本打开模式

下面利用open()函数新建一个名为food的TXT文件,然后写入内容。

例2.2.4 open()函数读写文件

这样就会在工作目录下发现有一个food.txt文件,打开后出现两行话,分别是“西安火锅真棒”和“我喜欢西安的火锅!”,如图2-2-2所示。

图2-2-2 food.txt文件内容

最后利用f.cIose可以把文件关闭。在这个过程中,需要注意的是,当food文件在目录中已经存在时,如果我们还以“w”的模式打开,那么原来文件中的内容就会被清空。

Python还有很多文件读取的方法,这里就不一一介绍了,等到需要用时再进行仔细讲解。 jxH46aaA0VWHlnX39iYCTQInYnR6xgvrIonIPppObLY7SUpSvW27wLQaBZwRGISl

点击中间区域
呼出菜单
上一章
目录
下一章
×