购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.6 项目运行

通过前述步骤,我们设计并完成了“手机数据爬取精灵”项目的开发。接下来,我们将运行该项目以检验开发成果。步骤如下:

(1)使用MySQL命令行或MySQL可视化管理工具(如Navicat)创建db_phone数据库。若使用命令行方式,可以输入如下命令:

     create database db_phone default character set utf8;

(2)在MySQL命令行或MySQL可视化管理工具(如Navicat)中执行创建phone数据表的SQL语句:

(3)在PyCharm的左侧项目结构中展开手机数据爬取精灵的项目文件夹,打开phone_spider.py文件,并根据自己的MySQL数据库账号和密码修改如下代码:

     # 创建 MySQL 数据库连接对象
     conn = connect(host='localhost', port=3306, database='db_phone', user='root', password='root', charset='utf8')

(4)在PyCharm的左侧项目结构中选中phone_spider.py文件,右击,在弹出的快捷菜单中选择Run'phone_spider',即可成功运行该项目,如图2.8所示。

图2.8 PyCharm中的项目文件

说明

运行项目之前,一定要确保本机已安装PyMySQL和requests_html模块。如果没有安装,请使用pip install命令进行安装。

“手机数据爬取精灵”项目运行后,会自动爬取中关村在线网站中的手机数据,并将爬取的手机数据添加到phone数据表中,如图2.9所示。

图2.9 爬取到的中关村在线网站中的手机数据

另外,项目也会自动下载手机的图片,并将它们保存到项目文件夹下的“手机图片”文件夹中,如图2.10所示。

图2.10 下载到本地的手机图片

本章主要讲解了如何从中关村在线网站中爬取手机数据,并将数据存储至MySQL数据库中。该项目使用了requests_html、PyMySQL、random、time、os等模块。具体来说:requests_html模块中的session.get()方法用于实现发送网络请求、HTML()对象用于解析HTML代码、xpath()方法用于从HTML标签中提取手机数据;pymysql模块中的connect()方法用于连接数据库、cursor()方法用于创建游标对象、execute()方法用于执行SQL语句、commit()方法用于提交数据、close()方法用于关闭数据库连接和游标对象;random、time和os等模块则用于实现一些辅助功能,例如生成随机请求头、等待指定操作完成、创建本地文件夹以存储手机图片等。 d8bRypnq8G6mGrslTKhPyC1YOcylbHkuWTTvGGD/+QdsBPcEBYQt3wtZKGe3VItE

点击中间区域
呼出菜单
上一章
目录
下一章
×