在1.1节中了解了关于爬虫的一些基础知识和爬虫爬取页面的简单流程,那用什么语言来实现这一过程呢?答案是Python语言。
Python是一种计算机程序设计语言。相较于C、Java、Basic、JavaScript等语言,Python语言编写灵活、开发效率较高。此外,Python语言中HTTP请求处理和HTML解析相关的工具非常丰富,而且还有强大的爬虫框架Scrapy及高效成熟的scrapy-redis分布式组件。对于初学者和完成普通任务而言,Python语言相对来说简单易用。
搭建Python开发环境包括Python的安装和PyCharm的安装。
Python是跨平台的,它可以在Windows、Mac OS和Linux系统平台上运行。在Windows系统平台上写的Python程序,放在Linux系统平台上也是能够运行的。
首先要下载和安装Python。安装后,会得到Python解释器,一个命令行交互环境,还有一个简单的集成开发环境。
提示
这里使用的是Python 3.5.x版本。
在Python官网可以查看Python最新源码、二进制文档、新闻资讯等内容。
在Python官网首页选择【Docs】选项,可以下载Python相关的文档,包括HTML、PDF和PostScript等格式的文档。
在Python官网首页选择【Downloads】选项,可以下载Python的各个平台的版本,如图1-2所示。这里选择【Python 3.5.0】版本,然后单击【Download】链接。
图1-2 选择Python版本
此时即可跳转到如图1-3所示的界面。在这个界面中需要根据使用的系统平台,选择合适的下载链接。
(1)Linux平台可以选择下载Source release。
(2)Mac OS平台可以选择下载Mac OS X。
(3)Windows平台可以选择下载Windows。
图1-3 选择平台
提示
根据操作系统本身,注意选择32位还是64位。
下面分别介绍在Windows、Linux、Mac OS平台上的安装方法。
(1)在Windows平台上安装Python。这里以Windows 7的64位系统、Python 3.5.x版本为例。
01在图1-3所示的界面中选择【Windows x86-64 executable installer】链接进行下载,弹出如图1-4所示的下载窗口,单击【立即下载】按钮,下载完成后可以得到如图1-5所示的下载文件。
图1-4 下载窗口
02双击图1-5所示的文件,弹出如图1-6所示的窗口,选中【Add Python 3.5 to PATH】复选框,这样就可以在任何目录下执行Python和pip命令了,选择【Customize installation】选项,自定义安装,弹出如图1-7所示的窗口。
图1-5 下载的文件
图1-6 添加环境变量
03在图1-7所示的窗口中选中所有特征,单击【Next】按钮,弹出如图1-8所示的窗口。
图1-7 选择特征
04在图1-8所示的窗口中选中【Install for all users】复选框,单击【Browse】按钮,选择安装的路径,例如,这里安装到【D:\tools\Python35】,单击【Install】按钮,进行安装,弹出如图1-9所示的窗口。
图1-8 选择安装路径
05在图1-9所示的窗口中可以看到安装的进度,等待安装成功即可。
图1-9 安装进程
06安装成功后,会弹出如图1-10所示的窗口,单击【Close】按钮,完成安装。
图1-10 安装成功
07使用【Win+R】组合键打开CMD窗口,输入【python】命令,得到如图1-11所示的结果,表示Python 3.5安装成功,可以正常使用了。
图1-11 测试
(2)在Linux平台上安装Python。
大部分Linux平台已经内置了Python 2和Python 3。这里以Ubuntu 16.04为例,使用图1-12所示的命令查看Python的版本。
图1-12 Ubuntu 16.04查看Python的版本
(3)在Mac OS平台上安装Python。
如果Mac OS平台是10.9及以上的版本,那么系统平台自带的Python版本是2.7,并没有默认安装Python 3.5。如果需要安装Python 3.5,就在图1-3所示的界面中选择【Mac OS X 64-bit/32-bit installer】链接下载软件,双击运行并根据系统提示进行安装。安装成功后,使用图1-13所示的命令查看Python的版本。
图1-13 Mac OS查看Python的版本
提示
本书使用的系统平台是Ubuntu 16.04,默认已经安装好了Python 3.5.x的解析器,不需要手动再安装。
为了更好地开发Python项目,需要选择一个优秀的集成开发环境,这里使用的是PyCharm。PyCharm是由JetBrains打造的一款Python IDE,支持Mac OS、Windows、Linux系统。
PyCharm的功能包括调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制等。
在PyCharm官网首页选择【DOWNLOAD NOW】选项,在跳转的页面中选择【Previous versions】选项,得到下载界面,如图1-14所示,在该界面中选择下载【PROFESSIONAL】版本。
图1-14 PyCharm下载地址
因为本书后续使用的是Ubuntu 16.04操作系统,所以下面了解一下在Ubuntu平台上安装PyCharm的具体操作步骤。
01如图1-15所示,运行如下命令实现下载PyCharm,这里下载的是PyCharm 2017.1.4,下载存储到家目录中。
图1-15 下载
02如图1-16所示,运行如下命令实现解压,默认解压到家目录中。
图1-16 解压
03如图1-17所示,运行如下命令实现将解压包移动到/usr/local/下,方便管理软件。
图1-17 移动
04如图1-18所示,运行如下命令实现创建软链接,方便调用。
图1-18 创建软链接
05如图1-19所示,运行如下命令启动PyCharm,弹出如图1-20所示的窗口。
图1-19 打开PyCharm
06在图1-20所示的窗口中选中【Do not import settings】单选按钮,不导入任何设置,单击【OK】按钮,弹出如图1-21所示的窗口。
图1-20 是否导入设置
07在图1-21所示的窗口中单击【Accept】按钮,弹出如图1-22所示的窗口。
图1-21 协议
08在图1-22所示的窗口中选中【Evaluate for free】单选按钮,弹出如图1-23所示的窗口。
图1-22 激活或试用
09在图1-23所示的窗口中单击【Evaluate】按钮,弹出如图1-24所示的窗口。
图1-23 免费试用30天
10在图1-24所示的窗口中单击【Accept】按钮,弹出如图1-25所示的窗口。
图1-24 是否接受协议
11在图1-25所示的窗口中单击【OK】按钮,弹出如图1-26所示的窗口。
图1-25 试用30天
12在图1-26所示的窗口中选择【Create New Project】选项,创建新的项目,弹出如图1-27所示的窗口。
图1-26 创建项目
13在图1-27所示的窗口中选择左侧的【Pure Python】选项,创建普通的Python项目,单击右侧的 按钮选择项目的路径,单击 按钮选择项目的Python解析器,最后单击【Create】按钮,弹出如图1-28所示的窗口。
图1-27 新项目
图1-28 项目界面
现在PyCharm已经安装成功了,了解了下面的Python基础语法,就可以使用PyCharm工具写代码了。