Scrapy网络爬虫开发实战最新章节_罗刚著

1.4　上手Scrapy网络爬虫开发

Python软件基金会维护的Python语言代码解释器，可以从Python官方网站https://www.python.org下载。

在Windows下安装Python以后，在控制台输入python命令进入交互式环境。

     d:\data>python
     Python 3.7.2 (tags/v3.7.2:9a3ffc0492, Dec 23 2018, 23:09:28) [MSC v.1916 64 bit
     (AMD64)] on win32
     Type "help", "copyright", "credits" or "license" for more information.
     >>>

由于开源软件的迅速发展，可以借助开源软件简化自然语言处理的开发工作。简单地，可以使用Sublime这样的文本编辑器写Python代码，也可以使用Eric（https://ericide.python-projects.org）或者Microsoft Visual Studio这样的集成开发环境。

Scrapy（https://github.com/scrapy/scrapy）是一个流行的爬虫框架。要安装Scrapy，请在终端使用以下命令：

     pip install Scrapy

Scrapy shell是一个交互式shell，可以在其中非常快速地尝试和调试爬虫代码。通常，我们通过传递网页的URL来启动一个shell，如下所示：

     语法：scrapy shell <url_to_be_scraped>

例如：

     scrapy shell http://quotes.toscrape.com/tag/friends/

获得网页标题：

     In [1]: response.xpath('//title/text()').get()
     Out[1]: 'Quotes to Scrape'

在浏览器中查看网页源代码，可以看到网页标题：

一旦我们学会了启动shell，我们就可以用它来测试爬取代码。在编写任何Python爬虫代码之前，应该使用shell测试网页以进行抓取。Scrapy shell有一些可用的快捷方式，一旦我们启动了shell，它们就可用了。快捷方式介绍如下。

shelp()：shelp()命令，显示Scrapy对象列表和有用的快捷方式。可以看到，Request对象代表发送到链接http://quotes.toscrape.com/tag/friends/的GET请求。此外，如果Response对象包含一个200 HTTP代码，表示请求成功，除此之外，它还提到了Crawler和Spider对象的位置。

fetch（URL）：“URL”是指向需要抓取的网页的链接。fetch快捷方式接受一个URL，即要抓取的网页，它返回爬虫信息，以及响应是成功还是失败。在下面的示例中，我们有一个有效的URL和一个无效的URL，根据请求的性质，fetch会显示错误或成功代码。

fetch（request）：我们可以创建一个Request对象，并将其传递给fetch()方法，为此，需要创建一个Scrapy对象。Request类提及到了所需的HTTP方法、网页的URL、标头（如果有的话）。我们要抓取URL=‘http://quotes.toscrape.com/tag/friends/’的网页，我们需要准备请求对象为：

     fetch(request_object)

终端输入输出为：

view（Response）：在默认浏览器中打开网页，网页是作为Request对象或fetch()方法中的URL发送的网页。当我们输入view（Response）时，在上述fetch（Request）之后，网页会在默认浏览器中打开。

1.4 上手Scrapy网络爬虫开发

1.4　上手Scrapy网络爬虫开发