第3章我们完成了第一个网络爬虫程序,对Scrapy有了整体的认识。从本章开始,我们来学习Scrapy网络爬虫实现的技术细节。
首先介绍Scrapy中最重要的组件爬虫(Spider),它用于构建HTTP请求并从网页中提取数据;接着介绍使用Item封装数据;最后介绍使用Pipeline组件对数据进行处理,如数据清理、去重及持久化存储等。 rfTSmrqo0ph6D5jVk2XI0NwYNUWDx3tqCJEfCRcyGwvO2gsNwh+mpdwIz9JNRL4U