购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

| 第4章 |

Scrapy网络爬虫基础

第3章我们完成了第一个网络爬虫程序,对Scrapy有了整体的认识。从本章开始,我们来学习Scrapy网络爬虫实现的技术细节。

首先介绍Scrapy中最重要的组件爬虫(Spider),它用于构建HTTP请求并从网页中提取数据;接着介绍使用Item封装数据;最后介绍使用Pipeline组件对数据进行处理,如数据清理、去重及持久化存储等。 rfTSmrqo0ph6D5jVk2XI0NwYNUWDx3tqCJEfCRcyGwvO2gsNwh+mpdwIz9JNRL4U

点击中间区域
呼出菜单
上一章
目录
下一章
×