前言

为什么要写这本书

大数据已经渗透到当今每一个行业和业务职能领域，成为重要的生产要素。人们对于海量数据的不断挖掘和运用，预示着爬虫工作者在互联网数据公司的地位将越来越重要。爬虫工作者不仅要精通数据抓取和分析，还要掌握搜索引擎和相关检索的算法，对内存、性能、分布式算法都要有一定的了解，并针对工作进程编排合理的布局。

为了帮助初级开发者快速掌握这些实用技术，本书以“理论+案例”的形式对各个知识点进行了详细的讲解，力争能让读者以实践的方式快速掌握。

读者对象

●有Python、数据库和Web基础的学生

●初中级Python开发人员

●想学习爬虫技术的高级Python程序员、互联网架构师

●大中专院校及培训学校的教师和学生

本书特色

●案例完整

本书中的所有案例都是通过“理论讲解+环境搭建+完整代码及分析+运行结果”这种完善的结构进行讲解的。此外，复杂的案例配有项目结构图，有难度的案例还分析了底层源码，并且对于所有案例的讲解，都考虑到了读者可能会遇到的各种问题。例如，在讲解数据存储时考虑到部分读者可能没有数据基础，故本书非常详细地讲解了如何在虚拟机上安装数据库及数据库的常用操作，并且对数据库的讲解又仅限于爬虫所能涉及的范围，确保讲解的重点没有偏离。

如果你希望通过阅读本书能够快速实现某些功能，那么直接模仿书中的操作步骤、照着书中的源码做即可。

如果你希望深入学习书中的某些技术，可以仔细阅读书中的知识点、图解、源码及分析过程，并通过书中的运行结果来加深理解。当然，动手实践书中的相关案例也是不可或缺的。

如果你希望成为Python爬虫高手，就需要细心研读书中的每句讲解，亲自实践书中的所有案例，并将这些知识运用到自己的实际工作中。

●案例经典实用

本书中的案例大多是由真实项目简化而来的，既体现了所述知识点的精华，又屏蔽了无关技术的干扰。此外，本书在案例讲解时，也充分考量了相关知识的各种实际应用场景，将同一个技术在多个场景下的不同角色都做了充分的讲解。

●进阶必学技术一网打尽

本书讲解的爬虫分析、发送请求、数据提取、数据存储、并发爬虫和分布式爬虫等技术是每一位爬虫程序员在进阶路上的必学知识。这些知识虽然学习起来比较难懂，但却是前进路上不可回避的问题。本书将这些技术的核心要点进行了深入细致的讲解，可以帮助读者尽快取得技术上的突破。

●系统讲解前沿稀缺知识

本书中介绍的Selenium和Scrapy等技术，均被国内外各大互联网公司大量使用，但目前这些技术的相关资料却少之又少，实战型的书籍更是匮乏。本书对这些学习资源相对稀缺，但同时又是经典必学的知识进行了较为系统的讲解，非常有助于读者快速提升自己已有的知识体系。

●文字通俗易懂

本书的作者不仅有着多年的开发经验，还承担过多年的技术讲师及教学管理工作，非常擅长用清晰易懂的文字阐述各种难点技术。相信读者能够以一种较为轻松的阅读体验，学习完本书中介绍的所有技术。

本书的编写思路

书中分发送请求、数据提取和反反爬三部分对爬虫相关的系列技术做了系统的讲解，几乎所有的知识点都配有详细的代码案例、运行流程的解读及运行结果。

本书的前两章介绍了Python爬虫需要具备的基础知识、Python中爬虫相关的模块，以及从宏观的角度介绍了爬虫项目的架构设计和系统分析。之后讲解了全书所涉及的数据提取、并发和分布式等技术。最后以多个项目实战作为对所有知识点的总结。总体思路遵循了“宏观掌握—基础功底—应用框架—项目实战”的讲解顺序。

相信读者可以通过阅读本书，快速掌握爬虫及反反爬的实用技术，切实提高自己的技术功底。也希望读者能够将其中的部分技术用于自己的日常开发工作中，对已有项目进行升级改造，进而提高项目的质量和后续的开发效率。

本书团队及致谢

本书由河南工业大学史卫亚老师组织编写并担任主编，承担全书1～21章内容的编写。

在此向孔长征主任、左琨经理和岳福丽编辑及相关的出版社工作人员表示感谢，感谢他们在计算机图书方面的专业性经验给我带来的诸多灵感，也感谢他们在我编写本书时给予的指导和帮助。

提示：

如果你想学习本书的内容，但却没有掌握相关的基础知识，那么请加入QQ群“编程语言学习交流群”（829094243），联系管理员免费获取基础知识的学习视频或资料（若加入QQ群时，系统提示此群已满，请根据验证信息加入新群）。另外，读者也可以关注封底“博雅读书社”微信公众号，找到“资源下载”栏目，根据提示获取。

史卫亚
河南工业大学