购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

前言

为什么写这本书?

随着互联网进入大数据时代,尤其是人工智能浪潮兴起的时代,爬虫技术迎来了一波新的振兴浪潮。在大数据架构中,数据的收集存储与统计分析占据了极为重要的地位,而数据的收集很大程度上依赖于爬虫的爬取,所以网络爬虫也逐渐变得越来越火爆。

在众多的网络爬虫工具中,Python以其使用简单、功能强大等优点成为网络爬虫开发的最常用工具。相比其他语言,Python是一门非常适合开发网络爬虫的编程语言,内置大量的框架和库,可以轻松实现网络爬虫功能。Python爬虫可以做的事情很多,如广告过滤、Ajax数据爬取、动态渲染页面爬取、App数据抓取、使用代理爬取、模拟登录爬取、数据存取等,Python爬虫还可以用于数据分析,在数据的抓取方面可以说作用巨大!

这本书的特点是什么?

本书力求简单、实用。坚持以实例为主,理论为辅的路线。全书共13章,从Python基础、爬虫开发常用网络请求库,到爬虫框架使用和分布式爬虫设计,以及最后的数据存储、分析、实战训练等,覆盖了爬虫项目开发阶段的整个生命周期。整体上本书内容有以下几个特点。

(1)没有高深的理论,每一章都是以实例为主,读者参考源码,修改实例,就能得到自己想要的结果。目的是让读者看得懂、学得会、做得出。

(2)实训与问答,几乎每章都有配备。目的是让读者看完之后,尽快巩固知识,举一反三,学以致用。

(3)内容系统全面,实战应用性强。本书内容在写作定位上,适合零基础读者学习,然后逐步掌握相关知识技能,从而达到从入门到精通的学习效果。另外,全书在知识讲解中,都安排了丰富的实训实战案例,目的是增强读者的实际动手能力。

在这本书里写了些什么?
写给读者的建议

读者在阅读本书时,如果是零基础,建议先从Python基础开始学习。因为学习爬虫需要读者对Python的基础语法和结构有深刻的理解和熟练应用,这样才能在后面的内容学习中达到事半功倍的效果。读者需要注意的是,本书在初稿之前所使用的Python版本为3.6.x。至于原因会在第1章中阐述,这里不做过多的解释。

写爬虫的难点不是能否拿下数据,而是在于在实际工作中,整合各种需求业务场景,实现爬虫合理的任务调度、性能优化等。所以这里建议读者在阅读本书时,着重于爬取思路和逻辑方面的思考,不要太过于纠结代码。针对于同一个网站或App可以尝试采用不同的策略和解决办法去爬取,观察每一种方法的优缺点并进行总结和积累。当今的反爬技术每天都在更新迭代,将来的爬虫也会越来越难写。但是都万变不离其宗,写爬虫是个研究性的工作,需要每天不断地学习和研究各种案例。希望读者多思考,勤动手。

除了书,您还能得到什么?

(1)赠送:案例源码。提供与书中相关案例的源代码,方便读者学习参考。

(2)赠送:Python常见面试题精选(50道),旨在帮助读者在工作面试时提升过关率。习题见附录,具体答案参见下方的资源下载。

(3)赠送:“微信高手技巧随身查”“QQ高手技巧随身查”“手机办公10招就够”3本电子书,教会读者移动办公诀窍。

(4)赠送:“5分钟学会番茄工作法”视频教程。教会读者在职场中高效地工作、轻松应对职场“那些事儿”,真正让读者“不加班,只加薪”!

(5)赠送:“10招精通超级时间整理术”视频教程。专家传授10招时间整理术,教会读者如何整理时间、有效利用时间。无论是职场还是生活,都要学会时间整理。这是因为时间是人类最宝贵的财富,只有合理整理时间,充分利用时间,才能让读者的人生价值最大化。

温馨提示:以上资源,请用微信扫一扫下方二维码关注公众号,输入代码HyPc32B获取学习资源的下载地址及密码。

官方微信公众号

资源下载

本书由凤凰高新教育策划,刘延林老师编写。在本书的编写过程中,我们竭尽所能地为您呈现最好、最全的实用内容,但仍难免有疏漏和不妥之处,敬请广大读者不吝指正。

读者信箱:2751801073@qq.com jUcZBJGzrJmsgPuxQQ/GBmXbQl6M+i8YbLF0HdEU7paIlKPV2owVuTwldAKmpL8B

点击中间区域
呼出菜单
上一章
目录
下一章
×