随着云时代的来临,数据分析技术将帮助企业用户在合理时间内获取、管理、处理及整理海量数据,为企业经营决策提供积极的帮助。大数据分析作为一门前沿技术,广泛应用于物联网、云计算、移动互联网等战略性新兴产业。在大数据的研究和应用中,爬虫作为数据获取来源之一,扮演着至关重要的角色。
本书作者以任务为导向,以将Python爬虫常用技术和真实案例相结合的方式,介绍使用Python进行数据爬取的主要方法。每一章都由任务、小结、实训和课后习题组成。设计思路以应用为导向,从而让读者明确所学知识是如何解决问题的。本书通过实训和课后习题巩固所学知识,使读者真正理解并能够应用所学知识。本书的内容由浅入深:第1章介绍了爬虫与反爬虫的基本概念,让读者在宏观上理解爬虫能够解决什么问题;第2章介绍了爬取过程中涉及的网页前端基础;第3~6章结合具体的的任务,介绍了Python在静态网页、动态网页、需要登录后才能访问的网页、PC客户端、App中爬取数据的方法;第7章介绍了使用Scrapy爬虫框架爬取数据的过程。
· 开设有数据分析、Python爬虫课程的高校的教师和学生
目前,国内不少高校将数据分析引入了教学,并在数学、计算机、自动化、电子信息、金融等专业开设了与大数据分析技术相关的课程,但目前这一课程的教学仍然主要限于理论介绍。单纯的理论教学过于抽象,学生理解起来往往比较困难,教学效果也不甚理想。本书提供的基于实践的教学模式,能够使师生充分发挥互动性和创造性,实现最佳的教学效果。
· 数据分析、Python开发等相关人员
这类人员可以通过本书理解大数据分析技术中的数据获取的爬虫方法,并掌握相关实现方法,从而对爬虫技术有一个全面而深入的了解。
为了帮助读者更好地使用本书,本书提供了相关计算过程的数据文件、Python程序代码。读者可以从泰迪云课堂( https://edu.tipdm.org/course/96 )免费下载,也可登录人民邮电出版社的人邮教育社区( http://www.ryjiaoyu.com )下载。此外,为了帮助读者更好地学习,泰迪云课堂( https://edu.tipdm.org )还提供了配套的教学视频。
为方便教师授课,本书还提供了PPT课件,读者可以从泰迪云课堂( https://edu.tipdm.org/course/96 )下载申请表,填写后发送至指定邮箱。其他图书资源,可通过热线电话(40068-40020)或以下微信公众号咨询获取。
我们已经尽最大努力避免在文本和代码中出现问题,但是由于水平有限,编写时间仓促,书中难免出现一些疏漏和不足的地方。如果您有相关的意见和建议,欢迎发送邮件至邮箱13560356095@qq.com,期待能够得到您真挚的反馈。同时,本书内容更新将及时在泰迪云课堂( https://edu.tipdm.org/course/96 )上发布,读者可以登录网站或关注泰迪大数据挖掘微信公众号(TipDataMining)查阅相关信息。更多本系列图书的信息可以在“泰迪杯”数据挖掘挑战赛网站( http://www.tipdm.org/tj/index.jhtml )上查阅。
编者
2018年12月