网络爬虫开发最新章节_纪娜著

项目一
初识爬虫

项目概述

现阶段，互联网已经成为信息的重要来源，人们习惯在搜索引擎上根据关键字查找自己感兴趣的网站，那么搜索引擎是如何找到这些网站的呢？其实，搜索引擎使用了网络爬虫（简称爬虫）不停地从互联网抓取网站数据，并将网站镜像保存在本地，从而为大众提供信息检索功能。本项目主要介绍爬虫产生的背景、爬虫的定义、爬虫的用途、爬虫的分类、爬虫实现原理和爬虫开发涉及的相关技术（TCP、HTTP、cookie、网页编码规范、HTML语言规范），以及网站robots协议和反爬虫技术。

思政目标

知法理、懂法规，做知法守法的技术人。

知识目标

（1）了解爬虫的概念。

（2）掌握爬虫的分类和实现原理。

（3）学习掌握爬虫开发常用的技术。

能力目标

（1）能够简述爬虫的定义。

（2）能够了解爬虫运作时应遵守的规则。

（3）能够了解反爬虫的目的和常用的手段。

（4）能够理解robots协议。

（5）熟悉掌握爬虫技术的实际应用场景。

学习路径

（1）通过信息单掌握基本理论知识。

（2）通过任务单在实践中巩固和升华理论知识。

（3）通过评量单反馈学习中存在的不足和改进的方向。

（4）通过课后训练再学习、再提高。

学习资源

（1）校内一体化教室。

（2）视频、PPT、习题答案等。

（3）网络资源。

项目一 初识爬虫