购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

项目一
初识爬虫

项目概述

现阶段,互联网已经成为信息的重要来源,人们习惯在搜索引擎上根据关键字查找自己感兴趣的网站,那么搜索引擎是如何找到这些网站的呢?其实,搜索引擎使用了网络爬虫(简称爬虫)不停地从互联网抓取网站数据,并将网站镜像保存在本地,从而为大众提供信息检索功能。本项目主要介绍爬虫产生的背景、爬虫的定义、爬虫的用途、爬虫的分类、爬虫实现原理和爬虫开发涉及的相关技术(TCP、HTTP、cookie、网页编码规范、HTML语言规范),以及网站robots协议和反爬虫技术。

思政目标

知法理、懂法规,做知法守法的技术人。

知识目标

(1)了解爬虫的概念。

(2)掌握爬虫的分类和实现原理。

(3)学习掌握爬虫开发常用的技术。

能力目标

(1)能够简述爬虫的定义。

(2)能够了解爬虫运作时应遵守的规则。

(3)能够了解反爬虫的目的和常用的手段。

(4)能够理解robots协议。

(5)熟悉掌握爬虫技术的实际应用场景。

学习路径

(1)通过信息单掌握基本理论知识。

(2)通过任务单在实践中巩固和升华理论知识。

(3)通过评量单反馈学习中存在的不足和改进的方向。

(4)通过课后训练再学习、再提高。

学习资源

(1)校内一体化教室。

(2)视频、PPT、习题答案等。

(3)网络资源。 f8nT3kv5oXVvNAFFzlfijRE/UjoSeA2y5tA2F3nslwWnu6ajLdJAgd4eHXHTIxeZ

思维导图

点击中间区域
呼出菜单
上一章
目录
下一章
×