现阶段,互联网已经成为信息的重要来源,人们习惯在搜索引擎上根据关键字查找自己感兴趣的网站,那么搜索引擎是如何找到这些网站的呢?其实,搜索引擎使用了网络爬虫(简称爬虫)不停地从互联网抓取网站数据,并将网站镜像保存在本地,从而为大众提供信息检索功能。本项目主要介绍爬虫产生的背景、爬虫的定义、爬虫的用途、爬虫的分类、爬虫实现原理和爬虫开发涉及的相关技术(TCP、HTTP、cookie、网页编码规范、HTML语言规范),以及网站robots协议和反爬虫技术。
知法理、懂法规,做知法守法的技术人。
(1)了解爬虫的概念。
(2)掌握爬虫的分类和实现原理。
(3)学习掌握爬虫开发常用的技术。
(1)能够简述爬虫的定义。
(2)能够了解爬虫运作时应遵守的规则。
(3)能够了解反爬虫的目的和常用的手段。
(4)能够理解robots协议。
(5)熟悉掌握爬虫技术的实际应用场景。
(1)通过信息单掌握基本理论知识。
(2)通过任务单在实践中巩固和升华理论知识。
(3)通过评量单反馈学习中存在的不足和改进的方向。
(4)通过课后训练再学习、再提高。
(1)校内一体化教室。
(2)视频、PPT、习题答案等。
(3)网络资源。