随着互联网的快速发展,越来越多的信息被发布到互联网上。这些信息都被嵌入到各式各样的网站结构及样式当中,虽然搜索引擎可以辅助人们寻找到这些信息,但也拥有其局限性。通用的搜索引擎的目标是尽可能覆盖全网络,其无法针对特定的目的和需求进行索引。面对如今结构越来越复杂,且信息含量越来越密集的数据,通用的搜索引擎无法对其进行有效的发现和获取。在这样的环境和需求的影响下,网络爬虫应运而生,它为互联网数据的应用提供了新的方法。
(1)认识爬虫的概念及原理。
(2)认识反爬虫的概念及对应爬取策略。
(3)掌握Python爬虫的环境配置方法。