网络爬虫是一种自动化数据采集程序。现在我们很幸运,身处互联网时代,大量的信息在网络上都可以查得到,当我们需要网络上的数据、文章、图片等信息时,通常采用的方法是一个个去手动复制、粘贴,这种方法很耗时耗力。循着“DRY”的设计原则,我们希望能有一个自动化的程序,自动帮助我们匹配到网络上的数据,然后下载下来,为我们所用。因此,网络爬虫就应运而生了。
其中,搜索引擎就是个很好的例子,搜索引擎技术中大量使用爬虫,它爬取整个互联网的内容,存储在数据库中做索引。例如,我们常常使用的百度搜索、谷歌搜索就是一只大爬虫。本篇将使用Python语言作为开发工具,从Python基础开始,由浅入深地讲解爬虫的开发流程及设计思路。