一个基本的爬虫包括采集数据下载器和运行状况监控面板等部分。
网络爬虫(Crawler)的主要目的是为获取互联网上的信息。网络爬虫利用主页中的超文本链接遍历Web,通过URL引用从一个HTML文档爬行到另一个HTML文档。http://dmoz.org是整个互联网抓取的入口。网络爬虫收集到的信息可有多种用途,如建立索引、HTML文件的验证、URL链接验证、获取更新信息、站点镜像等。网络爬虫建立的页面数据库,包含有根据页面内容生成的文摘,这是一个重要特色。
网站本身可以声明不想被网络爬虫抓取的内容。可以有两种方式实现:第一种方式是在站点增加一个纯文本文件,例如http://www.baidu.com/robots.txt;另外一种方式是直接在HTML页面中使用robots的meta标签。在抓取网页时大部分网络爬虫会遵循robot.txt协议。