Scrapy网络爬虫开发实战最新章节_罗刚著

1.2　网络爬虫基本技术

一个基本的爬虫包括采集数据下载器和运行状况监控面板等部分。

网络爬虫（Crawler）的主要目的是为获取互联网上的信息。网络爬虫利用主页中的超文本链接遍历Web，通过URL引用从一个HTML文档爬行到另一个HTML文档。http://dmoz.org是整个互联网抓取的入口。网络爬虫收集到的信息可有多种用途，如建立索引、HTML文件的验证、URL链接验证、获取更新信息、站点镜像等。网络爬虫建立的页面数据库，包含有根据页面内容生成的文摘，这是一个重要特色。

网站本身可以声明不想被网络爬虫抓取的内容。可以有两种方式实现：第一种方式是在站点增加一个纯文本文件，例如http://www.baidu.com/robots.txt；另外一种方式是直接在HTML页面中使用robots的meta标签。在抓取网页时大部分网络爬虫会遵循robot.txt协议。

购买书籍时，会优先扣除您的代金券，再扣除阅饼；当您的余额不足时，可使用微信或支付宝支付，补足差价；
连载书籍勾选自动购买下一章后，会自动扣费，已购章节不会重复扣费；
书籍购买记录请至我的—购书记录中查询

1.2 网络爬虫基本技术

1.2　网络爬虫基本技术