购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

网络爬虫

【导读】 网络爬虫,又称为网页蜘蛛、网络机器人,是一种按照一定规则、自动地抓取网络信息的程序或脚本。简单地说,爬虫就是在网络上爬行,找寻有用资料的自动化程序。

什么是网络爬虫

网络爬虫 (web crawler)就是一个探测机器,其本质是一个获取网页并提取和保存信息的自动化程序,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。

爬虫的“爬”非常形象,就像一只虫子在一幢楼里不知疲倦地爬来爬去;也像是蜘蛛,在互联网这个“网”上不断地逡巡,收取相关的数据。

我们每天使用的 搜索引擎 ,其实就是利用了爬虫技术。搜索引擎每天会放出无数个爬虫到各个网站,把它们的信息抓回来,然后在服务器上整理好,等人们来检索。当用户在搜索引擎上检索对应关键词时,搜索引擎将对该关键词进行分析处理,从收录的网页中找出相关网页,按照一定的排名规则进行排序,并将结果展现给用户。之所以有些信息和网站会搜索不到,是因为网站屏蔽了搜索引擎的爬虫。总之,要想高效地完成这些过程,离不开爬虫算法。事实上,做搜索引擎的公司不少,但是优秀的搜索引擎并不多,它们背后都有着优秀的爬虫算法作为支撑。

爬虫的作用

大数据时代,要进行数据分析首先要有数据源,而爬虫可以让我们获取更多的数据源,并且可以按我们的目的对这些数据源进行采集,去掉很多无关数据。在进行大数据分析或者数据挖掘的时候,数据源可以从一些提供数据统计的网站中获得,也可以从某些文献或内部资料中获得,但是这些获得数据的方式有时很难满足我们对数据的需求,而手动从互联网中寻找这些数据,则耗费的精力过大。此时就可以利用爬虫技术,自动从互联网中获取我们感兴趣的数据内容,并将这些数据爬取回来,作为我们的数据源进行更深层次的数据分析,以获得更多有价值的信息。

除了在搜索引擎上的应用外,一些比价网站也会使用爬虫技术,把各个电商网站的商品价格提取回来,通过比价的形式提供给用户,以方便他们找到最低价的商品。例如,小美一家人准备去海南旅游,想知道哪家航空公司的机票更便宜,一家家航空公司去找,除了累人以外,数据还不同步。使用爬虫技术可以把全部航空公司的机票价格同时提取出来,并实时更新,还能自动帮助下单买票,用起来非常方便。

特别要注意的是,爬虫的应用目前受到法律的监管。爬虫本身是不违法的,但是如果使用爬虫技术获取有版权保护的内容和个人敏感信息,或者导致别人的服务器宕机等,则会有触犯法律的风险。 8Qb0DhCnXnSZdDpzdqPWosB1+IKOrx3rMWKVAX7GZUUVn0hH3A8+RDvFclajgIBk

点击中间区域
呼出菜单
上一章
目录
下一章
×