购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.1 各种网络爬虫

有运行在大规模云计算平台的通用网络爬虫,还有一些行业垂直爬虫以及网站定向爬虫。通用网络爬虫是大鳄,每一只都有自己独立的领地。行业垂直爬虫是领头雁,是各行业的旗帜。而网站定向爬虫则像一只只小麻雀,麻雀虽小,五脏俱全。

1.1.1 通用爬虫

目前通用网络爬虫的组织方式主要有网络综合爬虫和网络主题资源爬虫两种。其中网络综合爬虫能够广泛地采集各互联网站点资源,并对其进行页面搜索,将索引结果存入索引数据库,供网络用户检索,并且能够提供互联网网络资源地导航功能的工具,如Google、百度等。

Google、百度这样的公司需要大量的服务器和专业开发人员,运营开销大,如何在经济上可行就是一个问题。通用网络爬虫的主要收入是在搜索结果页中展示和用户输入的关键词相关的广告。条幅广告比关键词广告更早出现。按点击付费的关键词广告比条幅广告的收费额度低许多,点击一次广告可能只收几分钱,而条幅广告的计价单位至少在几百块。那些曾经被忽视的中小企业,一度被认为是游离在广告市场之外的客户,现在突然进入了互联网广告的生态系统。地球上最大的动物鲸鱼吃的是小鱼小虾,只有让更多的生物进入生态链,才能够产生庞大的顶级生物。

通用网络爬虫的企业是资本密集型企业,这样的公司往往前期有风险投资,有一定盈利后成为上市公司。

1.1.2 定向爬虫

垂直定向爬虫是针对某一个行业的专业爬虫,例如搜房(http://www.soufun.com/),39健康网上的搜索。垂直搜索是搜索引擎的细分和延伸,是对网页库中的某类专门的数据进行处理后再以某信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。

垂直爬虫需要从茫茫的互联网中获取行业信息,信息按行业过滤和分类是必不可少的。垂直搜索引擎和普通的网页搜索引擎的一个最大区别是对网页信息进行结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库中,并进行进一步的加工处理,如去重、分类等。最后分词、索引再以搜索的方式满足用户的需求。

整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。

垂直爬虫的应用方向很多,比如企业库爬虫、供求信息爬虫、购物爬虫、房产爬虫、地理信息爬虫、音乐爬虫、图片爬虫……几乎各行各业各类信息都可以进一步细化成各类的垂直爬虫。

垂直爬虫的技术评估应从以下几点来判断。

(1)全面性:应该能从众多的来源采集信息。

(2)更新性:用户最好可以在几秒或几分钟内看到最新发布的信息。

(3)准确性:数据分类准确,不能包含重复冗余信息。

(4)功能性:功能完善,可以同时搜索文字信息、图片、视频、地理信息等。 I4f+SFKejq/aTTQnlccLfrOeHcJy82cRpPgjOSednHN9FliKxI4qMg/+o62EipKB

点击中间区域
呼出菜单
上一章
目录
下一章
×