购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第1章
网络爬虫开发入门实践

本章首先详细介绍当前流行的几种开源Java爬虫框架。接下来通过基于Selenium框架的爬虫程序开发,引导读者逐步掌握Web网络爬虫程序的编写。本章内容不仅涵盖Web爬虫开发的环境搭建和基本原理,还将通过具体案例深入浅出地展示爬虫程序的开发过程。

在展示爬虫程序开发过程中,本章将首先详细介绍Java和Selenium开发环境的搭建过程。随后,通过一系列简单的爬虫示例,展示如何有效获取和处理网页内容,包括打印网页内容、使用表达式提取特定元素、模拟用户输入和单击操作、从iframe中采集数据,以及进行屏幕截图等技巧。

此外,本章还将深入介绍如何优雅地实现等待机制,并调整浏览器配置以优化爬虫性能。同时,还将介绍Chrome浏览器的Chrome DevTools Protocol(CDP)协议的原理及其应用,帮助读者更全面地理解和应用这些高级工具。 wkUnzOF5t0/hRX7OMOMx26t/PVZBXMlTEFfF7xPDn7JrLEuUxGlvigPentn5OvMR

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开