在第1章中已经了解了爬虫的相关知识,本章就开始实现爬虫。
爬虫的核心是模拟浏览器向服务器发送请求获取响应,Python提供了urllib库可以实现这些功能,使用者只需要按照要求传入对应的参数即可。为了简化使用,在urllib库的基础上做了包装,得到了一个requests模块,这样实现爬虫就更简单了。
本章重点讲解以下内容。
了解urllib模块实现爬虫
使用requests模块实现爬虫
使用re模块提取数据
爬百度贴吧 zuLLKm5nIBiLQgmW1jJnJhVsFbmMedJ34oqX7dYgj+Xh4g4j4PuBXC239G5SDZKz