在第1章中已经了解了爬虫的相关知识,本章就开始实现爬虫。
爬虫的核心是模拟浏览器向服务器发送请求获取响应,Python提供了urllib库可以实现这些功能,使用者只需要按照要求传入对应的参数即可。为了简化使用,在urllib库的基础上做了包装,得到了一个requests模块,这样实现爬虫就更简单了。
本章重点讲解以下内容。
了解urllib模块实现爬虫
使用requests模块实现爬虫
使用re模块提取数据
爬百度贴吧 X5psc3NioE/fhuylS50QJ41K7Bqne+s8xYBzGwxXcg/opy6ivxqbYUwBclS2j5wk