购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.3 获取网页内容

3.3.1 通过Requests发送请求

获取网页内容时常用Requests包。Requests包是用Python语言基于Urllib编写的,采用的是Apache License 2.0开源协议的HTTP库,Requests比Urllib更加方便,可以节约我们大量的工作时间。我们可以通过在Jupyter Notebook中运行以下命令快速安装Requests包:pip install requests。

采用Requests包获取网页时,首先需要找到目标网页的网址(URL);然后,调用Requests包中的get方法向网页发送请求,获取内容。若访问成功,Response返回的内容是“<Response [200]>”。若要读取获取网页的具体内容,需要用.text进行访问。response.text默认返回的是unicode格式,通常需要通过“response.encoding=‘utf-8’”命令,转换为utf-8格式,否则就是乱码。若改变了编码,Requests将在调用r.text时使用r.encoding的新值。下面的代码 是一个基础的get请求。

输出结果如图3-5所示。

图3-5 get请求的输出结果 BRpyy92FTfihFPkISJi659zCgMpJ/d20Jp7qOpCMhnXCrkPE0+fKE+qge3U7i5wV

点击中间区域
呼出菜单
上一章
目录
下一章
×