获取网页内容时常用Requests包。Requests包是用Python语言基于Urllib编写的,采用的是Apache License 2.0开源协议的HTTP库,Requests比Urllib更加方便,可以节约我们大量的工作时间。我们可以通过在Jupyter Notebook中运行以下命令快速安装Requests包:pip install requests。
采用Requests包获取网页时,首先需要找到目标网页的网址(URL);然后,调用Requests包中的get方法向网页发送请求,获取内容。若访问成功,Response返回的内容是“<Response [200]>”。若要读取获取网页的具体内容,需要用.text进行访问。response.text默认返回的是unicode格式,通常需要通过“response.encoding=‘utf-8’”命令,转换为utf-8格式,否则就是乱码。若改变了编码,Requests将在调用r.text时使用r.encoding的新值。下面的代码
是一个基础的get请求。
输出结果如图3-5所示。
图3-5 get请求的输出结果