如今,很多网页都设置了反爬机制,不能通过上面简单的Requests命令来获取内容。例如,采用这种方法获取豆瓣电影网页内容,会返回“<Response [418]>”访问失败结果。
因此,我们需要添加Headers,伪装成浏览器。那么如何获取Headers呢?首先,需要按下“F12”键打开控制台,然后单击“网络”(Network),在“保留日志”前打钩,刷新一下网页(Ctrl+R),在请求头标头中找到User-Agent,后面的内容即为Headers里面的参数,以豆瓣电影网页为例,进行操作后的效果如图3-6所示。
图3-6 豆瓣电影网页
通过添加Headers就可以成功获取豆瓣上的内容。