巧妇难为无米之炊,数据是我们获取信息的原料。如何获取数据呢?除了通过实验或调研获得第一手数据,研究人员可以从第三方服务商处购买数据,例如CSMAR、Wind数据库等。除了购买数据,研究人员还可以通过编写“网络爬虫”从网络上抓取数据。Python中拥有与网络爬虫相关的库,如Requests、BeautifulSoup等,我们可以非常便捷地抓取网络数据,比如电影评论数据、房地产价格、股票评论等。本章介绍网络爬虫的基本概念,并使用Requests获取原始的网页数据,主要内容如下:
· 网络爬虫的概念及工作流程
· 网页结构
· 获取网页内容
· 常见的反爬机制与解决方案