本章首先介绍了浏览器访问网站服务器的过程;接着讲解了HTML网页的组成和结构;最后实现了使用XPath提取网页信息。这正是网络爬虫运行的核心步骤,即模拟浏览器发送请求,服务器返回网页,然后解析网页信息。通过本章的学习,为网络爬虫的开发打下了坚实的理论基础。 2OoqNtPZlnz/LQLwl0rpSVsW5LUSv8tOO6B8YDL08KoyCClr5rb35EjONPV4syfs