在1.3节中了解了Python的基础语法,可以进行Python编程了,但是还不能写爬虫代码,因为还需要了解网页的相关内容。
网页作为数据的载体,在爬虫中需要分析网页结构,才能更好地提取需要的信息数据。
下面了解一下关于网页的一些内容,包括HTML、CSS、JavaScript和JQuery。
HTML是用来描述网页的一种语言。
HTML(Hyper Text Markup Language)指的是超文本标记语言,不是一种编程语言。HTML使用标记标签来描述网页。
Web浏览器的作用是读取HTML文档,并以网页的形式显示出它们。浏览器不会显示HTML标签,而是使用标签来解释页面的内容。
【范例1.4-1】HTML页面(源码路径:ch01/1.4/1.4-1.html)
范例文件1.4-1.html的具体实现代码如下。
【运行结果】
运行结果如图1-29所示。
图1-29 HTML
【范例分析】
(1)<html>与</html>之间的文本描述网页。
(2)<title>与</title>之间的文本是网页的标题。
(3)<meta/>设置编码格式。
(4)<body>与</body>之间的文本是可见的页面内容。
(5)<p>与之间的文本被显示为段落。
CSS(Cascading Style Sheets)是指层叠样式表,定义如何显示HTML元素,样式通常存储在样式表中,是为了解决内容与表现分离的问题。
【范例1.4-2】CSS样式(源码路径:ch01/1.4/1.4-2.html)
范例文件1.4-2.html的具体实现代码如下。
【运行结果】
运行结果如图1-30所示。
图1-30 CSS
【范例分析】
(1)<style>与</style>之间的文本是样式表,给h1标签和p标签定义了样式。
(2)<h1>与之间的文本是标题文字。
提示
一般CSS样式会单独存到一个文件(扩展名为.css)中,然后链接到HTML页面。
JavaScript(简称“JS”)是属于网络的脚本语言,被数百万计的网页用来改进设计、验证表单、检测浏览器、创建Cookies,以及更多的应用。
【范例1.4-3】JavaScript时钟效果(源码路径:ch01/1.4/1.4-3.html)
范例文件1.4-3.html的具体实现代码如下。
【运行结果】
运行结果如图1-31所示。
图1-31 JavaScript
【范例分析】
(1)<script>与</script>之间的文本是JavaScript代码。
(2)startTime()是定义的一个函数。
(3)通过new Date()得到一个日期对象,并获取此对象的时分秒。
(4)使用document的方法获取对应的标签,设置显示时分秒。
(5)setTimeout是定时器,每隔1秒获取一次时间。
提示
一般JavaScript样式会单独存到一个文件(扩展名为.js)中,然后链接到HTML页面。
JQuery是一个JavaScript库,极大地简化了JavaScript编程。
【范例1.4-4】JQuery手风琴效果(源码路径:ch01/1.4/1.4-4.html)
范例文件1.4-4.html的具体实现代码如下。
【运行结果】
运行结果如图1-32所示。
图1-32 JQuery
【范例分析】
(1)<script>与</script>之间的文本是JavaScript代码,通过src引入了JQuery文件,使用JQuery必须先引入JQuery。
(2)<style>与</style>之间的文本是CSS代码,控制样式。
(3)鼠标指针位于元素上方时,会发生mouseover事件。
(4)使用animate()方法控制CSS样式,有一个变化的动画效果。
提示
一般JQuery样式会单独存到一个文件(扩展名为.js)中,然后链接到HTML页面。