购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.4 网页结构

在1.3节中了解了Python的基础语法,可以进行Python编程了,但是还不能写爬虫代码,因为还需要了解网页的相关内容。

网页作为数据的载体,在爬虫中需要分析网页结构,才能更好地提取需要的信息数据。

下面了解一下关于网页的一些内容,包括HTML、CSS、JavaScript和JQuery。

1.4.1 HTML

HTML是用来描述网页的一种语言。

HTML(Hyper Text Markup Language)指的是超文本标记语言,不是一种编程语言。HTML使用标记标签来描述网页。

Web浏览器的作用是读取HTML文档,并以网页的形式显示出它们。浏览器不会显示HTML标签,而是使用标签来解释页面的内容。

【范例1.4-1】HTML页面(源码路径:ch01/1.4/1.4-1.html)

范例文件1.4-1.html的具体实现代码如下。

【运行结果】

运行结果如图1-29所示。

图1-29 HTML

【范例分析】

(1)<html>与</html>之间的文本描述网页。

(2)<title>与</title>之间的文本是网页的标题。

(3)<meta/>设置编码格式。

(4)<body>与</body>之间的文本是可见的页面内容。

(5)<p>与之间的文本被显示为段落。

1.4.2 CSS

CSS(Cascading Style Sheets)是指层叠样式表,定义如何显示HTML元素,样式通常存储在样式表中,是为了解决内容与表现分离的问题。

【范例1.4-2】CSS样式(源码路径:ch01/1.4/1.4-2.html)

范例文件1.4-2.html的具体实现代码如下。

【运行结果】

运行结果如图1-30所示。

图1-30 CSS

【范例分析】

(1)<style>与</style>之间的文本是样式表,给h1标签和p标签定义了样式。

(2)<h1>与之间的文本是标题文字。

提示

一般CSS样式会单独存到一个文件(扩展名为.css)中,然后链接到HTML页面。

1.4.3 JavaScript

JavaScript(简称“JS”)是属于网络的脚本语言,被数百万计的网页用来改进设计、验证表单、检测浏览器、创建Cookies,以及更多的应用。

【范例1.4-3】JavaScript时钟效果(源码路径:ch01/1.4/1.4-3.html)

范例文件1.4-3.html的具体实现代码如下。

【运行结果】

运行结果如图1-31所示。

图1-31 JavaScript

【范例分析】

(1)<script>与</script>之间的文本是JavaScript代码。

(2)startTime()是定义的一个函数。

(3)通过new Date()得到一个日期对象,并获取此对象的时分秒。

(4)使用document的方法获取对应的标签,设置显示时分秒。

(5)setTimeout是定时器,每隔1秒获取一次时间。

提示

一般JavaScript样式会单独存到一个文件(扩展名为.js)中,然后链接到HTML页面。

1.4.4 JQuery

JQuery是一个JavaScript库,极大地简化了JavaScript编程。

【范例1.4-4】JQuery手风琴效果(源码路径:ch01/1.4/1.4-4.html)

范例文件1.4-4.html的具体实现代码如下。

【运行结果】

运行结果如图1-32所示。

图1-32 JQuery

【范例分析】

(1)<script>与</script>之间的文本是JavaScript代码,通过src引入了JQuery文件,使用JQuery必须先引入JQuery。

(2)<style>与</style>之间的文本是CSS代码,控制样式。

(3)鼠标指针位于元素上方时,会发生mouseover事件。

(4)使用animate()方法控制CSS样式,有一个变化的动画效果。

提示

一般JQuery样式会单独存到一个文件(扩展名为.js)中,然后链接到HTML页面。 w6YwF2lObqLe6aMOp5I+BH0S/cUKbJgt4I3B9LWg92iFsOIGVFmtYBot38Yaig6U

点击中间区域
呼出菜单
上一章
目录
下一章
×