爬虫基础之网页基本结构教学文档
一、网页概述
网页是互联网应用的一种形态,是组成网站的基本元素。它是一个包含HTML标签的纯文本文件,可以存放在世界上任意一台计算机中。网页可以被看作为承载各种网站应用和信息的容器,网站的可视化信息都通过网页来进行展示。
网页的组成
- 表面组成:文字、图片、音频、视频、超链接等用户可直接看到的元素
- 本质组成:
- HTML(超文本标记语言)
- CSS(层叠样式表)
- JavaScript(脚本语言)
二、HTML基础
1. HTML定义
HTML(HyperText Markup Language)是一种标记语言,通过标记符号来标记要显示的网页中的各个部分。HTML文本是由HTML命令组成的描述性文本,可以说明文字、图片、音频、视频、超链接等。
2. 网页基本结构
网页的基本结构可分为四部分:
<!DOCTYPE html> <!-- 文档类型声明 -->
<html> <!-- 网页根元素 -->
<head> <!-- 头部元素容器 -->
<!-- 元数据、脚本引用、样式表位置等 -->
</head>
<body> <!-- 网页主体内容 -->
<!-- 段落、列表、链接、图像、表格等可视内容 -->
</body>
</html>
三、CSS基础
1. CSS定义
CSS(Cascading Style Sheets)为HTML提供样式描述,定义了元素的显示方式。CSS可以:
- 统一存放和管理样式声明
- 实现样式继承和层叠
- 提供丰富的样式定义
- 设置文本和背景属性
2. CSS与HTML的关系
HTML实现网页的基本元素,CSS则负责美化这些元素的显示方式。
四、JavaScript基础
1. JavaScript定义
JavaScript(JS)是一种面向对象的解释型脚本语言,具有简单、动态、跨平台的特点。它由三部分组成:
- ECMAScript:描述JS语言的基本语法与基本对象
- DOM(文档对象模型):处理网页结构内容的方法与接口
- BOM(浏览器对象模型):独立于内容而与浏览器窗口交互的方法与接口
2. JavaScript的作用
- 构建可拓展的交互式Web应用
- 实现网页动态效果
- 处理用户交互
五、HTML元素、标签与属性
1. 元素(Element)
元素是网页的一部分,是构成网页的基本单位,一个网页就是由多个元素构成的文本文件。
2. 标签(Tag)
标签用来定义元素,大多数标签成对使用(开始标签和结束标签):
<div>这是一个div标签</div>
<p>这是一个p标签</p>
少数标签不成对:
<input>
<hr>
3. 属性(Attribute)
属性为标签添加额外信息,以键值对形式出现在开始标签中:
<a href="https://www.example.com/">这是一个a标签,href是属性</a>
属性分类:
-
通用属性(适用于大部分标签):
class:规定元素的类名id:规定元素的唯一idstyle:规定元素的行内样式title:规定元素的额外信息
-
专用属性(适用于特定标签):
href:主要用于a标签与link标签,规定超链接地址alt:主要用于img标签与area标签,规定图像无法显示时的替代文本
六、文档对象模型(DOM)
1. DOM定义
DOM(Document Object Model)是W3C制定的标准接口规范,是一种处理HTML和XML文件的标准API。DOM将HTML文本作为一个树形结构,每个结点表示一个HTML标签或文本项。
2. DOM操作API
增
document.createElement:创建元素节点document.write:向文档写入内容element.innerHTML:向标签元素中添加内容
删
element.removeChild:删除子节点并返回删除的节点element.remove:把元素从DOM树中删除element.removeAttribute:删除元素属性
改
element.appendChild:将节点插入到父节点列表末尾parentNode.replaceChild:用节点替换子节点并返回被替换节点parentNode.insertBefore:将节点插入到子节点之前
查
document.getElementById:返回匹配指定Id的元素document.getElementsByClassName:返回包含指定类名的元素的类数组对象document.querySelector:返回匹配指定选择器的第一个元素
事件处理
EventTarget.addEventListener:注册事件监听器document.createEvent:创建指定类型的事件EventTarget.removeEventListener:移除事件监听器
七、CSS选择器
CSS选择器用于控制HTML页面中的元素,主要分为:
-
元素选择器:通过标签名选择
p { /* 样式 */ } -
类选择器:通过类名选择
.page { /* 样式 */ } -
id选择器:通过id值选择
#key { /* 样式 */ } -
群组选择器:同时选择多个选择器
div, .page { /* 样式 */ } -
子元素选择器:选择直接子元素(不跨节点)
div > p { /* 样式 */ } -
后代选择器:选择所有后代元素(可跨节点)
div p { /* 样式 */ }
八、总结
理解网页基本结构是学习爬虫的基础,主要包括:
- HTML负责网页内容结构
- CSS负责网页样式表现
- JavaScript负责网页交互行为
- DOM提供了操作网页内容的接口
- CSS选择器是定位网页元素的重要工具
掌握这些基础知识后,可以更好地理解网页的构成,为后续的爬虫开发打下坚实基础。