深入理解DOM

来源:互联网 发布:php,多表联查 编辑:程序博客网 时间:2024/06/11 13:35

发现在进行网页爬取的时候,经常用到DOM

http://www.w3school.com.cn/htmldom/index.asp

上面这个网页有深入介绍,推荐给大家。

 

 

HTML 文档对象模型(HTML Document Object Model)定义了访问和处理 HTML 文档的标准方法。

您应当具备的基础知识

在继续学习之前,您需要对下面的知识有基本的了解:

  • HTML / XHTML
  • JavaScript

如果您希望首先学习这些项目,请在我们的首页访问这些教程。

什么是 DOM?

通过 JavaScript,您可以重构整个 HTML 文档。您可以添加、移除、改变或重排页面上的项目。

要改变页面的某个东西,JavaScript 就需要获得对 HTML 文档中所有元素进行访问的入口。这个入口,连同对 HTML 元素进行添加、移动、改变或移除的方法和属性,都是通过文档对象模型来获得的(DOM)。

在 1998 年,W3C 发布了第一级的 DOM 规范。这个规范允许访问和操作 HTML 页面中的每一个单独的元素。

所有的浏览器都执行了这个标准,因此,DOM 的兼容性问题也几乎难觅踪影了。

DOM 可被 JavaScript 用来读取、改变 HTML、XHTML 以及 XML 文档。

DOM 被分为不同的部分(核心、XML及HTML)和级别(DOM Level 1/2/3):

Core DOM
定义了一套标准的针对任何结构化文档的对象
XML DOM
定义了一套标准的针对 XML 文档的对象
HTML DOM
定义了一套标准的针对 HTML 文档的对象。

您可以在我们的《W3C教程》阅读更多有关 W3C DOM 规范/级别的信息。

 

HTML 文档中的每个成分都是一个节点。

节点

根据 DOM,HTML 文档中的每个成分都是一个节点。

DOM 是这样规定的:

  • 整个文档是一个文档节点
  • 每个 HTML 标签是一个元素节点
  • 包含在 HTML 元素中的文本是文本节点
  • 每一个 HTML 属性是一个属性节点
  • 注释属于注释节点

Node 层次

节点彼此都有等级关系。

HTML 文档中的所有节点组成了一个文档树(或节点树)。HTML 文档中的每个元素、属性、文本等都代表着树中的一个节点。树起始于文档节点,并由此继续伸出枝条,直到处于这棵树最低级别的所有文本节点为止。

下面这个图片表示一个文档树(节点树):

HTML树结构
 
 

一棵节点树中的所有节点彼此都是有关系的。

文档树(节点数)

请看下面这个HTML文档:

<html>  <head>    <title>DOM Tutorial</title>   </head>   <body>     <h1>DOM Lesson one</h1>     <p>Hello world!</p>   </body> </html>

上面所有的节点彼此间都存在关系

除文档节点之外的每个节点都有父节点。举例,<head> 和 <body> 的父节点是 <html> 节点,文本节点 "Hello world!" 的父节点是 <p> 节点。

大部分元素节点都有子节点。比方说,<head> 节点有一个子节点:<title> 节点。<title> 节点也有一个子节点:文本节点 "DOM Tutorial"。

当节点分享同一个父节点时,它们就是同辈(同级节点)。比方说,<h1> 和 <p>是同辈,因为它们的父节点均是 <body> 节点。

节点也可以拥有后代,后代指某个节点的所有子节点,或者这些子节点的子节点,以此类推。比方说,所有的文本节点都是 <html>节点的后代,而第一个文本节点是 <head> 节点的后代。

节点也可以拥有先辈。先辈是某个节点的父节点,或者父节点的父节点,以此类推。比方说,所有的文本节点都可把 <html> 节点作为先辈节点。

 

 

通过 DOM,您可访问 HTML 文档中的每个节点。

查找并访问节点

你可通过若干种方法来查找您希望操作的元素:

  • 通过使用 getElementById() 和 getElementsByTagName() 方法
  • 通过使用一个元素节点的 parentNode、firstChild 以及 lastChild 属性

getElementById() 和 getElementsByTagName()

getElementById() 和 getElementsByTagName() 这两种方法,可查找整个 HTML 文档中的任何 HTML 元素。

这两种方法会忽略文档的结构。假如您希望查找文档中所有的 <p> 元素,getElementsByTagName() 会把它们全部找到,不管 <p> 元素处于文档中的哪个层次。同时,getElementById() 方法也会返回正确的元素,不论它被隐藏在文档结构中的什么位置。

这两种方法会向您提供任何你所需要的 HTML 元素,不论它们在文档中所处的位置!

getElementById() 可通过指定的 ID 来返回元素:

getElementById() 语法

document.getElementById("ID"); 

注释:getElementById() 无法工作在 XML 中。在 XML 文档中,您必须通过拥有类型 id 的属性来进行搜索,而此类型必须在 XML DTD 中进行声明。

getElementsByTagName() 方法会使用指定的标签名返回所有的元素(作为一个节点列表),这些元素是您在使用此方法时所处的元素的后代。

getElementsByTagName() 可被用于任何的 HTML 元素:

getElementsByTagName() 语法

document.getElementsByTagName("标签名称"); 

或者:

document.getElementById('ID').getElementsByTagName("标签名称"); 

实例 1

下面这个例子会返回文档中所有 <p> 元素的一个节点列表:

document.getElementsByTagName("p"); 

实例 2

下面这个例子会返回所有 <p> 元素的一个节点列表,且这些 <p> 元素必须是 id 为 "maindiv" 的元素的后代:

document.getElementById('maindiv').getElementsByTagName("p"); 

节点列表(nodeList)

当我们使用节点列表时,通常要把此列表保存在一个变量中,就像这样:

var x=document.getElementsByTagName("p");

现在,变量 x 包含着页面中所有 <p> 元素的一个列表,并且我们可以通过它们的索引号来访问这些 <p> 元素。

注释:索引号从 0 开始。

您可以通过使用 length 属性来循环遍历节点列表:

var x=document.getElementsByTagName("p");for (var i=0;i<x.length;i++)  {   // do something with each paragraph  }

您也可以通过索引号来访问某个具体的元素。

要访问第三个 <p> 元素,您可以这么写:

var y=x[2];

parentNode、firstChild以及lastChild

这三个属性 parentNode、firstChild 以及 lastChild 可遵循文档的结构,在文档中进行“短距离的旅行”。

请看下面这个 HTML 片段:

<table>  <tr>    <td>John</td>    <td>Doe</td>    <td>Alaska</td>  </tr></table>

在上面的HTML代码中,第一个 <td> 是 <tr> 元素的首个子元素(firstChild),而最后一个 <td> 是 <tr>元素的最后一个子元素(lastChild)。

此外,<tr> 是每个 <td>元 素的父节点(parentNode)。

对 firstChild 最普遍的用法是访问某个元素的文本:

var x=[a paragraph];var text=x.firstChild.nodeValue; 

parentNode 属性常被用来改变文档的结构。假设您希望从文档中删除带有 id 为 "maindiv" 的节点:

var x=document.getElementById("maindiv");x.parentNode.removeChild(x); 

首先,您需要找到带有指定 id 的节点,然后移至其父节点并执行 removeChild() 方法。

根节点

有两种特殊的文档属性可用来访问根节点:

  • document.documentElement
  • document.body

第一个属性可返回存在于 XML 以及 HTML 文档中的文档根节点。

第二个属性是对 HTML 页面的特殊扩展,提供了对 <body> 标签的直接访问。

 

nodeName、nodeValue 以及 nodeType 包含有关于节点的信息。

节点信息

每个节点都拥有包含着关于节点某些信息的属性。这些属性是:

  • nodeName(节点名称)
  • nodeValue(节点值)
  • nodeType(节点类型)

nodeName

nodeName 属性含有某个节点的名称。

  • 元素节点的 nodeName 是标签名称
  • 属性节点的 nodeName 是属性名称
  • 文本节点的 nodeName 永远是 #text
  • 文档节点的 nodeName 永远是 #document

注释:nodeName 所包含的 XML 元素的标签名称永远是大写的

nodeValue

对于文本节点,nodeValue 属性包含文本。

对于属性节点,nodeValue 属性包含属性值。

nodeValue 属性对于文档节点和元素节点是不可用的。

nodeType

nodeType 属性可返回节点的类型。

最重要的节点类型是:

元素类型节点类型元素1属性2文本3注释8文档9

 

一个 HTML DOM 的实例

下面这个例子向我们展示了当一个用户在文档中点击时,HTML 文档的背景颜色如何被改变。

<html><head><script type="text/javascript">function ChangeColor(){document.body.bgColor="yellow"}</script></head><body onclick="ChangeColor()">Click on this document!</body></html>

TIY

Browser 对象参考手册

点击以下链接,可以获得以下对象的更多信息,包括它们的集合、属性、方法以及事件。其中包含大量实例!

对象描述WindowJavaScript 层级中的顶层对象,表示浏览器窗口。Navigator包含客户端浏览器的信息。Screen包含客户端显示屏的信息。History包含了浏览器窗口访问过的 URL。Location包含了当前 URL 的信息。

HTML DOM 对象参考手册

请点击下面的链接,学习更多有关对象及其集合、属性、方法和事件的知识。其中包含大量实例!

对象描述Document代表整个 HTML 文档,可被用来访问页面中的所有元素Anchor代表 <a> 元素Area代表图像映射中的 <area> 元素Base代表 <base> 元素Body代表 <body> 元素Button代表 <button> 元素Event代表某个事件的状态Form代表 <form> 元素Frame代表 <frame> 元素Frameset代表 <frameset> 元素Iframe代表 <iframe> 元素Image代表 <img> 元素Input button代表 HTML 表单中的一个按钮Input checkbox代表 HTML 表单中的复选框Input file代表 HTML 表单中的文件上传Input hidden代表 HTML 表单中的隐藏域Input password代表 HTML 表单中的密码域Input radio代表 HTML 表单中的单选按钮Input reset代表 HTML 表单中的重置按钮Input submit代表 HTML 表单中的确认按钮Input text代表 HTML 表单中的文本输入域(文本框)Link代表 <link> 元素Meta代表 <meta> 元素Object代表 <Object> 元素Option代表 <option> 元素Select代表 HTML 表单中的选择列表Style代表单独的样式声明Table代表 <table> 元素TableData代表 <td> 元素TableRow代表 <tr> 元素Textarea代表 <textarea> 元素

相关页面

HTML DOM 概要

本教程已经向您讲授了如何使用 HTML DOM 提高您的网站的动态性和交互性。

您已经学习了操作 HTML 元素来对不同的情况作出响应。

如需更多有关 HTML DOM 的信息,请访问我们的 HTML DOM 实例 和 HTML DOM 参考手册。

现在您已经学习了 HTML DOM,下一步呢?

下一步,您应当学习 ASP。

HTML 文件中的脚本是在客户端(浏览器中)执行的,而 ASP 文件中的脚本是在服务器上执行的。

通过 ASP,你可以动态地编辑、改变、添加网页的任何内容,对从 HTML 表单提交的信息作出响应,访问任何数据或者数据库并把结果返回浏览器,为不同的用户定制网页,使页面的可用性更强。

由于 ASP 文件所返回的内容是纯粹的 HTML,因此它们可显示于任何浏览器中。

如果您希望学习更多有关ASP的知识,请访问我们的 ASP 教程。