XPath知识点梳理

来源：互联网发布：js 设置input type 编辑：程序博客网时间：2024/06/04 19:41

1.XPath 的作用

XPath是W3C的一个标准。它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计。

XPath是一种表达式语言，它的返回值可能是节点，节点集合，原子值，以及节点和原子值的混合等。

2.XPath 表达式

XPath主要功能就是定位节点。在DOM树形结构中，节点间的关系是既定的，通过节点所在的位置，可以通过路径寻找其他节点或者原子值。

在JS里面，我们可以通过类似于 node.nextSibling.firstChild.lastChild.parentNode 这种方式进行定位元素，这种方式是通过逐级进行的，这个代码效率不高，

进而有 document.getElementById()

XPath 是根据其节点所在的位置，通过跟其他节点的位置关系，进行路径的查找和定位。

通过一次查找定位的基本单元，叫做步 (Step), 步的功能，就是根据当前节点的位置，给定它一个指定的维度（即查找方向）和相应的一些参数，来获取新的节点或者节点集；

通过上面的一句话的描述，应该可以知道一步的基本组成部分有以下三个：

a. 轴（axis） 定义所选节点与当前节点之间的树关系; XPath规定了节点之间的一系列的关系

b. 节点测试（node-test） 识别某个轴内部的节点；一个路径或者一个表达式

c. 零个或者更多谓语（predicate） 更深入地提炼所选的节点集；提供一些谓语描述，进行结果的过滤或筛选

步的基本语法：

step = axis::node-test[predicate] 即步为轴 ::节点测试[谓语]

路径表达式：

step / step / step /......

轴（axis）:

轴其实就是一个在DOM 中的节点查找其他节点的一个方向，轴可定义相对于当前节点的节点集。XPath约定DOM元素节点之间的关系有以下几种：

轴名称结果ancestor选取当前节点的所有先辈（父、祖父等）。ancestor-or-self选取当前节点的所有先辈（父、祖父等）以及当前节点本身。attribute选取当前节点的所有属性。child选取当前节点的所有子元素。descendant选取当前节点的所有后代元素（子、孙等）。descendant-or-self选取当前节点的所有后代元素（子、孙等）以及当前节点本身。following选取文档中当前节点的结束标签之后的所有节点。namespace选取当前节点的所有命名空间节点。parent选取当前节点的父节点。preceding选取文档中当前节点的开始标签之前的所有节点。preceding-sibling选取当前节点之前的所有同级节点。self选取当前节点。

d.相对路径，绝对路径

绝对路径：以 "/" 开始的路径表达式，它将从根节点开始，往下找。如：/bookstore/book

相对路径：是从当前的路径出发，以当前的节点作为参照点进行定位。这个相对路径是针对节点而言的，一般情况下，定位到一个节点 node ，则在这个node 上使用相对路径表达式。比如当前的节点 book , 若使用相对表达式： title[@lang="en"] 将选择到title 节点

e. 路径上下文( Context)

路径上下文是指当前的环境信息。在不同的上下文中，相同的相对路径表达式所得到的结果可能不一样。从另外一个角度考虑，上下文就是根据当前的位置出发，定位特定关系的节点。上下文，就描述了这种关系。

XPath上下文基本有以下几种：

当前节点(./)：
如./book 表示选择当前节点下的 book 节点集合

父节点(../)：
如../book表示选择当前节点的父节点下的book节点集合

根元素（/）：
如/book表示选择从文档根节点下的book节点集合.

根节点（/*）：
这里的*是代表所有节点，但是根元素只有一个，所以这里表示根节点。/*的返回结果和/book返回的结果一样都是book节点。

递归下降（//）:
如//book ，将从当前上下文下的所有book 元素都捞到，不管其有多少层。

f. 运算符

运算符/特殊字符

说明

此路径运算符出现在模式开头时，表示应从根节点选择。

从当前节点开始递归下降，此路径运算符出现在模式开头时，表示应从根节点递归下降。

当前上下文。

当前上下文节点父级。

通配符；选择所有元素节点与元素名无关。（不包括文本，注释，指令等节点，如果也要包含这些节点请用node()函数）

属性名的前缀。

选择所有属性，与名称无关。

命名空间分隔符；将命名空间前缀与元素名或属性名分隔。

( )

括号运算符(优先级最高)，强制运算优先级。

[ ]

应用筛选模式（即谓词，包括"过滤表达式"和"轴（向前/向后）"）。

[ ]

下标运算符；用于在集合中编制索引。

两个节点集合的联合，如：//messages/message/to | //messages/message/cc

减法。

div，

浮点除法。

and, or

逻辑运算。

mod

求余。

not()

逻辑非

等于

！=

不等于

特殊比较运算符

< 或者 <

<= 或者 <=

> 或者 >

>= 或者 >=

需要转义的时候必须使用转义的形式，如在XSLT中，而在XMLDOM的scripting中不需要转义。

3. 实例解析

以下面这个xml 文件进行解析，说明XPath 的一些用法

<?xml version="1.0" encoding="UTF-8"?><!-- edited with XMLSpy v2008 rel. 2 sp2 (http://www.altova.com) by Administrator --><?xml-stylesheet type="text/xsl" href="messages.xsl"?><messages><message id="1"><sender>gukaitong@gmail.com</sender><to>anonymous@gmail.com<group name="IT"><address>111@gmail.com</address><address>222@gmail.com</address><address>aaa@gmail.com</address><address>bbb@gmail.com</address><address>ccc@gmail.com</address></group></to><subject>This is a sample</subject><datetime date="2008-12-11" time="12:00:00" formatted="12/11/2008 12:00AM">2008-12-11T12:00:00Z</datetime><body>Are you interested in? <attachments><attachment id="1"><message id="0"><sender>anonymous@gmail.com</sender><to>gukaitong@gmail.com</to><body>We strongly recommend the following books<books xmlns:amazon="http://www.amazon.com/books/schema"><amazon:book><name>Professional C# 2008 </name><country>USA</country><price>37.79</price><year>2007</year></amazon:book><amazon:book><name>Microsoft Visual C# 2008 Step by Step </name><country>USA</country><price>26.39 </price><year>2008</year></amazon:book><amazon:book><name>C# in Depth</name><country>USA</country><price>29.69 </price><year>2006</year></amazon:book><amazon:book><name>Thinking in Java</name><country>USA</country><price>23.69 </price><year>2004</year></amazon:book></books></body></message></attachment></attachments></body></message><message id="2"><sender>333@gmail.com</sender><to>444@gmail.com</to><subject>No title</subject><body/></message></messages>

Document Root文档根.

选择文档根下面的所有元素节点，即根节点（XML文档只有一个根节点）

/node()

根元素下所有的节点（包括文本节点，注释节点等）

/text()

查找文档根节点下的所有文本节点

/messages/message

messages节点下的所有message节点

/messages/message[1]

messages节点下的第一个message节点

/messages/message[1]/self::node()

第一个message节点（self轴表示自身，node()表示选择所有节点）

/messages/message[1]/node()

第一个message节点下的所有子节点

/messages/message[1]/*[last()]

第一个message节点的最后一个子节点

/messages/message[1]/[last()]

Error，谓词前必须是节点或节点集

/messages/message[1]/node()[last()]

第一个message节点的最后一个子节点

/messages/message[1]/text()

第一个message节点的所有子节点

/messages/message[1]//text()

第一个message节点下递归下降查找所有的文本节点（无限深度）

/messages/message[1] /child::node()

/messages/message[1] /node()

/messages/message[position()=1]/node()

//message[@id=1] /node()

第一个message节点下的所有子节点

//message[@id=1] //child::node()

递归所有子节点（无限深度）

//message[position()=1]/node()

选择id=1的message节点以及id=0的message节点

/messages/message[1] /parent::*

Messages节点

/messages/message[1]/body/attachments/parent::node()

/messages/message[1]/body/attachments/parent::* /messages/message[1]/body/attachments/..

attachments节点的父节点。父节点只有一个,所以node()和* 返回结果一样。

（..也表示父节点. 表示自身节点）

//message[@id=0]/ancestor::*

Ancestor轴表示所有的祖辈，父，祖父等。

向上递归

//message[@id=0]/ancestor-or-self::*

向上递归,包含自身

//message[@id=0]/ancestor::node()

对比使用*,多一个文档根元素(Document root)

/messages/message[1]/descendant::node()

//messages/message[1]//node()

递归下降查找message节点的所有节点

/messages/message[1]/sender/following::*

查找第一个message节点的sender节点后的所有同级节点，并对每一个同级节点递归向下查找。

//message[@id=1]/sender/following-sibling::*

查找id=1的message节点的sender节点的所有后续的同级节点。

//message[@id=1]/datetime/@date

查找id=1的message节点的datetime节点的date属性

//message[@id=1]/datetime[@date]

//message/datetime[attribute::date]

查找id=1的message节点的所有含有date属性的datetime节点

//message[datetime]

查找所有含有datetime节点的message节点

//message/datetime/attribute::*

//message/datetime/attribute::node()

//message/datetime/@*

返回message节点下datetime节点的所有属性节点

//message/datetime[attribute::*]

//message/datetime[attribute::node()]

//message/datetime[@*]

//message/datetime[@node()]

选择所有含有属性的datetime节点

//attribute::*

选择根节点下的所有属性节点

//message[@id=0]/body/preceding::node()

顺序选择body节点所在节点前的所有同级节点。（查找顺序为：先找到body节点的顶级节点（根节点）,得到根节点标签前的所有同级节点，执行完成后继续向下一级，顺序得到该节点标签前的所有同级节点，依次类推。）

注意：查找同级节点是顺序查找，而不是递归查找。

//message[@id=0]/body/preceding-sibling::node()

顺序查找body标签前的所有同级节点。（和上例一个最大的区别是：不从最顶层开始到body节点逐层查找。我们可以理解成少了一个循环，而只查找当前节点前的同级节点）

//message[@id=1]//*[namespace::amazon]

查找id=1的所有message节点下的所有命名空间为amazon的节点。

//namespace::*

文档中的所有的命名空间节点。（包括默认命名空间xmlns:xml）

//message[@id=0]//books/*[local-name()='book']

选择books下的所有的book节点，

注意：由于book节点定义了命名空间<amazone:book>.若写成//message[@id=0]//books/book则查找不出任何节点。

//message[@id=0]//books/*[local-name()='book' and namespace-uri()='http://www.amazon.com/books/schema']

选择books下的所有的book节点，(节点名和命名空间都匹配)

//message[@id=0]//books/*[local-name()='book'][year>2006]

选择year节点值>2006的book节点

//message[@id=0]//books/*[local-name()='book'][1]/year>2006

指示第一个book节点的year节点值是否大于2006.

返回xs:boolean: true

4. Dom 操作的应用

XPath作为一种规范。在DOM树的解析上，很多工具都支持了XPath。

a.IE 浏览器对XPath的支持

低版本的IE可以使用以下代码：

<script language="javascript" type="text/javascript">     var xmlDoc = new ActiveXObject("Microsoft.XMLDOM");     xmlDoc.async="false";     xmlDoc.load("messages.xml");     xmlDoc.setProperty("SelectionLanguage", "XPath");     var sPath = "/messages/message[1]//books/*[local-name()='book']";     var bookNodes = xmlDoc.selectNodes(sPath); </script>

相关链接：Javascript XPath 实现 http://www.cnblogs.com/amylis_chen/archive/2012/10/03/2710770.html

但是IE10不支持这种方式，可以使用谷歌的wgxpath开源工具

<html><body>    <script src="wgxpath.install.js"></script> <script type="text/javascript">        // 加載wgxpath      wgxpath.install();       function loadXMLDoc(dname) {   if (window.XMLHttpRequest)    {    xhttp = new XMLHttpRequest();   }    else    {    xhttp = new ActiveXObject("Microsoft.XMLHTTP");   }   xhttp.open("GET", dname, false);   xhttp.send("");   return xhttp.responseXML;  }
  xml = loadXMLDoc("books.xml");  path = "/bookstore/book";  // code for IE  if (window.ActiveXObject) {   //var nodes = xml.selectNodes(path);            var nodes =  document.evaluate(path, xml, null, XPathResult.ANY_TYPE,     null);            var iterator=nodes.iterateNext();            while(null!= iterator)            {             document.write(iterator.textContent);             document.write("<br />");             iterator = nodes.iterateNext();                             }              }  // code for Mozilla, Firefox, Opera, etc.  else if (document.implementation    && document.implementation.createDocument) {   var nodes = xml.evaluate(path, xml, null, XPathResult.ANY_TYPE,     null);   var result = nodes.iterateNext();
   while (result) {    document.write(result.childNodes[0].nodeValue);    document.write("<br />");    result = nodes.iterateNext();   }  } </script></body></html>

未完待续。

本文参考：XPath 详解，总结：http://www.cnblogs.com/ktgu/archive/2009/04/16/1353246.html

0 0