XPath知识点梳理
来源:互联网 发布:js 设置input type 编辑:程序博客网 时间:2024/06/04 19:41
1.XPath 的作用
XPath是W3C的一个标准。它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计。
XPath是一种表达式语言,它的返回值可能是节点,节点集合,原子值,以及节点和原子值的混合等。
2.XPath 表达式
XPath主要功能就是定位节点。在DOM树形结构中,节点间的关系是既定的,通过节点所在的位置,可以通过路径寻找其他节点或者原子值。
在JS里面,我们可以通过类似于 node.nextSibling.firstChild.lastChild.parentNode 这种方式进行定位元素,这种方式是通过逐级进行的,这个代码效率不高,
进而有 document.getElementById()
XPath 是根据其节点所在的位置,通过跟其他节点的位置关系,进行路径的查找和定位。
通过一次查找定位的基本单元,叫做 步 (Step), 步的功能,就是根据当前节点的位置,给定它一个指定的维度(即查找方向)和相应的一些参数,来获取新的节点或者节点集;
通过上面的一句话的描述,应该可以知道一步的基本组成部分有以下三个:
a. 轴(axis) 定义所选节点与当前节点之间的树关系; XPath规定了节点之间的一系列的关系
b. 节点测试(node-test) 识别某个轴内部的节点; 一个路径或者一个表达式
路径表达式:
step / step / step /......
轴(axis):
轴其实就是一个在DOM 中的节点查找其他节点的一个方向,轴可定义相对于当前节点的节点集。XPath约定DOM元素 节点之间的关系有以下几种:
d.相对路径,绝对路径
绝对路径:以 "/" 开始的路径表达式,它将从根节点开始,往下找。 如:/bookstore/book
相对路径:是从当前的路径出发,以当前的节点作为参照点进行定位。 这个相对路径是针对节点而言的,一般情况下,定位到一个节点 node ,则在这个node 上使用相对路径表达式 。比如 当前的节点 book , 若使用相对表达式: title[@lang="en"] 将选择 到title 节点
e. 路径上下文( Context)
路径上下文是指 当前的环境信息。在不同的上下文中,相同的 相对路径表达式所得到的结果可能不一样。从另外一个角度考虑, 上下文就是根据当前的位置出发,定位特定关系的节点。上下文,就描述了这种关系。
XPath上下文基本有以下几种:
当前节点(./):
如./book 表示选择当前节点下的 book 节点集合
父节点(../):
如../book表示选择当前节点的父节点下的book节点集合
根元素(/):
如/book表示选择从文档根节点下的book节点集合.
根节点(/*):
这里的*是代表所有节点,但是根元素只有一个,所以这里表示根节点。/*的返回结果和/book返回的结果一样都是book节点。
递归下降(//):
如//book ,将从当前上下文下的所有book 元素都捞到,不管其有多少层。
f. 运算符
运算符/特殊字符
说明
/
此路径运算符出现在模式开头时,表示应从根节点选择。
//
从当前节点开始递归下降,此路径运算符出现在模式开头时,表示应从根节点递归下降。
.
当前上下文。
..
当前上下文节点父级。
*
通配符;选择所有元素节点与元素名无关。(不包括文本,注释,指令等节点,如果也要包含这些节点请用node()函数)
@
属性名的前缀。
@*
选择所有属性,与名称无关。
:
命名空间分隔符;将命名空间前缀与元素名或属性名分隔。
( )
括号运算符(优先级最高),强制运算优先级。
[ ]
应用筛选模式(即谓词,包括"过滤表达式"和"轴(向前/向后)")。
[ ]
下标运算符;用于在集合中编制索引。
|
两个节点集合的联合,如://messages/message/to | //messages/message/cc
-
减法。
div,
浮点除法。
and, or
逻辑运算。
mod
求余。
not()
逻辑非
=
等于
!=
不等于
特殊比较运算符
< 或者 <
<= 或者 <=
> 或者 >
>= 或者 >=
需要转义的时候必须使用转义的形式,如在XSLT中,而在XMLDOM的scripting中不需要转义。
3. 实例解析
以下面这个xml 文件进行解析,说明XPath 的一些用法
<?xml version="1.0" encoding="UTF-8"?><!-- edited with XMLSpy v2008 rel. 2 sp2 (http://www.altova.com) by Administrator --><?xml-stylesheet type="text/xsl" href="messages.xsl"?><messages><message id="1"><sender>gukaitong@gmail.com</sender><to>anonymous@gmail.com<group name="IT"><address>111@gmail.com</address><address>222@gmail.com</address><address>aaa@gmail.com</address><address>bbb@gmail.com</address><address>ccc@gmail.com</address></group></to><subject>This is a sample</subject><datetime date="2008-12-11" time="12:00:00" formatted="12/11/2008 12:00AM">2008-12-11T12:00:00Z</datetime><body>Are you interested in? <attachments><attachment id="1"><message id="0"><sender>anonymous@gmail.com</sender><to>gukaitong@gmail.com</to><body>We strongly recommend the following books<books xmlns:amazon="http://www.amazon.com/books/schema"><amazon:book><name>Professional C# 2008 </name><country>USA</country><price>37.79</price><year>2007</year></amazon:book><amazon:book><name>Microsoft Visual C# 2008 Step by Step </name><country>USA</country><price>26.39 </price><year>2008</year></amazon:book><amazon:book><name>C# in Depth</name><country>USA</country><price>29.69 </price><year>2006</year></amazon:book><amazon:book><name>Thinking in Java</name><country>USA</country><price>23.69 </price><year>2004</year></amazon:book></books></body></message></attachment></attachments></body></message><message id="2"><sender>333@gmail.com</sender><to>444@gmail.com</to><subject>No title</subject><body/></message></messages>
/
Document Root文档根.
/*
选择文档根下面的所有元素节点,即根节点(XML文档只有一个根节点)
/node()
根元素下所有的节点(包括文本节点,注释节点等)
/text()
查找文档根节点下的所有文本节点
/messages/message
messages节点下的所有message节点
/messages/message[1]
messages节点下的第一个message节点
/messages/message[1]/self::node()
第一个message节点(self轴表示自身,node()表示选择所有节点)
/messages/message[1]/node()
第一个message节点下的所有子节点
/messages/message[1]/*[last()]
第一个message节点的最后一个子节点
/messages/message[1]/[last()]
Error,谓词前必须是节点或节点集
/messages/message[1]/node()[last()]
第一个message节点的最后一个子节点
/messages/message[1]/text()
第一个message节点的所有子节点
/messages/message[1]//text()
第一个message节点下递归下降查找所有的文本节点(无限深度)
/messages/message[1] /child::node()
/messages/message[1] /node()
/messages/message[position()=1]/node()
//message[@id=1] /node()
第一个message节点下的所有子节点
//message[@id=1] //child::node()
递归所有子节点(无限深度)
//message[position()=1]/node()
选择id=1的message节点以及id=0的message节点
/messages/message[1] /parent::*
Messages节点
/messages/message[1]/body/attachments/parent::node()
/messages/message[1]/body/attachments/parent::* /messages/message[1]/body/attachments/..
attachments节点的父节点。父节点只有一个,所以node()和* 返回结果一样。
(..也表示父节点. 表示自身节点)
//message[@id=0]/ancestor::*
Ancestor轴表示所有的祖辈,父,祖父等。
向上递归
//message[@id=0]/ancestor-or-self::*
向上递归,包含自身
//message[@id=0]/ancestor::node()
对比使用*,多一个文档根元素(Document root)
/messages/message[1]/descendant::node()
//messages/message[1]//node()
递归下降查找message节点的所有节点
/messages/message[1]/sender/following::*
查找第一个message节点的sender节点后的所有同级节点,并对每一个同级节点递归向下查找。
//message[@id=1]/sender/following-sibling::*
查找id=1的message节点的sender节点的所有后续的同级节点。
//message[@id=1]/datetime/@date
查找id=1的message节点的datetime节点的date属性
//message[@id=1]/datetime[@date]
//message/datetime[attribute::date]
查找id=1的message节点的所有含有date属性的datetime节点
//message[datetime]
查找所有含有datetime节点的message节点
//message/datetime/attribute::*
//message/datetime/attribute::node()
//message/datetime/@*
返回message节点下datetime节点的所有属性节点
//message/datetime[attribute::*]
//message/datetime[attribute::node()]
//message/datetime[@*]
//message/datetime[@node()]
选择所有含有属性的datetime节点
//attribute::*
选择根节点下的所有属性节点
//message[@id=0]/body/preceding::node()
顺序选择body节点所在节点前的所有同级节点。(查找顺序为:先找到body节点的顶级节点(根节点),得到根节点标签前的所有同级节点,执行完成后继续向下一级,顺序得到该节点标签前的所有同级节点,依次类推。)
注意:查找同级节点是顺序查找,而不是递归查找。
//message[@id=0]/body/preceding-sibling::node()
顺序查找body标签前的所有同级节点。(和上例一个最大的区别是:不从最顶层开始到body节点逐层查找。我们可以理解成少了一个循环,而只查找当前节点前的同级节点)
//message[@id=1]//*[namespace::amazon]
查找id=1的所有message节点下的所有命名空间为amazon的节点。
//namespace::*
文档中的所有的命名空间节点。(包括默认命名空间xmlns:xml)
//message[@id=0]//books/*[local-name()='book']
选择books下的所有的book节点,
注意:由于book节点定义了命名空间<amazone:book>.若写成//message[@id=0]//books/book则查找不出任何节点。
//message[@id=0]//books/*[local-name()='book' and namespace-uri()='http://www.amazon.com/books/schema']
选择books下的所有的book节点,(节点名和命名空间都匹配)
//message[@id=0]//books/*[local-name()='book'][year>2006]
选择year节点值>2006的book节点
//message[@id=0]//books/*[local-name()='book'][1]/year>2006
指示第一个book节点的year节点值是否大于2006.
返回xs:boolean: true
4. Dom 操作的应用
XPath作为一种规范。在DOM树的解析上,很多工具都支持了XPath。
a.IE 浏览器对XPath的支持
低版本的IE可以使用以下代码:
<script language="javascript" type="text/javascript"> var xmlDoc = new ActiveXObject("Microsoft.XMLDOM"); xmlDoc.async="false"; xmlDoc.load("messages.xml"); xmlDoc.setProperty("SelectionLanguage", "XPath"); var sPath = "/messages/message[1]//books/*[local-name()='book']"; var bookNodes = xmlDoc.selectNodes(sPath); </script>
相关链接:Javascript XPath 实现 http://www.cnblogs.com/amylis_chen/archive/2012/10/03/2710770.html
但是IE10不支持这种方式,可以使用谷歌的wgxpath开源工具
<html><body> <script src="wgxpath.install.js"></script> <script type="text/javascript"> // 加載wgxpath wgxpath.install(); function loadXMLDoc(dname) { if (window.XMLHttpRequest) { xhttp = new XMLHttpRequest(); } else { xhttp = new ActiveXObject("Microsoft.XMLHTTP"); } xhttp.open("GET", dname, false); xhttp.send(""); return xhttp.responseXML; }
xml = loadXMLDoc("books.xml"); path = "/bookstore/book"; // code for IE if (window.ActiveXObject) { //var nodes = xml.selectNodes(path); var nodes = document.evaluate(path, xml, null, XPathResult.ANY_TYPE, null); var iterator=nodes.iterateNext(); while(null!= iterator) { document.write(iterator.textContent); document.write("<br />"); iterator = nodes.iterateNext(); } } // code for Mozilla, Firefox, Opera, etc. else if (document.implementation && document.implementation.createDocument) { var nodes = xml.evaluate(path, xml, null, XPathResult.ANY_TYPE, null); var result = nodes.iterateNext();
while (result) { document.write(result.childNodes[0].nodeValue); document.write("<br />"); result = nodes.iterateNext(); } } </script></body></html>
未完待续。
本文参考:XPath 详解,总结 :http://www.cnblogs.com/ktgu/archive/2009/04/16/1353246.html
- XPath知识点梳理
- xpath知识点
- 爬虫知识点(xpath)
- 软件设计师知识点梳理
- 软件设计师知识点梳理
- 函数模板知识点梳理
- 类模板知识点梳理
- 博客中知识点梳理
- Memcache知识点梳理(转)
- 操作系统知识点梳理
- C语言知识点梳理
- Memcache知识点梳理
- JS知识点梳理
- Memcache知识点梳理
- Memcache知识点梳理
- Hibernate知识点梳理
- Spring知识点梳理
- Memcache知识点梳理
- 3.Redis数据类型之List类型
- ubuntu wireshark 如何用普通用户抓包
- 《高效能人士的7个习惯》书摘及感想
- 关于oozie的简单说明
- 禁止网页使用复制的方法
- XPath知识点梳理
- Android下的静默安装代码
- Objective-C中使用NSValue、NSNull、NSNumber、NSDecimalNumber、NSData、NSMutableData
- 将java源码打成jar包
- 为Hadoop存储层增加对OpenStack Swift的支持
- (GCC) How can I hide "defined but not used" warnings in GCC?
- 从Google备份互联网看“数据安全
- gdb调试的时候的一些问题
- 《MySQL管理之道:性能调优、高可用与监控》迷你书