xpath语法
来源:互联网 发布:mac返回桌面快捷键 编辑:程序博客网 时间:2024/05/08 02:06
相信写过爬虫的同学,都知道XPath的存在。博主最近在学习Scrapy的时候,就了解了一下XPath语法,这里给大家简单地介绍一下:
首先我们需要了解几个 XPath 术语。
2017/3/3 16:02:29
节点(node)
在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。
以下面这xml文档为例:
<?xml version="1.0" encoding="ISO-8859-1"?> <class> <student> <name gender="boy">Harry Potter</name> <ID>24</ID> </student> <student> <name gender="girl">Li Rose<font color=red>(monitor)</font></title> <ID>1</ID> </student> </class>
上面例子的节点为:
<classs> (文档节点/根节点) <ID>24</ID> (元素节点) gender="boy" (属性节点)
节点关系
父:每个元素以及属性都有一个父。例子中
基本值(或称原子值,Atomic value)
基本值是无父或无子的节点。
上面例子的基本值为:
Harry Potter "boy"
项目(Item)
项目是基本值或者节点。
ok,接下来开始正式讲解 XPath 语法(注意,以下表达式当然可以混合使用):
1 nodename
选取此节点的所有子节点。
from scrapy import Selectordef parse(self, response): selector=Selector(response) content=selector.xpath(class)# 选取 class 元素的所有子节点。
2 /
从根节点选取。
from scrapy import Selectordef parse(self, response): selector=Selector(response) ''' 选取根元素 class。 注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径! ''' content1=selector.xpath(/class) content2=selector.xpath(/class/student)
3 //
从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
from scrapy import Selectordef parse(self, response): selector=Selector(response) content=selector.xpath(//ID)# 选取所有ID子元素,而不管它们在文档中的位置。
4 .
选取当前节点。
5 ..
选取当前节点的父节点。
6 @
选取属性。
from scrapy import Selectordef parse(self, response): selector=Selector(response) # 选取所有gender="boy"属性的节点,而不管它们在文档中的位置。 content=selector.xpath(//[@gender="boy"])
7 谓语(Predicates)
/class/student[1] 选取属于 class 子元素的第一个 student 元素。/class/student[last()]选取属于 class 子元素的最后一个 student 元素。/class/student[last()-1]选取属于 class 子元素的倒数第二个 student 元素。/class/student[position()<3]选取属于 class 子元素的前两个 student 元素。/class/student[@gender]选取所有拥有名为 gender 的属性的 student 元素。/class/student[@gender="boy"]选取所有拥有 gender="boy" 属性的 student 元素。/class/student[ID<50]选取 class 元素的所有 student 元素,且其中的 ID 元素的值须小于 50。/class/student[ID<50]/name选取 class 元素中的 student 元素的所有 name 元素,且其中的 ID 元素的值须小于 35。
8 通配符
1. * 匹配任何元素节点 2. @* 匹配任何属性节点 3. node() 匹配任何类型的节点
9 拓展
对于如下的xml文档(参照http://www.tuicool.com/articles/iqQFBn)
<div id="test2">美女,<font color=red>你的微信是多少?</font><div>
如果使用: data = selector.xpath('//div[@id="test2"]/text()').extract()[0]
只能提取到“美女,”;
如果使用: data = selector.xpath('//div[@id="test2"]/font/text()').extract()[0]
又只能提取到“你的微信是多少?”
到底我们要怎样才能把“美女,你的微信是多少”提取出来?
快使用xpath的string(.)!!!
data = selector.xpath('//div[@id="test2"]) info = data.xpath('string(.)').extract()[0]
轻松搞定,没有后顾之忧!!
———-
转载请告知!!博主个人博客:http://www.kingboung.me
文章有不完善的地方,请留言告知!My lord
- xPath语法
- XPath语法
- xpath语法
- XPath 语法
- XPath语法
- XPath 语法
- XPath 语法
- XPath 语法
- XPath 语法
- XPath 语法
- XPath 语法
- XPath 语法
- XPath语法
- XPath语法
- XPath语法
- xpath 语法
- XPath语法
- XPath语法
- MAP的四种遍历方式
- hdu 1754 I Hate It(线段树 点更新 最大值)
- MacOS 10.12 升级 Python 到3.6
- MQTT协议笔记之订阅
- bzoj4100
- xpath语法
- Android Studio 2.3版本 Run项目不能自动启动APP的问题
- 移动端html+css实现水平任意滚动(PC端也同理)
- MQTT协议笔记之mqtt.io项目TCP协议支持
- 进程线程及进程间通信
- Java Word Tearing(字分裂)
- 关于oracle设计
- SQL教程重温(2)
- 软件开发中最顶级的 17 个平台和工具