scrapy的xpath语法

来源：互联网发布：程序员必备手机应用编辑：程序博客网时间：2024/06/06 17:40

Scrapy是基于python的开源爬虫框架，使用起来也比较方便。具体的官网档：http://doc.scrapy.org/en/latest/

　　之前以为了解python就可以直接爬网站了，原来还要了解HTML，XML的基本协议，在了解基础以后，在了解下xpath的基础上，再使用正则表达式(python下的re包提供支持)提取一定格式的信息（比如说url），就比较容易处理网页了。

　　xpath是Scrapy下快速提取特定信息（如title,head,href等）的一个接口。

　　几个简单的例子：

　　/html/head/title: 选择HTML文档<head>元素下面的<title> 标签。
　　/html/head/title/text(): 选择前面提到的<title> 元素下面的文本内容
　　//td: 选择所有 <td> 元素
　　//div[@class="mine"]: 选择所有包含 class="mine" 属性的div 标签元素

　　基本的路径意义：

表达式描述nodename选取此节点的所有子节点。/从根节点选取。//从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。.选取当前节点。..选取当前节点的父节点。@选取属性。

阅读全文

0 0