scrapy的xpath语法
来源:互联网 发布:程序员必备手机应用 编辑:程序博客网 时间:2024/06/06 17:40
Scrapy是基于python的开源爬虫框架,使用起来也比较方便。具体的官网档:http://doc.scrapy.org/en/latest/表达式 描述 nodename选取此节点的所有子节点。/从根节点选取。//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。.选取当前节点。..选取当前节点的父节点。@选取属性。
之前以为了解python就可以直接爬网站了,原来还要了解HTML,XML的基本协议,在了解基础以后,在了解下xpath的基础上,再使用正则表达式(python下的re包提供支持)提取一定格式的信息(比如说url),就比较容易处理网页了。
xpath是Scrapy下快速提取特定信息(如title,head,href等)的一个接口。
几个简单的例子:
/html/head/title: 选择HTML文档<head>元素下面的<title> 标签。
/html/head/title/text(): 选择前面提到的<title> 元素下面的文本内容
//td: 选择所有 <td> 元素
//div[@class="mine"]: 选择所有包含 class="mine" 属性的div 标签元素
基本的路径意义:
阅读全文
0 0
- scrapy的xpath语法
- python scrapy xpath常用语法
- 3、scrapy——xpath语法
- python.scrapy爬虫-xpath查询语法
- scrapy需要的xpath知识点
- scrapy 元素的相对xpath
- XPath的语法
- xpath的简明语法
- XPath的语法
- java的xpath语法
- xpath的简明语法
- XPath的语法
- xpath的语法
- XPath的简单语法
- XPath的语法
- XPath的语法
- xpath的语法
- dom4j的XPATH语法
- IT与风投
- 我的javascript权威指南-13
- 飞凌OK335xd-linux-4.9.41 移植
- 我从阿里面试回来,想和Java程序猿谈一谈
- Linux系统上的Nginx安装
- scrapy的xpath语法
- 如何为已有项目配置 Git 源?
- How to upgrade gcc on CentOS6.5
- 微信服务号被动回复消息:该公众号提供的服务出现故障,请稍后再试
- 【Android学习】标题栏
- HashMap 源码解析(1)
- dom4j demo4j 获取所有节点/属性
- 刷新查询购物车的操作---通过访问刷新的接口之后访问查询接口activity-adapter
- SOAP Webserver 与 Restfu