Scrapy下xpath基本的使用方法
来源:互联网 发布:excel数据对比分析 编辑:程序博客网 时间:2024/05/17 09:00
http://www.cnblogs.com/huhuuu/p/3701017.html
Scrapy是基于python的开源爬虫框架,使用起来也比较方便。具体的官网档:http://doc.scrapy.org/en/latest/
之前以为了解python就可以直接爬网站了,原来还要了解HTML,XML的基本协议,在了解基础以后,在了解下xpath的基础上,再使用正则表达式(python下的re包提供支持)提取一定格式的信息(比如说url),就比较容易处理网页了。
xpath是Scrapy下快速提取特定信息(如title,head,href等)的一个接口。
几个简单的例子:
/html/head/title: 选择HTML文档<head>元素下面的<title> 标签。
/html/head/title/text(): 选择前面提到的<title> 元素下面的文本内容
//td: 选择所有 <td> 元素
//div[@class="mine"]: 选择所有包含 class="mine" 属性的div 标签元素
基本的路径意义:
具体的使用实例:
比如对http://www.dmoz.org/Computers/Programming/Languages/Python/Books/ 网站提取特定的信息
1)、先在第一层tutorial文件夹下,在cmd中输入: scrapy shell http://www.dmoz.org/Computers/Programming/Languages/Python/Books/
2)、现在比如我们需要抓取该网页的tittle,由于前面的shell命令已经实例化了一个selector的对象sel, 就输入 sel.xpath('//title') 获取了网页的标题。
3)、比如我们想要知道该网页下的www.****.com形式的链接,可以使用xpath 结合正则表达式re提取信息,输入 sel.xpath('//@href').re("www.[0-9a-zA-Z]+\.com")
部分参考:http://blog.csdn.net/pleasecallmewhy/article/details/19642329
正则表达式参考:http://blog.csdn.net/pleasecallmewhy/article/details/8929576
- Scrapy下xpath基本的使用方法
- Scrapy下xpath基本的使用方法
- scrapy的xpath语法
- scrapy需要的xpath知识点
- scrapy 元素的相对xpath
- 【scrapy】xpath
- scrapy xpath
- scrapy学习——xpath的学习
- XPATH的基本用法
- dom4j下的XPATH
- 嵌入式 Linux下mysql的基本使用方法
- unbutu下kdesvn的基本使用方法
- windows下boost库的基本使用方法
- windows下boost库的基本使用方法
- windows下boost库的基本使用方法
- scrapy xpath提取标签
- scrapy测试xpath
- scrapy xpath text拼接
- 自学android 问题归纳
- Xcode 工程文件打开不出来, cannot be opened because the project file cannot be parsed.
- Apache配置
- Ubuntu下Eclipse安装SVN插件(Subversion & Subclipse)
- 当遇到用\来分隔字符串
- Scrapy下xpath基本的使用方法
- Python Interview Questions: A Review
- [Leetcode]Symmetric Tree
- php DOM 解析
- 关于一个社交类App 技术选型备忘
- 微博开放平台SDK使用
- Mail signature reverts to old value after template upgrade to 8.5.2
- Jquery 判断滚动条到达顶部或底部 (可用于上拉下拉加载刷新)
- 图像之二维高斯核