四.scrapy XMLFeedSpider用法
来源:互联网 发布:互联网数据分析 编辑:程序博客网 时间:2024/06/07 09:42
一:在何时才会使用到XMLFeedSpider
处理RSS订阅信息,RSS是一种信息聚合技术,是基于XML
二:举例
新浪微博 http://blog.sina.com.cn/u/1649020634
点击订阅后
复制链接http://blog.sina.com.cn/rss/1649020634.xml
看到是xml文件
三:如何抓取
scrapy startproject xmlspider
cd xmlspider
scrapy genspider -t xmlfeed myxmlspider sina.com.cn
# -*- coding: utf-8 -*-from scrapy.spiders import XMLFeedSpiderclass MyxmlspiderSpider(XMLFeedSpider): name = 'myxmlspider' allowed_domains = ['sina.com.cn'] start_urls = ['http://blog.sina.com.cn/rss/1615888477.xml'] iterator = 'iternodes' # you can change this; see the docs itertag = 'rss' # change it accordingly def parse_node(self, response, selector): i = {} i['title'] = selector.xpath("/rss/channel/item/title/text()").extract() i['link'] = selector.xpath("/rss/channel/item/link/text()").extract() i['author'] = selector.xpath("/rss/channel/item/author/text()").extract() for j in range(len(i['title'])): print u'第%d篇文章:'%(j+1) print u'标题是:' print i['title'][j] print u'链接是:' print i['link'][j] print u'作者是:' print i['author'][j] print '--'*10 return i
注意 iterator:默认秩代器为‘’,itertag默认从rss开始抓取
阅读全文
2 0
- 四.scrapy XMLFeedSpider用法
- Scrapy 使用 XMLFeedSpider 来分析 XML 源
- XMLFeedSpider例子
- Scrapy-基本用法
- scrapy 基本用法
- Scrapy阅读源码分析<四>
- Scrapy框架的用法实例
- Scrapy-xpath用法以及实例
- 【python】【scrapy】使用方法概要(四)
- 【scrapy】使用方法概要(四)(转)
- Scrapy源码分析(四):请求Request
- Scrapy爬虫(四):imdb.cn爬虫实例
- Scrapy爬虫入门教程四 Spider(爬虫)
- 框架的使用(四):scrapy
- Scrapy爬虫实战四:糗事百科
- 爬虫实践(四)--scrapy简单实践
- Python爬虫知识点四--scrapy框架
- scrapy爬虫:CrawlSpider用法与总结
- 支付宝二维码脱机认证库测试过程记录(andorid平台adb shell验证)
- win7 64 位机器使用DOSBox出现illegal command:debug原因分析
- 2.4 Git Basics
- Oracle数据库安全面面观
- TensorFlow常用函数集锦(更新中)
- 四.scrapy XMLFeedSpider用法
- poi导出大数据 1000万
- 最大和字串(prefix sum,HDUOJ 1003)
- 【C++】How to libcurl and Qt Creator (MinGW)
- 1006 等差数列
- Android 百度地图使几点始终在合适的屏幕范围内显示
- 闭包问题
- 原系统删除11g Rac后安装10g Rac中的问题处理
- 着色器