scrapy-redis的使用(基于scrapy的改装)
来源:互联网 发布:数据分析师是做什么的 编辑:程序博客网 时间:2024/04/30 05:41
1.setting 配置文件修改
# 1.(必须加)。使用scrapy_redis.duperfilter.REPDupeFilter的去重组件,在redis数据库里做去重。DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"# 2.(必须加)。使用了scrapy_redis的调度器,在redis里面分配请求。SCHEDULER = "scrapy_redis.scheduler.Scheduler"# 3.(必须加)。在redis queues 允许暂停和暂停后恢复,也就是不清理redis queuesSCHEDULER_PERSIST = True# 4.(必须加)。通过RedisPipeline将item写入key为 spider.name: items的redis的list中,供后面的分布式处理item。# 这个已经由scrapy-redis实现了,不需要我们自己手动写代码,直接使用即可。ITEM_PIPELINES = { 'scrapy_redis.pipelines.RedisPipeline': 100}REDIS_HOST = "127.0.0.1"REDIS_PORT = 6379
2.spider类的书写
from scrapy_redis.spiders import RedisSpiderimport scrapyclass ToutiaoSpider(RedisSpider): name='toutiao' redis_key = 'start_url' def parse(self, response): .... scrapy.Request(url, callback=xxx)
附带 今日头条的scrapy_redis 和 scrapy 两个版本的源码,链接补上:
阅读全文
0 0
- scrapy-redis的使用(基于scrapy的改装)
- scrapy-redis(五):scrapy中信号工作的原理
- Scrapy 和 scrapy-redis的区别
- 基于scrapy的开发
- 基于Python,scrapy,redis的分布式爬虫实现框架
- 基于scrapy和redis的分布式爬虫环境搭建
- 基于Python+scrapy+redis的分布式爬虫实现框架
- Scrapy的使用
- scrapy的真实使用
- scrapy 的命令使用
- Scrapy-pipelines的使用
- 基于scrapy的小爬虫
- 基于scrapy的简单爬虫
- scrapy-redis使用详解
- 使用scrapy,redis, mongodb实现的一个分布式网络爬虫
- 使用scrapy-redis构建简单的分布式爬虫
- scrapy-redis集成scrapy-splash使用教程
- scrapy-redis(六):scrapy中如何定时的运行一个任务
- 为什么有些人说转行穷三代???我看未必!!!!
- day_13_类模板(参数、数组、特化)
- 两个栈实现一个队列,并实现队列入队、出队、取队头、取队尾相关操作
- 8月19号CCPC——Graph Of Zhuper(未解答)
- Java解决汉诺塔问题
- scrapy-redis的使用(基于scrapy的改装)
- svn的merge使用例子
- TextureView的onSurfaceTextureDestroyed方法在点击下一个界面不回调问题
- Android开发学习之路-DiffUtil使用教程--Support Library 24.2.0
- centos设置开机自启动脚本
- LintCode:M-二叉查找树中搜索区间
- POJ 3356 AGTC 最短编辑距离
- UWA 两周年 | 优化就是在和时间赛跑
- 粤语-learning Day01