scrapy_redis

来源：互联网发布：网络剧上瘾全集观看编辑：程序博客网时间：2024/05/09 08:50

1.下载及安装redis
Window 下安装
下载地址：https://github.com/MSOpenTech/redis/releases。
Redis 支持 32 位和 64 位。这个需要根据你系统平台的实际情况选择，这里我们下载 Redis-x64-xxx.zip压缩包到 C 盘，解压后，将文件夹重新命名为 redis。

打开一个 cmd 窗口使用cd命令切换目录到 C:\redis 运行 redis-server.exe redis.windows.conf 。
如果想方便的话，可以把 redis 的路径加到系统的环境变量里，这样就省得再输路径了，后面的那个 redis.windows.conf 可以省略，如果省略，会启用默认的。输入之后，会显示如下界面：
这里写图片描述

这时候另启一个cmd窗口，原来的不要关闭，不然就无法访问服务端了。
切换到redis目录下运行 redis-cli.exe -h 127.0.0.1 -p 6379 ，启动redis。
这里写图片描述

2.利用Redis Desktop Manager，redis数据可视化窗口
Redis Desktop Manager使用方法参照：http://jingyan.baidu.com/album/0a52e3f4ddec49bf62ed720c.html?picindex=1

这里写图片描述

3.scrapy_redis
@在github中下载scrapy_redis源码
下载地址：https://github.com/rmax/scrapy-redis

这里写图片描述

下载scrapy_redis后将 \\scrapy-redis-master\src\scrapy_redis 放在新建scrapy-redis的工程中

这里写图片描述

开始scrapy_redis，主要注意spider需要集成RedisSpider，其他都差不多，如果没有redis_key的话会有默认值。并且在setting中配置好redis。
1. #启用Redis调度存储请求队列
SCHEDULER = “scrapy_redis.scheduler.Scheduler
2. #确保所有的爬虫通过Redis去重
DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”
3.#将清除的项目在redis进行处理
ITEM_PIPELINES = {
‘scrapy_redis.pipelines.RedisPipeline’: 300
}

class JobboleSpider(RedisSpider):    name = 'Jobbole'    allowed_domains = ["blog.jobbole.com"]    redis_key = 'Jobbole:start_urls'

启动scrapy_redis之前需要启动好redis。
在启动scrapy_redis之后，scrapy工程是停滞的，需要在redis中加入start_url
#lpush Jobbole:start_urls http://blog.jobbole.com/all-posts/

其他一切与scrapy_spider一致。

阅读全文

0 0