scrapy_redis

来源:互联网 发布:网络剧上瘾全集观看 编辑:程序博客网 时间:2024/05/09 08:50

1.下载及安装redis
Window 下安装
下载地址:https://github.com/MSOpenTech/redis/releases。
Redis 支持 32 位和 64 位。这个需要根据你系统平台的实际情况选择,这里我们下载 Redis-x64-xxx.zip压缩包到 C 盘,解压后,将文件夹重新命名为 redis。

打开一个 cmd 窗口 使用cd命令切换目录到 C:\redis 运行 redis-server.exe redis.windows.conf 。
如果想方便的话,可以把 redis 的路径加到系统的环境变量里,这样就省得再输路径了,后面的那个 redis.windows.conf 可以省略,如果省略,会启用默认的。输入之后,会显示如下界面:
这里写图片描述

这时候另启一个cmd窗口,原来的不要关闭,不然就无法访问服务端了。
切换到redis目录下运行 redis-cli.exe -h 127.0.0.1 -p 6379 ,启动redis。
这里写图片描述

2.利用Redis Desktop Manager,redis数据可视化窗口
Redis Desktop Manager使用方法参照:http://jingyan.baidu.com/album/0a52e3f4ddec49bf62ed720c.html?picindex=1

这里写图片描述

3.scrapy_redis
@在github中下载scrapy_redis源码
下载地址:https://github.com/rmax/scrapy-redis

这里写图片描述

下载scrapy_redis后将 \\scrapy-redis-master\src\scrapy_redis 放在新建scrapy-redis的工程中

这里写图片描述

开始scrapy_redis,主要注意spider需要集成RedisSpider,其他都差不多,如果没有redis_key的话会有默认值。并且在setting中配置好redis。
1. #启用Redis调度存储请求队列
SCHEDULER = “scrapy_redis.scheduler.Scheduler
2. #确保所有的爬虫通过Redis去重
DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”
3.#将清除的项目在redis进行处理
ITEM_PIPELINES = {
‘scrapy_redis.pipelines.RedisPipeline’: 300
}

class JobboleSpider(RedisSpider):    name = 'Jobbole'    allowed_domains = ["blog.jobbole.com"]    redis_key = 'Jobbole:start_urls'

启动scrapy_redis之前需要启动好redis。
在启动scrapy_redis之后,scrapy工程是停滞的,需要在redis中加入start_url
#lpush Jobbole:start_urls http://blog.jobbole.com/all-posts/

其他一切与scrapy_spider一致。

原创粉丝点击