scrapy_redis
来源:互联网 发布:网络剧上瘾全集观看 编辑:程序博客网 时间:2024/05/09 08:50
1.下载及安装redis
Window 下安装
下载地址:https://github.com/MSOpenTech/redis/releases。
Redis 支持 32 位和 64 位。这个需要根据你系统平台的实际情况选择,这里我们下载 Redis-x64-xxx.zip压缩包到 C 盘,解压后,将文件夹重新命名为 redis。
打开一个 cmd 窗口 使用cd命令切换目录到 C:\redis 运行 redis-server.exe redis.windows.conf 。
如果想方便的话,可以把 redis 的路径加到系统的环境变量里,这样就省得再输路径了,后面的那个 redis.windows.conf 可以省略,如果省略,会启用默认的。输入之后,会显示如下界面:
这时候另启一个cmd窗口,原来的不要关闭,不然就无法访问服务端了。
切换到redis目录下运行 redis-cli.exe -h 127.0.0.1 -p 6379 ,启动redis。
2.利用Redis Desktop Manager,redis数据可视化窗口
Redis Desktop Manager使用方法参照:http://jingyan.baidu.com/album/0a52e3f4ddec49bf62ed720c.html?picindex=1
3.scrapy_redis
@在github中下载scrapy_redis源码
下载地址:https://github.com/rmax/scrapy-redis
下载scrapy_redis后将 \\scrapy-redis-master\src\scrapy_redis 放在新建scrapy-redis的工程中
开始scrapy_redis,主要注意spider需要集成RedisSpider,其他都差不多,如果没有redis_key的话会有默认值。并且在setting中配置好redis。
1. #启用Redis调度存储请求队列
SCHEDULER = “scrapy_redis.scheduler.Scheduler
2. #确保所有的爬虫通过Redis去重
DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”
3.#将清除的项目在redis进行处理
ITEM_PIPELINES = {
‘scrapy_redis.pipelines.RedisPipeline’: 300
}
class JobboleSpider(RedisSpider): name = 'Jobbole' allowed_domains = ["blog.jobbole.com"] redis_key = 'Jobbole:start_urls'
启动scrapy_redis之前需要启动好redis。
在启动scrapy_redis之后,scrapy工程是停滞的,需要在redis中加入start_url
#lpush Jobbole:start_urls http://blog.jobbole.com/all-posts/
其他一切与scrapy_spider一致。
- scrapy_redis
- scrapy_redis种子优化
- scrapy_redis只能使用redis的db0?
- 爬虫知识点(scrapy_redis分布式爬虫系统)
- [置顶]使用scrapy_redis,自动实时增量更新东方头条网全站新闻
- scrapy_redis去重优化(已有7亿条数据),附Demo福利
- c 查漏补缺1
- 排序算法(五)-快速排序
- 第6章 并查集
- java动态代理-生成代理类
- 面向对象(上)
- scrapy_redis
- easyui的linkbutton 的iconCls属性
- 字符串匹配
- 安装及配置Maven环境变量
- Solr ClassNotFoundException
- jenkins升级注意事项
- MacOS 开发
- Spark开发-WordCount详细讲解Java版本
- angular01-入门