基于Redis分布式爬虫
来源:互联网 发布:网络监控监控的是什么 编辑:程序博客网 时间:2024/06/11 13:44
分布式爬虫
1) 在爬虫的settings.py中添加下面两句话
# Enables scheduling storing requests queue in redis.
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# Ensure all spiders share same duplicates filter through redis.
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
2) 在item_pipeline中添加下面一句话
'scrapy_redis.pipelines.RedisPipeline': 300
3) 在settings.py中添加下面一句话,用于配置redis
REDIS_URL = 'redis://root:@192.168.9.211:6379'(自己的IP地址,Redis默认端口是6379)
4) 修改爬虫的类文件
from scrapy_redis.spiders import RedisSpider
类需要继承自RedisSpider
把start_urls给注释掉
redis_key = 'jobbole:start_urls'
分布式用到的代码应该是同一套代码
1) 先把项目配置为分布式
2) 把项目拷贝到多台服务器中
3) 把所有爬虫项目都跑起来
4) 在redis中lpush你的网址即可
5) 效果:所有爬虫都开始运行,并且数据还都不一样
创建数据库用户(用户权限为 % 让从服务器能访问该数据库,注意:sql语句 % 两端需要加 引号):
grant all privileges on *.* to myroot@’%’ identified by '123456';
设置redis主从
让从服务器连接:
命令:lpush redis_key的值 网址
- 基于Redis分布式爬虫
- 基于Python,scrapy,redis的分布式爬虫实现框架
- 基于Redis的三种分布式爬虫策略
- 基于scrapy和redis的分布式爬虫环境搭建
- 基于Python+scrapy+redis的分布式爬虫实现框架
- Scrapy-redis分布式爬虫
- 利用redis的分布式爬虫
- 爬虫-09-scrapy-redis分布式爬虫
- 基于java的分布式爬虫
- 基于java的分布式爬虫
- 基于redis分布式缓存实现
- 基于redis分布式缓存实现
- 基于redis分布式缓存实现
- 基于redis分布式缓存实现
- 基于Redis实现分布式锁
- 基于Redis实现分布式Session
- 基于Redis实现分布式锁
- 分布式锁实现(基于redis)
- k-近邻算法(三)
- 我来谈谈微信小程序
- (学习java)水果超市管理系统
- 如何看待马云又唱歌又拍电影
- mysql之连接分类
- 基于Redis分布式爬虫
- JavaEE之mybatis代理开发模式
- ubuntu16.04配置apache2的目录
- Java NIO中的阻塞与非阻塞IO
- 数据库读写分离与垂直分库水平分表
- 多项式的值
- Java 10进制转52进制
- 欢迎使用CSDN-markdown编辑器
- 2017.11.3 总结