使用scrapy-redis实现分布式爬虫
来源:互联网 发布:陕西网络创新研究院 编辑:程序博客网 时间:2024/06/06 19:49
一、准备工作
用来实现分布式爬虫的项目是:爬取知乎用户信息项目
注册了两个服务器:阿里云服务器和腾讯云服务器,使用的系统都是windows系统
二、scrapy-redis组件的使用
将知乎用户项目下载至本地,并使用git命令新建分支以方便对项目进行更改而不影响之前的项目:
git checkout -b distributed #新建分支git branch #切换分支
在项目settings.py中加入:
SCHEDULER = "scrapy_redis.schedler.Scheduler"DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"REDIS_URL = 'redis://120.xx.xx.xx:password@120.xx.xx.xx:6379' #我用的是阿里云服务器,此处包括服务器的用户名、密码、服务器公网IP、端口号ITEM_PIPELINES = { 'zhihuuser.pipelines.MongoPipeline': 300,# 'scrapy_redis.pipelines.RedisPipeline': 301,}
将更改后的项目上传至GitHub:
git add -Agit commit -m "add distributed"git push origin distributed
三、在本机及腾讯云上进行协同爬取
在本机上可以直接使用命令运行项目:
scrapy crawl zhihu
在腾讯云服务器上需将在分支distributed上的项目克隆下来,然后再运行:
git clone http://github.com/xxx/xxx -b distributed
这样子就可以让本机及腾讯云服务器对知乎用户项目进行协同爬取,各自爬取到的数据保存在各自的MongoDB数据库–
本机MongoDB数据库:
腾讯云MongoDB数据库:
阿里云redis数据库:
四、问题
在此过程中出现各种问题:
1、服务器无法进行远程连接
2、数据库无法进行远程连接
3、redis、mongodb数据库出现的报错
阅读全文
0 0
- 使用scrapy-redis实现分布式爬虫
- 使用scrapy,redis, mongodb实现的一个分布式网络爬虫
- Scrapy-redis分布式爬虫
- 使用scrapy-redis分布式爬虫 准备工作
- scrapy-redis实现爬虫分布式爬取分析与实现
- scrapy-redis实现爬虫分布式爬取分析与实现
- 基于Python,scrapy,redis的分布式爬虫实现框架
- scrapy与redis结合实现服务化的分布式爬虫
- 基于Python+scrapy+redis的分布式爬虫实现框架
- Python之Scrapy框架Redis实现分布式爬虫详解
- 使用scrapy-redis构建简单的分布式爬虫
- 爬虫-09-scrapy-redis分布式爬虫
- scrapy-redis分布式爬虫原理分析
- 从零搭建Redis-Scrapy分布式爬虫
- scrapy-redis分布式爬虫的搭建过程
- linux分布式scrapy爬虫之安装scrapy-redis
- 分布式爬虫:使用Scrapy抓取数据
- 分布式爬虫:使用Scrapy抓取数据
- Promise对象与异步操作结果
- vtk 一个actor多条线段
- TMMi认证的评估方法有多少种?
- IOS上传图片翻转处理重力并压缩大小
- 文件上传前端模板
- 使用scrapy-redis实现分布式爬虫
- RecyclerView条目不能填充的问题
- SQL中的CASE WHEN语句
- linux 部署javaweb环境
- burnside引理与Polya定理计数法
- sql算法总结
- MarkDown基本使用
- HashMap源码剖析
- 防雪崩利器Hystrix