分布式网络爬虫框架Cola介绍
来源:互联网 发布:eplan软件大小 编辑:程序博客网 时间:2024/06/11 21:21
分布式网络爬虫框架Cola介绍
这个分布式网络爬虫框架设计思想来源于: https://github.com/chineking/cola/wiki
下面给出框架设计图:
说明:
在Cola集群里,当一个任务被提交的时候,Cola Master和Worker会分别启动JobMaster和JobWorker。对于一个Cola Job,当JobWorker启动完成后,会通知JobMaster,JobMaster等待所有JobWorker启动完成后开始运行Job。在一个Cola Job启动时,会启动一个消息队列(Message Queue,主要操作是put和get,worker抓取到的对象会被put到队列中,而要抓取新的对象时,只要从队列中取即可),每个JobWorker上都存在消息队列节点,同时会有一个去重模块(bloom filter实现)。
代码位置: https://github.com/chineking/cola/wiki
0 0
- 分布式网络爬虫框架Cola介绍
- 分布式爬虫基本框架
- 分布式网络爬虫浅见
- 分布式网络爬虫功能模块组成
- Scrapy爬虫框架介绍
- java 网络爬虫框架
- 网络爬虫框架-Scrapy
- 网络爬虫框架
- python3网络爬虫框架
- 网络爬虫技术介绍
- 网络爬虫的介绍
- 网络爬虫 介绍
- 网络爬虫介绍
- 网络爬虫介绍
- 分布式测试框架介绍
- 分布式框架-Dubbox介绍
- 网络爬虫应该怎样选择爬虫框架
- Python3网络爬虫:初识Scrapy爬虫框架
- Docker Image操作
- android studio 1.0 gradle报错
- jquery1.10.*以上的版本中用jquery判断radio和checkbox是否被选中
- 类与对象()
- 监测uitableview 向上滑动和向下滑动的事件
- 分布式网络爬虫框架Cola介绍
- NGUI 3.5.8教程(二)Label 标签 (Hello world)、多行文本
- mmu介绍
- 一个来自Afinal断点下载BUG的解决方案
- 为什么memcached会堵车
- js中比较好的继承方式
- 光耦
- 常见的MySQL命令大全(转)
- 类与泛型