分布式网络爬虫框架Cola介绍

来源:互联网 发布:eplan软件大小 编辑:程序博客网 时间:2024/06/11 21:21

分布式网络爬虫框架Cola介绍

       这个分布式网络爬虫框架设计思想来源于: https://github.com/chineking/cola/wiki
       下面给出框架设计图:
       

     说明:
      在Cola集群里,当一个任务被提交的时候,Cola Master和Worker会分别启动JobMaster和JobWorker。对于一个Cola Job,当JobWorker启动完成后,会通知JobMaster,JobMaster等待所有JobWorker启动完成后开始运行Job。在一个Cola Job启动时,会启动一个消息队列(Message Queue,主要操作是put和get,worker抓取到的对象会被put到队列中,而要抓取新的对象时,只要从队列中取即可),每个JobWorker上都存在消息队列节点,同时会有一个去重模块(bloom filter实现)。

       代码位置: https://github.com/chineking/cola/wiki
0 0
原创粉丝点击