分布式爬虫

来源:互联网 发布:lufylegend.js 编辑:程序博客网 时间:2024/05/18 02:43

分布式网络爬虫整体分析:

分布式网络爬虫的整体设计重点应该在于爬虫如何进行通信。目前分布式网络爬虫按通信方式不同分布式网路爬虫可以分为自治模式、主从模式与混合模式三种。
主从模式是指由一台主机作为控制节点负责所有运行网络爬虫你的主机进行管理,爬虫只需要从控制节点那里接收任务,并把新生成的任务交给控制节点就可以了,在这个过程中不必与其他爬虫通信,这种方式实现简单利于管理。而控制节点则需要与所有爬虫进行通信,它需要一个地址列表来保存系统中的所有爬虫的信息。当系统中的爬虫数量发生变化时,协调者需要更新地址列表里的数据,这一过程对于系统中的爬虫是透明的。但是随着爬虫网页数量的增加。控制节点会成为整个系统的瓶颈而导致整个分布式网络爬虫系统性能下降。主从模式的整体结构图:
主从模式