再YY一下P2P的爬虫吧

来源:互联网 发布:nginx 常用第三方模块 编辑:程序博客网 时间:2024/04/29 11:44
上一篇文章我没详细YY一下p2p方式的爬虫,实在是因为限制太大,不是技术问题,商业运作不好操作;

这东西其实不应该说是爬虫,而应该是一个利用P2P来进行信息交换的一个东西

简单介绍一下:
1:每个需要做爬虫的公司,部署一个p2p的node,此node负责:接受外部推送过来的URL,并且将此URL 1)发给别的node,2)对此URL自行响应;
2:内容提供商每有一篇新文章,选择几个node push 此URL即可;

这样的好处是:
1:爬虫不要费劲去爬了,等着URL即可;
2:内容提供商不要防爬了,随便将url push给几个node即可;
3: 利用P2P快速传播,并且任何一个人的负载都很小;

另外:push可以增加类别,正文,时间,作者,摘要,tag等信息;

这是一个理想情况,退一步可以这样:
有3家做爬虫的小公司,各自做了个不伦不类的爬虫(反正就是没有专门做搜索引擎那种公司那么牛的爬虫),各自部署个node;各自将自己发现的URL发给另外两家,作为交换用;然后进行滚雪球;一旦滚大了,就很难停止了;

总之吧,我觉得这样的爬虫几乎是完美的,爬虫不费劲,内容提供商也不费劲;还能及时获得新URL;


操作起来嘛....冷启动非常难...各公司之间的信任和付出收获比,可能不同,导致....