再YY一下P2P的爬虫吧

来源：互联网发布：nginx 常用第三方模块编辑：程序博客网时间：2024/04/29 11:44

上一篇文章我没详细YY一下p2p方式的爬虫，实在是因为限制太大，不是技术问题，商业运作不好操作；

这东西其实不应该说是爬虫，而应该是一个利用P2P来进行信息交换的一个东西

简单介绍一下：

1：每个需要做爬虫的公司，部署一个p2p的node，此node负责：接受外部推送过来的URL，并且将此URL 1）发给别的node，2）对此URL自行响应；

2：内容提供商每有一篇新文章，选择几个node push 此URL即可；

这样的好处是：

1：爬虫不要费劲去爬了，等着URL即可；

2：内容提供商不要防爬了，随便将url push给几个node即可；

3：利用P2P快速传播，并且任何一个人的负载都很小；

另外：push可以增加类别，正文，时间，作者，摘要，tag等信息；

这是一个理想情况，退一步可以这样：

有3家做爬虫的小公司，各自做了个不伦不类的爬虫（反正就是没有专门做搜索引擎那种公司那么牛的爬虫），各自部署个node；各自将自己发现的URL发给另外两家，作为交换用；然后进行滚雪球；一旦滚大了，就很难停止了；

总之吧，我觉得这样的爬虫几乎是完美的，爬虫不费劲，内容提供商也不费劲；还能及时获得新URL；

操作起来嘛....冷启动非常难...各公司之间的信任和付出收获比，可能不同，导致....