再YY一下P2P的爬虫吧
来源:互联网 发布:nginx 常用第三方模块 编辑:程序博客网 时间:2024/04/29 11:44
上一篇文章我没详细YY一下p2p方式的爬虫,实在是因为限制太大,不是技术问题,商业运作不好操作;
这东西其实不应该说是爬虫,而应该是一个利用P2P来进行信息交换的一个东西
简单介绍一下:
1:每个需要做爬虫的公司,部署一个p2p的node,此node负责:接受外部推送过来的URL,并且将此URL 1)发给别的node,2)对此URL自行响应;
2:内容提供商每有一篇新文章,选择几个node push 此URL即可;
这样的好处是:
1:爬虫不要费劲去爬了,等着URL即可;
2:内容提供商不要防爬了,随便将url push给几个node即可;
3: 利用P2P快速传播,并且任何一个人的负载都很小;
另外:push可以增加类别,正文,时间,作者,摘要,tag等信息;
这是一个理想情况,退一步可以这样:
有3家做爬虫的小公司,各自做了个不伦不类的爬虫(反正就是没有专门做搜索引擎那种公司那么牛的爬虫),各自部署个node;各自将自己发现的URL发给另外两家,作为交换用;然后进行滚雪球;一旦滚大了,就很难停止了;
总之吧,我觉得这样的爬虫几乎是完美的,爬虫不费劲,内容提供商也不费劲;还能及时获得新URL;
操作起来嘛....冷启动非常难...各公司之间的信任和付出收获比,可能不同,导致....
- 再YY一下P2P的爬虫吧
- 我YY的爬虫
- YY一下
- YY一下微信线下支付的场景
- 新的博客,小小yy一下
- YY一下VR游戏的潜入玩法
- P2P小爬虫范例
- 【设想】ALC应该借鉴一下P2P的思想
- YY一下,看到美女换裤子
- P2P中DHT网络爬虫
- yy的影评
- pushmail的YY
- YY-梦不完的你
- 小小的yy
- [bzoj2820] yy的gcd
- 草根文化的 yy
- acm-光棍的yy
- 光棍的yy
- linux下mysql备份脚本
- 深度探索Linux内核之自动分配UDP本地端口
- js 匿名函数
- 实现自定义的SWT事件和Listener
- 用Ant实现Java项目的自动构建和部署
- 再YY一下P2P的爬虫吧
- 深度探索Linux内核之离开一个多播组(最简单的情况)
- 坑爹的getHibernateTemplate() 为Null
- a different object with the same identifier value was already associated with the session
- AsyncTask的用法
- 技术支持课--项目实训--储蓄综合业务平台--完成--C语言编写
- java.lang.OutOfMemoryError: Java heap space错误及处理办法(收集整理、转)
- 求二叉树中节点的最大距离
- 我的emacs配置文件