相同URL
来源:互联网 发布:蜂窝移动数据已关闭 编辑:程序博客网 时间:2024/05/16 05:27
问题:
给定a、b两个文件,各存放50亿个URL,每个URL存放64字节,内存限制是4GB,找出a、b文件共同的URL?
解答:
50亿=5G,即每个文件5G*64=320G,远远超过内存大小,故“分而治之”、“哈希分块”。
(1)遍历a文件,对每个URL进行哈希,Hash(URL)%1024,存至1024份小文件,每份文件占用内存320M,完全可以。对b文件进行同样的操作。
(2)由于a、b文件进行同样的操作,故相同的URL一定哈希至相同编号的小文件,如(a0,b0),(a1,b1),…,所以对每一对文件进行操作,将a小文件的内容存进HashSet,遍历b小文件,判断b小文件的URL是否在a小文件,若在,即为相同URL。
阅读全文
0 0
- 相同URL
- ajax相同url执行多次
- ImageLoader相同url加载问题
- spring mvc中请求方式相同url相同参数不相同的两个url方法分开
- AJAX连续提交相同URL注意事项
- 相同url的ajax请求_IE缓存
- IOS之相同URL不同图片识别
- SDWebimage 相同url缓存图片对比问题
- Ajax多次请求同一个URL返回相同值问题
- Ajax相同url的请求_IE缓存问…
- 处理SDWebImage相同url,图片不同的情况
- scrapy 爬虫过滤相同的url,Filtered duplicate request,dont_filter
- 一个保存有10000个URL的文本文件,删除其中相同的URL。
- Django URLconfs 中通过包含其他URLconfs 来管理部分url相同的url
- 检查两个url地址的一级域名是否相同 http only
- 中心点通过url来动态调用 周边点不同位置但功能相同的WebService
- Ext的ajax同步交互方式提交时相同url只执行一次的问题解决
- 验证URL是可用的 相同的地址先验证一次 做HashMap缓存
- Educational Codeforces Round 33 (Rated for Div. 2) F
- 数学期望与方差E(X) D(X)
- mysql报错:ERROR: Error in Log_event::read_log_event():"Sanity check
- ubuntu nginx php网站环境搭建
- leetcode小岛问题2道 (DFS的递归法和迭代法应用)
- 相同URL
- 11.24-11.25 省选训练总结1 线段树相关/CDQ/整体二分
- MPAndroidChart绘制折线图
- 卷积神经网络CNN(反向传播具体算法)
- 经典词句
- 【我的Java笔记】IO流_输出流中给文本文件追加数据的方法
- Java学习-包含私聊的多人聊天室
- poll() 的用法
- jsp从session中取空值的问题