程序博客网 > 童装网络营销策划书

海量数据处理面试题(1) 找出两文件种包含的相同的url

来源：互联网发布：童装网络营销策划书编辑：程序博客网时间：2024/06/05 22:35

问题：给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？

分析：50亿个url，每个url64字节，就是320G，显然是无法一次读入内存的。因此这里需要采用分治法。

方案：分治法，分支方法：哈希

步骤：

如图所示：

海量数据处理面试题（1）

1 将AB两个文件，用相同的哈希函数，分解为1000个独立哈希值相同的小文件，这里哈希函数的设计是个重点。

2 哈希值不同的url必然不在序号对应的文件中，因此只要在序号对应的两个文件中进行互相匹配即可。

3 比较每对小文件时，可以使用hash_set。

把url换成数字的话，哈希函数更容易构造。

阅读全文

0 0

童装网络营销策划书

童装网络营销策划书

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子六福对戒金六福六福人家价格六福珠宝今日金价六福珠宝金价金六福酒价格表六福珠宝和周大福哪个好金六福黄金价格表六福珠宝和周六福有什么区别金六福黄金价格六福珠宝怎么样六福和周大福哪个好六福今日金价金六福珠宝怎么样六福黄金价格金六福珠宝排名第几六福珠宝钻戒六福珠宝今日金价9999 金六福珠宝为什么便宜金六福和周六福哪个好六福珠宝排名第几金六福酒图片六福珠宝是香港品牌吗六福珠宝情侣对戒 5星金六福多少钱一瓶金六福金典5价格38度金六福酒的价格金六福钻戒价格图片六福喜事国语版金六福回收黄金吗六福珠宝钻石戒指六福珠宝黄金六福珠宝黄金首饰六福珠宝婚戒六福珠宝铂金项链六福珠宝钻石六福珠宝黄金价格今日六福珠宝金价六福珠宝铂金戒指六福珠宝首饰今日六福金价六福金价格今天多少一克