海量数据处理
来源:互联网 发布:外星人学物理2淘宝网 编辑:程序博客网 时间:2024/05/17 04:16
转自:
5、 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?
方案1:可以估计每个文件安的大小为5G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。
遍历文件a,对每个url求取hash(url)%1000,然后根据所取得的值将url分别存储到1000个小文件(记为a0,a1,...,a999)中。这样每个小文件的大约为300M。
遍历文件b,采取和a相同的方式将url分别存储到1000小文件(记为b0,b1,...,b999)。这样处理后,所有可能相同的url都在对应的小文件(a0vsb0,a1vsb1,...,a999vsb999)中,不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。
求每对小文件中相同的url时,可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url,看其是否在刚才构建的hash_set中,如果是,那么就是共同的url,存到文件里面就可以了。
方案2:如果允许有一定的错误率,可以使用Bloom filter,4G内存大概可以表示340亿bit。将其中一个文件中的url使用Bloom filter映射为这340亿bit,然后挨个读取另外一个文件的url,检查是否与Bloom filter,如果是,那么该url应该是共同的url(注意会有一定的错误率)。
Bloom filter日后会在本BLOG内详细阐述。
6、在2.5亿个整数中找出不重复的整数,注,内存不足以容纳这2.5亿个整数。
方案1:采用2-Bitmap(每个数分配2bit,00表示不存在,01表示出现一次,10表示多次,11无意义)进行,共需内存2^32 * 2 bit=1 GB内存,还可以接受。然后扫描这2.5亿个整数,查看Bitmap中相对应位,如果是00变01,01变10,10保持不变。所描完事后,查看bitmap,把对应位是01的整数输出即可。
方案2:也可采用与第1题类似的方法,进行划分小文件的方法。然后在小文件中找出不重复的整数,并排序。然后再进行归并,注意去除重复的元素。
- 海量数据处理
- 海量数据处理
- 海量数据处理
- 海量数据处理
- 海量数据处理
- 海量数据处理
- 海量数据处理
- 海量数据处理
- 海量数据处理
- 海量数据处理
- 海量数据处理
- 海量数据处理
- 海量数据处理
- 海量数据处理
- 海量数据处理
- 海量数据处理
- 海量数据处理
- 海量数据处理
- unique的用法
- Structured Streaming Programming Guide官方文档再次阅读理解强化学习
- 信用评分
- Java中斐波那契数列相关面试题
- jsp与Javabean实现登录注册
- 海量数据处理
- JavaScript代码规范和性能整理
- 配置vim
- 集中化管理平台saltstack--原理及部署
- ZOJ2812
- Android逆向入门-静态分析技术
- 成员函数的形参 与 成员变量重名
- wxWidgets 自绘按钮(图片+文字)
- 区间dp