程序博客网 > oyz什么意思网络用语

海量数据处理（1）

来源：互联网发布：oyz什么意思网络用语编辑：程序博客网时间：2024/06/05 13:04

海量数据处理

题目1

给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，找出a、b文件共同的url？

解决方案：

每个文件的大小为（5000000000×64÷1024÷1024÷1024）G≈298G，远远超出内存限制，所以不可能将其完全加载到内存中处理，采用分而治之的思想。

1. 处理文件a

遍历文件a，对每个url求取hash(url)%1000，然后根据所取得的值将url分别存储到1000个小文件中（文件名记为a₁,a₂,…,a₁₀₀₀）。这样每个小文件的大约为300M。

2. 处理文件b

遍历文件b，采取和a相同的方式将url分别存储到1000个小文件中（文件名记为b₁,b₂,…,b₁₀₀₀）。

这样处理后，所有可能相同的url都存在于对应的小文件中（a₁ vs b₁,a₂vs b₂,…,a₁₀₀₀ vs b₁₀₀₀），不对应的小文件不可能有相同的url。

接下来我们只要求出1000对小文件中相同的url即可。

3. 小文件处理

求每对小文件中相同的url时，可以把该小文件（a_i）的url存储到hash_set中。然后遍历对应小文件（b_i）的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。

oyz什么意思网络用语

oyz什么意思网络用语

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子车管所查不到居住证信息怎么办高中毕业两年了想考大学怎么办我买的二手货车营运证是假的怎么办移民到欧洲国家想去日本怎么办签证签证要写工作单位如果没有怎么办办护照时的身份证过期了怎么办有摩托车驾照想考小车驾照怎么办分管副局长能直接安排工作吗怎么办我在北京打工老婆没地方住怎么办我的车扣了32分怎么办济南万科地产投诉电话不管用怎么办买手机被商家欺骗买到合约机怎么办向消协投诉有用吗?我该怎么办? 我住南开区想办公租房不知怎么办租房提前退房房东不退押金怎么办体检时候眼睛有一只是弱视怎么办? b本被扣分9分了怎么办工作调动后在新单位退休医保怎么办社保卡和医保卡丢了怎么办医保卡挂失后又找到了怎么办医保卡丢失忘了卡号怎么办? 医保卡丢了怎么办又记不住卡号住院发票丢了医保不给报销怎么办住院期间被医院丢失了医保卡怎么办大学时的医保卡毕业后丢了怎么办用身份证注册的移动卡丢了怎么办用别人身份证办的卡丢了怎么办济南医保卡挂失后又找到了怎么办单位没有给办理医保卡的老人怎么办单位办的医保卡丢了怎么办北京退休人员医保卡丢了怎么办普通发票联丢了医保给报销怎么办手机买好高铁票身份证丢了怎么办买了高铁票身份证丢了怎么办小米手机手电简打开不亮了怎么办华为p7手机显示屏不亮了怎么办红米手机3x屏幕不灵怎么办? 乐视1s手机字库坏了怎么办三星c7手机左右两按钮不亮怎么办手机摔了一屏碎了下黑屏了怎么办三星手机摔了一下黑屏了怎么办