TeraSort and Join

来源:互联网 发布:倩女幽魂手游mac版 编辑:程序博客网 时间:2024/06/06 07:17

Hadoop MapReduce:
首先,是分布式,是并行,所以一定要想到怎么样并行,使效率最高!(比如说teralist 就是各自并行的排序,有一个并行的过程。)
TeraSort:
采样:分割,采每部分前面的,得到一个大概的分布。
找分割点。
各部分自己排序,但部分整体是相对任何其他部分有序。(reduce可以规定reduce输出也是有序的。)
Join:

方法一:
I:f1,f2,f3,f4
F:
f1
f2
f3
f4
冗余:(还没理解)
f1_(1~k):
f1_1;
f1_2;
f1_4;
方法二:二次排序
将I分割为几部分。一部分一部分或一起拿来:
I: f1 W,。。。
F:
f1 L
。。。

f1 L
f1 W
f2 L
f2 W

一对一对按顺序处理。

0 0
原创粉丝点击