MapReduce--Combiner

来源:互联网 发布:域名有哪些 编辑:程序博客网 时间:2024/06/06 06:40
MapReduce框架是使用Mapper将数据处理成一个<key,value>键值对,网络节点间进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。

1.性能瓶颈:
(1)Map与Reduce之间的网络带宽
(2)reduce上的负载均衡
2.目标:
combiner是为了避免map任务和reduce任务之间的数据传输而设置的,hadoop允许用户对map task的输出制定一个合并函数。即为了减少传输到reduce上的数据量。主要为了削减Mapper的输出从而减少网络带宽和reduce负载。
3.数据格式转换:

    map: (K1, V1) → list(K2,V2)     combine: (K2, list(V2)) → list(K3, V3)     reduce: (K3, list(V3)) → list(K4, V4)   

4)
combine的输入和reduce的完全一致,输出和map的完全一致。
4.注意说明
1)combiner和map的输出数据合并不是相同一个过程,map输出的数据合并是发生在spill之后,merger操作。
2)combiner是默认实现的,也需要在Configuration中显示设置才有作用。
3)combiner不一定使用所有mapreduce的job,必须满足结合律。

0 0
原创粉丝点击