mapreduce的shuffle,partition,combine
来源:互联网 发布:手机屏幕测试软件 编辑:程序博客网 时间:2024/05/16 00:28
shuffle:
是描述着数据从map端传输到reduce端的过程,而且我们知道的是Hadoop的集群环境中,大部分map task和reduce
task是在不同的node上执行,主要的开销是网络开销和磁盘IO开销,因此shuffle的主要作用相当于是1.完整的从map task端传输到reduce task端。
2.跨节点传输数据时,尽可能减少对带宽的消耗.(注意是reduce执行的时候去拉取map端的结果)
3.减少磁盘IO开销对task的影响。
shuffle的详细:http://blog.csdn.net/silentwolfyh/article/details/50890926
Partition:
Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求:
1)均衡负载,尽量的将工作均匀的分配给不同的reduce。
2)效率,分配速度一定要快。
重定向mapper的输出,根据key来决定mapper应该讲k,v对输出给谁,默认采用的hash
key来实现,也可以根据自己的需要来实现。
Partition的详细: http://blog.csdn.net/silentwolfyh/article/details/50894860
combiner:
相当于本地的reduce,在分发mapper的结果之前做一下本地的reduce,比如说wordcount程序,单词“a”出现了500次,存储并洗牌一次(“a”,500)键值对比许多次(“a”,1)要高效。
combiner的详细:http://blog.csdn.net/silentwolfyh/article/details/50894825
http://blog.csdn.net/u013850277/article/details/61960094
0 0
- mapreduce的shuffle,partition,combine
- mapreduce的shuffle,partition,combine
- mapreduce的shuffle,partition,combine
- mapreduce的shuffle,partition,combine
- MapReduce中combine、partition、shuffle的作用是什么
- MapReduce中combine、partition、shuffle的作用是什么
- Hadoop中MapReduce中combine、partition、shuffle的作用是什么?在程序中怎么运用?
- mapreduce里的shuffle 里的 sort merge 和combine
- 关于mapreduce 的 shuffle ,partition,combiner
- hadoop中的shuffle过程(combine->partition)
- 在hadoop中,map->combine->partition->shuffle->reduce,五个步骤的作用
- MapReduce中的combiner、partition和shuffle各自的作用是什么?
- 【MR】MapReduce中shuffle、partition、combiner的作用与关系
- MapReduce中的Shuffle和Sort分析 combine分析
- 实战录 | Hadoop Mapreduce shuffle之Combine探讨
- mapreduce的shuffle详解
- MapReduce的Shuffle阶段
- MapReduce的shuffle过程
- 单例模式性能问题解决方案
- Java静态代理和动态代理
- 学习计划
- 解决方案 Eclipse Java Error opening registry key
- 【NOI2005】维护数列(BSOI2246)
- mapreduce的shuffle,partition,combine
- 责任链模式(数据结构)
- HDU-5795 A Simple Nim(SG函数打表找规律)
- TCP/IP 相关帧头格式图
- Factorization Machines 学习笔记(四)学习算法
- JQuery find筛选方法
- Iteration和sprint的区别
- IntelJ IDEA
- 翻转单词顺序VS左旋转字符串----->“字符串翻转”