Hadoop中的shuffle、partition和combiner
来源:互联网 发布:龙神契约神兵进阶数据 编辑:程序博客网 时间:2024/06/03 19:38
如大家所知道的,Hadoop的计算框架主要是两个过程分别是map和reduce,但是还有好几个过程跟性能调优有关。如:shuffle、partition和combiner。
shuffle:数据从map端传输到reduce端的过程。据说是可以期待奇迹发生的环节。
计算框架总体的过程如下:
map阶段:从磁盘读入数据 --> map函数 --> combine结果(非必需的过程)--> 结果写回磁盘。
map阶段中,当输出数据达到一定的值(阈值)时,会从内存写到磁盘;若小于阈值,则会缓存起来,可以减小磁盘IO开销。所以,可以通过设置适当的阈值大小,来优化性能。
reduce阶段:从map的输出中读入数据 --> sort(根据key值) --> reduce函数--> 结果到HDFS。
reduce阶段中,会从map端拉数据过来,可能会跨节点,应该尽量减少这种网络开销,使数据“本地化”。
partition:将map的结果发送到相应的reduce。
这就对partition有两个要求:
1)负载均衡。尽量将工作分配给不同的reduce。
2)效率。分配速度要快。
combiner:相当于本地化的reduce。
特点:map端的输出作为其输入;其输出作为reduce的输入。这就要求combiner要保持输入和输出类型的一致性,也就不适用求平均数、权益这样的运算。
阅读全文
0 0
- Hadoop中的shuffle、partition和combiner
- Hadoop中的shuffle、partition和combiner
- MapReduce中的combiner、partition和shuffle各自的作用是什么?
- hadoop细节——shuffle和combiner
- hadoop之shuffle------>soft和combiner
- hadoop中的shuffle过程(combine->partition)
- 关于mapreduce 的 shuffle ,partition,combiner
- Hadoop 高级程序设计(三)---自定义Partition和Combiner
- mapreduce中的partitioner,combiner,shuffle
- Hadoop 中的 Combiner 过程
- Hadoop 中的 Combiner 过程
- map/reduce之间的shuffle,partition,combiner过程的详解
- 【MR】MapReduce中shuffle、partition、combiner的作用与关系
- hadoop1中partition和combiner作用
- Hadoop : MapReduce中的Shuffle和Sort分析
- Hadoop : MapReduce中的Shuffle和Sort分析
- Hadoop : MapReduce中的Shuffle和Sort分析
- Hadoop : MapReduce中的Shuffle和Sort分析
- zend studio安装教程
- 位运算中的左移和右移的计算详解
- IOS编GPUImage库遇到的问题
- 下定决心,努力,奋斗!
- Unity实用小工具或脚本—加载外部图片的三种方式
- Hadoop中的shuffle、partition和combiner
- 基础——重中之重之JS中的数值
- Mac运行nltk.download()提示certificate verity failed
- 第一周、课时7:数据类型——boolean和数据类型的转换规律
- jmeter tcp取样器使用方法
- 织梦调用指定目录
- 开发手册
- 纯CSS实现SuckerFish二级(下拉)菜单
- bzoj1036 [ZJOI2008]树的统计(树链剖分)