MapReduce(十二): Map和Reduce阶段数据合并的处理
来源:互联网 发布:西门子200plc编程实例 编辑:程序博客网 时间:2024/05/29 07:37
在Map阶段处理数据时,由于内存的限制,会把数据先写到文件中,最终会根据数据的多少生成多个文件,每个文件中会按照Reduce的个数分区,每个分区的数据都按照key值顺序排放,Map结束后将多个文件合并为同一个文件,合并时会将多个文件相同分区的数据合并在一起并且多个分区的数据重新排序按照key顺序排放。在Reduce阶段则从多个Map中获取属于该Reduce的分区数据,然后会根据数据的多少写到文件和内存中,每个Map的数据为一个文件或一段内存,最后对内存和文件的数据进行合并计算输出最后的结果,合并的方式与Map合并方式一致。因此在Map和Reduce阶段都存在把多个文件或多段内存中的数据合并计算输出一个文件。
如上图所示Map阶段需要对多个文件的数据合并,在Reduce阶段Reduce Task 1向各个Map获取分区1的数据,Reduce Task 2向各个Map获取分区2的数据,Reduce Task 3向各个Map获取分区3的数据,图中为了简便,Reduce Task3向map获取数据的指向没有标识。获取完毕后根据数据的大小情况放到内存或文件中,然后对多个Map的分区数据进行合并,然后reduce计算后输出最终结果。
合并数据前首先把内存的数据,或者文件的数据用Segment封装对数据的读取,它提供了两个构造函数,分别对文件和内存的读入方式构造Segment实例,构造对文件的读取:
构造对的内存的读取:
其中的Reader的实例是IFile.InMermoryReader.java,以byte数组构造实例:
然后从数组中读取数据:
在构造完了所有Segment后,把Segment放入到MergeQueue中,MergeQueue继承了PriorityQueue抽象类,在把Segment放到MergeQueue中时,会对放入的segment按照第一个Key的大小排序:
MergeQueue也集成了RawKeyValueInterator接口,负责对存入的Segment读取Key,Value数据,在每读取完一个Key后,就立即对所拥有的Segment再进行按照当前第一个Key的大小排序,因此从MergeQueue中读取的Key,Value永远按照Key的顺序从多个Segment中读取:
为了一次归并的文件个数不是太多,因此在MergeQueue合并时,会判断文件个数是否超过某个阈值,如果超过则先把多个文件合并成一个文件,使总的文件个数在这个阈值下:
如果需要合并文件个数小于某个阈值,则返回MergeQueue自身,MergeQueue提供了对所有Segment按照key顺序访问:
- MapReduce(十二): Map和Reduce阶段数据合并的处理
- mapreduce 的map shuffle reduce 阶段解析
- MapReduce作业Map阶段和Reduce阶段重要过程详述(Partitioner、Combiner、Shuffle三个阶段的解析)
- MapReduce 编程 系列十二 Reduce阶段内部细节和调节参数
- MapReduce阶段map的setup() 和cleanup()
- 一脸懵逼学习MapReduce的原理和编程(Map局部处理,Reduce汇总)
- map-reduce阶段中的数据倾斜问题
- MapReduce优化----map和reduce的槽数的设定
- mapreduce中map和reduce的最大并发数量设置
- MapReduce中Map Task和Reduce Task的数量
- 自己设置mapreduce程序的map个数和reduce个数
- mapreduce只用map来处理数据小案例,减少reduce一端数据倾斜
- InputSplit&&处理阶段mapReduce【partioner,combiner,shuffle】->reduce
- MapReduce中map与reduce的个数
- Julia: map,reduce,mapreduce
- Hadoop的MapReduce框架中map和reduce的各自任务(能力工场--整理)
- hadoop map reduce 阶段笔记
- hadoop map reduce 阶段笔记
- Emacs for PHP
- NGUI之Scroll Bar
- 在W7部署WebService,报错“C:\Windows\Microsoft.NET\Framework\v2.0.50727\Temporary ASP.NET Files”的写访问权限”
- juce基本模板
- 按位与、或、异或等运算方法
- MapReduce(十二): Map和Reduce阶段数据合并的处理
- 字符串循环右移
- 毕业后就职第二月 碎碎念(一)
- C# 查找EXCEL的两种方法比较
- linux 建立设备文件
- java通过jni调用c库
- Search for a Range
- c++ primer(第五版)笔记 第九章 顺序容器(2)
- LDA-math-MCMC 和 Gibbs Sampling