hadoop mapreduce详细过程分析
来源:互联网 发布:淘宝网丝巾韩杰 编辑:程序博客网 时间:2024/06/05 17:21
hadoop mapreduce详细过程分析
hadoop在工业界目前已经是公认的大数据通用存储和分析平台。hadoop提供了一个可靠的共享存储和分析系统。hadoop最核心的两大部分hdfs和mapreduce。hdfs实现数据的存储,mapreduce实现数据的分析和处理。
现在我来聊一聊mapreduce的基本过程。面对大量的数据,mapreduce采用如下的步骤来对数据进行分析和处理。
1、map
2、combiner
3、shuffle
4、reduce
下面来一次说明整个mapreduce的过程。
1、map。map的主要作用是把待处理的数据整理成(key,value)的形式。
2、combiner。conbiner过程是可选的,数据优化mapreduce的一个步骤。它的主要功能是在shuffle前先对map产生的数据进行处理,为后面的shuffle过程节省时间。
3、shuffle。shuffle过程又称为“洗牌”,意思是根据分析逻辑对(key,value)进行处理。得到(key,[value1,value2...])这样的数据结构,作为输入,传递给reduce。
4、reduce。reduce的主要作用是把shuffle过程输出的数据做最后的处理,然后输出结果。
下面用一个经典的例子说明一下上述过程:
wordcount程序,计算单词的总数。
输入:aa,bb,cc,dd,aa,bb,aa,dd,aa,dd
输出:(aa,4,) (bb,2) (cc,1) (dd,3)
1、map
(aa,1) (bb,1) (cc,1)(dd,1) (aa,1) (bb,1) (aa,1) (dd,1) (aa,1) (dd,1)
2、combiner(假设,前四个在同一台节点上,中间的三个在一台节点上,最后的三个在一台节点上)
节点1:(aa,1) (bb,1) (cc,1) (dd,1)
节点2:(aa,2) (bb,1)
节点3:(dd,2) (aa,1)
3、shuffle
(aa,[1,2,1]) (bb,[1,1]) (cc,[1]) (dd,[1,1,2])
4、reduce求出每个word的总数
(aa,4,) (bb,2) (cc,1) (dd,3)
0 0
- hadoop mapreduce详细过程分析
- Hadoop之MapReduce WordCount详细分析
- Hadoop 调试第一个mapreduce程序过程详细记录总结
- Hadoop 调试第一个MapReduce程序过程详细记录总结
- mapreduce任务执行过程详细分析--源码级分析
- Hadoop MapReduce 过程概述
- Hadoop MapReduce 过程概述
- Hadoop -- MapReduce过程
- hadoop的mapreduce过程
- Hadoop-MapReduce过程
- Hadoop MapReduce工作过程
- Hadoop源码分析23:MapReduce的Job提交过程
- Hadoop MapReduce作业提交与初始化过程分析
- Hadoop-2.4.1源码分析--MapReduce作业切片(Split)过程
- MapReduce详细处理过程
- MapReduce的详细过程
- MapReduce详细过程
- MapReduce的详细过程
- java编程思想-内存空间分配(常量池)
- C++提高输入输出 效率
- 资金存管需要的材料
- leetcode题解-209. Minimum Size Subarray Sum
- 最小生成树之算法记录【prime算法+Kruskal算法】【模板】
- hadoop mapreduce详细过程分析
- 多线程的一次实践
- 制作板子的一些总结心得
- 1005.继续(3n+1)猜想(c语言)
- Spring学习笔记(三)
- 1006: IP判断
- 触控事件MotionEvent
- android音视频点/直播模块开发
- 自定义View圆环