【大数据工程师之路】Hadoop——MapReduce概述
来源:互联网 发布:猫眼网络大电影数据 编辑:程序博客网 时间:2024/05/17 22:35
一、概述。
MapReduce是一种可用于数据处理的编程模型。Hadoop可以运行由各种语言编写的MapReuce程序。MapReduce分为Map部分和Reduce部分。
二、MapReduce的机制
MapReduce分为几大过程input、Mapper、shufle、reduce、output
1、input阶段是指将原始文件拷贝到HDFS中。2、通过Mapper来处理成目标所需要的key-value形式然后进行排序,Map相当于把源数据进行整理成目标数据所需要的数据材料。把多余的数据去除。Map主要功能还有是对任务进行分解,把复杂、大量的任务分为若干个小任务并且分配到各个节点里面进行并行计算。3、shufile对数据进行一个预处理4、reduce操作是对多个Map的输出进行,按照需要进行合并、排序。对输入的key、value进行处理然后输出想要的数据。5、output过程就是将reduce操作后的数据存放到HDFS中。
如图:
三、总结
MapReduce的作用就相当于ETL工具将原数据转换成目标数据。从原数据取出所需要的数据然后进行加工后把数据送到目标库作为目标数据。
0 0
- 【大数据工程师之路】Hadoop——MapReduce概述
- 【大数据工程师之路】Hadoop——概述
- 大数据之hadoop[MapReduce]学习 笔记
- Hadoop大数据平台入门——HDFS和MapReduce
- hadoop大数据概述
- 大数据工程师之路
- (大数据之MapReduce) Hadoop作业提交分析(四)
- 大数据学习记录(day3)-Hadoop之MapReduce原理
- 【备忘】大数据开发之hadoop工程师成长之路零基础到精通下载
- Hadoop之——HBASE结合MapReduce批量导入数据
- Hadoop之MapReduce—Wordcount
- Hadoop大数据系列---概述
- 大数据学习2——大数据处理架构Hadoop概述
- 一步两步,学习大数据(四)——IDEA 搭建hadoop mapreduce程序
- 大数据时代之hadoop(五):hadoop 分布式计算框架(MapReduce)
- 大数据时代之hadoop(五):hadoop 分布式计算框架(MapReduce)
- Hadoop-MapReduce-TeraSort-大数据排序例子
- Hadoop MapReduce做大数据排序
- [图论]连接岛屿问题(MST.Kruskal算法 并查集)
- UILabel用法大全
- Android-项目开发基础—JNI与底层调用(十三)
- UITabBarController标签导航控制器的使用
- ZOJ 1203 Swordfish【最小生成树】
- 【大数据工程师之路】Hadoop——MapReduce概述
- Max Sum(HDU 1003)
- layoutSubviews何时调用的问题
- Android使用ImageLoader异步加载网络图片(一)读取单张图片
- STM32——GPIO输入模式下上拉和下拉的设置
- Ubuntu下安装Eclipse
- HashMap详解
- final方法和final类,内部类
- 分级基金的上折,下折