hadoop学习从0开始-mapreduce
来源:互联网 发布:linux 查找字符串 编辑:程序博客网 时间:2024/06/04 22:24
Mapper过程详解:
1.首先根据输入进行分片,inputsplit,每个分片的大小是固定的,分片的大小跟数据库的大小是相同的,比如默认是64M,如果输入文件有两个,32M和72M,会有三个分片,不足的是一个,超过的72M会分为两个,一个是8M,另一个是64M。
2,第二阶段是根据规则,生成键值对,键是文本位置,值是文本内容。
3.调用mapper的map类,每一个键值对都会调用一次map类,每一个mapper都是一个进程。
4.然后根据键来对数据进行分区,同一个键值的数据放到同一个分区内。分区的数目就是reducer运行的数量。
5.第五阶段是对每个分区的数据进行排序。先按照键进行排序,键相同的按照相同键的数值进行排序。如果有第六阶段,进入第六阶段,如果没有,直接作为文件输出。
6.第六阶段是对键相同的进行规约,执行reduce过程,该阶段数据量会减少。然后输出成linux文件。
Reducer过程详解:
1.reducer获取多个mapper的输出,将其复制到本地。
2.将复制的数据进行合并,对合并的数据进行排序。
3.对相同键的调用一次reduce方法,这些数据会生成linux文件,然后写入hdfs
0 0
- hadoop学习从0开始-mapreduce
- 从wordcount 开始 mapreduce (C++\hadoop streaming模式)
- mapreduce-从wordcount开始
- hadoop源代码分析(一)从wordCount开始,剖析mapreduce的运行机制
- hadoop源代码分析(二)从wordCount开始,剖析mapreduce的运行机制
- Hadoop mapreduce原理学习
- hadoop mapreduce 学习(-)
- Hadoop学习笔记---MapReduce
- Hadoop学习笔记---MapReduce
- Hadoop学习笔记---MapReduce
- Hadoop mapreduce原理学习
- 学习Hadoop(1)mapreduce
- hadoop-mapreduce学习
- Hadoop,MapReduce学习步骤
- Hadoop mapreduce原理学习
- Hadoop MapReduce学习笔记
- 从0开始学习emacs
- 机器学习--从0开始
- Android N Behavior Changes 笔记
- 设计模式-8-外观模式
- C# winform中实现Datagridview中只允许输入数字类型
- IntelliJ IDEA 使用 Resin + JRebel 实现热部署
- angualrjs动态加载分析
- hadoop学习从0开始-mapreduce
- SystemServer的诞生过程
- 图片处理(缩放、压缩)
- 硬中断机制(powerpc版)
- centos升级gcc到4.8
- javascript 中 slice()、substr() 和subString()使用
- static关键字的作用
- java 判断一个数是否为“开心数”
- 【bzoj2563】【阿狸和桃子的游戏】【贪心】