hadoop1 的suffle过程
来源:互联网 发布:java客户端之间通信 编辑:程序博客网 时间:2024/05/16 09:27
map端的suffle过程
1.map task向环形内存缓冲区中写数据
2.当环形内存缓冲区中的数据达到阀值时,开始将环形内存缓冲区中的数据spill到文件中
3.每次调用sortAndSpill方法都会产生一个输出文件
4.在spill的过程中:
首先对map的输出数据按照key进行排序
然后将排序后的数据按照分区顺序写到输出文件中
5.map task结束后会产生大量的spill文件
6.执行merge操作,将map生成的众多的spill文件中的数据按照分区重新组织.
主要做法是针对指定分区,从各个spill文件中拿出属于一个分区的所有数据,然后将它们合并在一起,写入一个已分区且已排序的Map输出文件中.
reduce端的suffle过程
主要包括(复制map输出,排序合并和reduce处理)
1.将map的输出复制到reduce所在的磁盘(不会等到所有的map任务结束)
2.将从各个map tasktracker上复制的map输出文件进行合并,并维持数据原来的顺序
3.对合并的文件进行reduce处理
1.map task向环形内存缓冲区中写数据
2.当环形内存缓冲区中的数据达到阀值时,开始将环形内存缓冲区中的数据spill到文件中
3.每次调用sortAndSpill方法都会产生一个输出文件
4.在spill的过程中:
首先对map的输出数据按照key进行排序
然后将排序后的数据按照分区顺序写到输出文件中
5.map task结束后会产生大量的spill文件
6.执行merge操作,将map生成的众多的spill文件中的数据按照分区重新组织.
主要做法是针对指定分区,从各个spill文件中拿出属于一个分区的所有数据,然后将它们合并在一起,写入一个已分区且已排序的Map输出文件中.
reduce端的suffle过程
主要包括(复制map输出,排序合并和reduce处理)
1.将map的输出复制到reduce所在的磁盘(不会等到所有的map任务结束)
2.将从各个map tasktracker上复制的map输出文件进行合并,并维持数据原来的顺序
3.对合并的文件进行reduce处理
0 0
- hadoop1 的suffle过程
- Spark Shuffle模块——Suffle Read过程分析
- hadoop1之map到reduce中间的shuffle过程
- Hadoop1中Task运行过程
- hadoop1.2.1的安装
- Hadoop1.x: 详解Shuffle过程---map和reduce数据交互的关键
- hadoop1
- hadoop1
- hadoop1
- ubuntu下hadoop1.0.4配置过程
- 详解hadoop1.0 MapReduce job 提交过程
- hadoop1.X作业提交过程详细讲解
- Hadoop1.0的安装总结
- Hadoop1.0的集群安装
- hadoop1和hadoop2的比较
- Hadoop2和Hadoop1的区别
- Hadoop1和Hadoop2的区别
- ubuntu 下 Hadoop1.0.4 安装过程 (单机伪分布模式)
- EqualsBuilder和HashCodeBuilder
- R读.csv,.txt,xlsx文件
- 仿QQ好友列表
- php上传文件名中包含中文字符的附件
- Linux下搭建Cortex-M嵌入式开发环境
- hadoop1 的suffle过程
- Caffe
- Android 自定义类库打包jar
- Oracle备份常用命令
- Git配置和第一次推送项目
- 线性表学习归纳总结三:线性表链式存储 不带头结点
- 设置点击ProgressDialog外的区域对话框不消失
- java开发中的23种设计模式(转)
- WatchKit apps must have a deployment target equal to iOS 8.2 (was 8.3)?