MapReduce端的二次排序以及对移动计算而不是移动数据的理解
来源:互联网 发布:安卓手游 知乎 编辑:程序博客网 时间:2024/05/18 20:13
,
1.其实MapReduce的二次排序是我们定义的sort排序会执行两遍,第一遍是在map端执行,针对一个map任务的(当partition之后的将数据写入到内存缓冲区的时候,达到内存缓冲区的80%的时候就会spill到disk,此时disk是作为硬盘缓存的,所以我们的数据在硬盘上可以sort排序,而且在map执行完任务之后数据就不见了),那么当程序执行到reduce之后,reduce端shuffle首先会将各个map端的数据都抓取到reduce端的内存缓冲区中,等达到内存缓冲区的80%的时候就会溢出到硬盘,硬盘作为内存缓冲区,在这里会第二次执行我们写的sort排序,也就是二次排序!这就是有名的二次排序!
2.不要再认为sort+group是二次排序了,group的作用就是一次性将同一组数据交给一个reduce任务处理!
3.这里需要强调的是:map任务不是随随便便地分配给某个TaskTracker的,这里有个概念叫:数据本地化(Data-Local)。意思是:将map任务分配给含有该map处理的数据块的TaskTracker上,同时将程序JAR包复制到该TaskTracker上来运行,这叫“运算移动,数据不移动”。而分配reduce任务时并不考虑数据本地!
上面也就是说,移动计算而不是移动数据实际上是针对shuffle之前的map端而言的,而不是针对reduce端而言的!
0 0
- MapReduce端的二次排序以及对移动计算而不是移动数据的理解
- mapreduce的二次排序
- MapReduce的二次排序
- MapReduce 的二次排序
- Mapreduce的排序、全排序以及二次排序
- 对Hadoop二次排序的理解
- 对Hadoop二次排序的理解
- 对Hadoop二次排序的理解
- 大数据下 移动计算 和 移动数据的一点理解
- mapreduce的二次排序 SecondarySort
- mapreduce的二次排序 SecondarySort
- mapreduce的二次排序 SecondarySort
- mapreduce的二次排序 SecondarySort
- MapReduce的二次排序 SecondarySort
- mapreduce的二次排序 SecondarySort
- mapreduce的二次排序 SecondarySort
- mapreduce的二次排序 SecondarySort
- 基于MapReduce的二次排序
- tcl expect 自动化登录 scp
- 第14周项目1(2)-验证分块查找算法
- final类型的map或者arraylist修改数据
- iOS实习生面试后的感慨
- R语言:读取数据
- MapReduce端的二次排序以及对移动计算而不是移动数据的理解
- urllib2使用总结
- 应用方面的编程(5)
- hdoj 5916 Harmonic Value Description(数学, 构造)
- TCP/IP协议基本知识
- 一片博文熟悉线程的生命周期
- 线程编程(3)
- IOS开发笔记2-C语言基础复习
- Linux_linux中LT和ET的区别