Spark Shuffle过程理解

来源：互联网发布：中英文翻译软件编辑：程序博客网时间：2024/06/05 20:43

拿reduceByKey举例：

在spark中，数据通常不会为了一个特定的操作而分布在特定的分区partitions。在计算过程中，一个task只会在一个partition分区上执行，因此，为了把所有的数据组织到一个reduce task （例如reduceByKey）中执行，Spark需要执行一个all-to-all操作，该操作需要读取所有partition上key value的值，然后将他们聚合在一起，然后针对每个key进行计算。这个过程就叫做shuffle；

可以引起shuffle操作的算子有 repartition操作：repartition，coalesce；各种'ByKey操作（除过counting）：groupByKey，reduceByKey；及join操作：cogroup，join。

shuffle过程会在磁盘中产生大量的中间文件；自spark1.3起，这些中间文件会一直保存着，直到对应的RDD不再使用，或者被GC处理了。

0 0

Spark Shuffle过程理解
spark shuffle过程分析
spark shuffle过程分析
Spark Shuffle过程分析
Spark Shuffle Read过程
Spark shuffle write过程
Spark tungsten shuffle过程
【spark】Shuffle过程解析
spark Shuffle过程分析
Spark的Shuffle过程介绍
MapReduce Shuffle过程深入理解
从另一个角度观察Spark Shuffle过程
spark-2.0原理分析-shuffle过程
spark join shuffle 数据读取的过程
Spark 学习: spark 原理简述与 shuffle 过程介绍
spark shuffle mapreduce shuffle
spark shuffle
Spark-shuffle
ViewPager详解(三)——自动轮播图片小于三张的问题解决
j2EE连接数据库的增删改查操作
@weakify, @strongify 详解
shell之进程管理
.net特性
Spark Shuffle过程理解
C++异常处理(多态实现机制)
Mybatis多对多关联查询
Java初始化顺序
geant4 binContent相关应用一
单源最短路径-Bellman-Ford算法
android studio retrolambda配置及使用
iOS开发地图MKMapView小Demo
4 个月学习 iOS 开发的经验 (0基础到上架 AppStore)