Spark作业执行原理

来源：互联网发布：string数组倒序编辑：程序博客网时间：2024/06/05 14:12

Spark的作业和任务调度系统是其核心，它能够有效地进行调度根本原因是对任务划分DAG和容错，使得它对底层到顶层的各个模块之间的调用和处理显得游刃有余。相关术语介绍：

作业（Job）：RDD中由行动操作所生成的一个或多个调度阶段。
调度阶段（Stage）：每个作业会因为RDD之间的依赖关系拆分成多组任务集合，称为调度阶段，也叫做任务集（TaskSet）。调度阶段的划分是由DAGScheduler来划分的，调度阶段有Shuffle Map Stage和Result Stage两种。
任务（Task）：分发到Execute上的工作任务，是Spark实际执行应用的最小单元。
DAGScheduler：DAGScheduler是面向调度阶段的任务调度器，负责接收Spark应用提交的作业，根据RDD的依赖关系划分调度阶段，并提交调度阶段给TaskScheduler。
TaskScheduler：TaskScheduler是面向任务的调度器，他接受DAGScheduler提交过来的调度阶段，然后以把任务分发到Work节点运行，由Worker节点的Executor来运行该任务。

Spark的作业调度主要是指基于RDD的一系列操作构成一个作业，然后在Executor中执行。这些操作算子主要分为转换操作和行动操作，对于转换操作的计算是lazy级别的，也就是延迟执行，只有出现了行动操作才触发了作业的提交。在Spark调度中最重要的是DAGScheduler和TaskScheduler两个调度器，其中，DAGScheduler负责任务的逻辑调度，将作业拆分成不同阶段的具有依赖关系的任务集，而TaskScheduler则负责具体任务的调度执行。

阅读全文

1 0