8.3Task全生命周期详解

来源：互联网发布：c 端口映射源码下载编辑：程序博客网时间：2024/06/03 12:32

8.3 Task全生命周期详解

8.3.1 Task的生产过程详解

Task的生产过程详解：

1，当Driver中的CoarseGrainedSchedulerBackend给CoarseGrainedExecutorBackend发送LaunchTask之后，CoarseGrainedExecutorBackend在收到LaunchTask消息后，首先会反序列化TaskDescription。

1， Executor会通过会通过launchTask来执行Task，在launchTask方法中new出来TaskRunner，TaskRunner继承至Runnable接口。

3，TaskRunner在ThreadPool来运行具体的Task，在TaskRunner的run方法中首先会通过调用statusUpdate给Driver发信息汇报自己的状态说明自己是Running状态。其中execBackend是ExecutorBackend，ExecutorBackend是一个trait，其具体的实现子类是CoarseGrainedExecutorBackend ，其中的statusUpdate方法中将向Driver提交StatusUpdate消息。

4， TaskRunner内部会做一些准备工作：例如反序列化Task的依赖，然后通过网络来获取需要的文件、Jar等；

5，然后是反序列Task本身；

6，调用反序列化后的Task.run方法来执行任务并获得执行结果。其中Task的run方法调用的时候会导致Task的抽象方法runTask的调用，在Task的runTask内部会调用RDD的iterator()方法，该方法就是我们针对当前Task所对应的Partition进行计算的关键之所在，在处理的处理内部会迭代Partition的元素并交给我们自定义的function进行处理！

l 对于ShuffleMapTask，首先要对RDD以及其依赖关系进行反序列化，最终计算会调用RDD的compute方法。具体计算的时候有具体的RDD，例如MapPartitionsRDD的compute，compute方法其中的f就是我们在当前的Stage中计算具体Partition的业务逻辑代码。

l 对于ResultTask：调用rdd.iterator方法，最终计算仍然会调用RDD的compute方法。

7，把执行结果序列化，并根据大小判断不同的结果传回给Driver的方式。

8， CoarseGrainedExecutorBackend给DriverEndpoint发送StatusUpdate来传输执行结果，DriverEndpoint会把执行结果传递给TaskSchedulerImpl处理，然后交给TaskResultGetter内部通过线程去分别处理Task执行成功和失败时候的不同情况，然后告诉DAGScheduler任务处理结束的状况。

说明：

1，在执行具体Task的业务逻辑前会进行四次反序列：

a) TaskDescription的反序列化；

b) 反序列化Task的依赖；

c) Task的反序列化；

d) RDD反序列化；

2，在Spark 1.6中AkkFrameSize是128MB，所有可以广播非常大的任务；而任务的执行结果可以最大达到1G。Spark 2.1版本中 CoarseGrainedSchedulerBackend的launchTask方法中序列化任务大小的限制是maxRpcMessageSize为128M。

阅读全文

0 0