Spark的架构原理

来源：互联网发布：证券分析师知乎编辑：程序博客网时间：2024/06/07 02:49

一、相关名词解释

Driver：Driver是Spark集群的节点之一，我们编写的Spark程序就在Driver上，由Driver进程执行。

Master：Master是个进程，主要负责资源的调度和分配，还有集群的监控，等等职责。

Worker：Worker是个进程，主要负责两个方面，一个是用自己的内存存储RDD的某个或某些partition；另一个，是启动其他进程和线程，对RDD上的partition进行版型的处理和计算。

Executor和Task：负责执行，对RDD的partition进行并行的计算。也就是执行我们队RDD的定义，比如：map、flatMap、reduce等算子操作。

（1）Driver进程启动之后，会做一些初始化的操作，在这个过程中，就会发送请求到Master上，进行Spark应用程序的注册。

（2）Master在接收到了Spark应用程序的注册申请之后，会发送请求给Worker，进行资源的调度和分配。

（3）Worker接收到Master的请求之后，会为Spark应用启动Executor。

（4）Executor启动之后，会向Driver进行反注册。这样，Driver就知道，哪些Executor是为它进行服务的了。

（5）Driver注册了一些Executor之后，就可以开始正式执行我们的Spark应用程序了。首先第一步就是，创建初始的RDD，读取数据源。HDFS文件内容读取到多个worker节点上，形成内存中的分布式数据集，也就是初始RDD。

（6）Driver会根据我们对RDD定义的操作，提交一大堆task去Executor上。

（7）Executor接收到task之后，会启动多个线程来执行task。

（8）task就会对RDD的partition数据执行指定的算子操作，形成新的RDD的partition。

阅读全文

1 0