Spark的架构原理
来源:互联网 发布:证券分析师 知乎 编辑:程序博客网 时间:2024/06/07 02:49
一、相关名词解释
Driver:Driver是Spark集群的节点之一,我们编写的Spark程序就在Driver上,由Driver进程执行。
Master:Master是个进程,主要负责资源的调度和分配,还有集群的监控,等等职责。
Worker:Worker是个进程,主要负责两个方面,一个是用自己的内存存储RDD的某个或某些partition;另一个,是启动其他进程和线程,对RDD上的partition进行版型的处理和计算。
Executor和Task:负责执行,对RDD的partition进行并行的计算。也就是执行我们队RDD的定义,比如:map、flatMap、reduce等算子操作。
二、执行流程
(1)Driver进程启动之后,会做一些初始化的操作,在这个过程中,就会发送请求到Master上,进行Spark应用程序的注册。
(2)Master在接收到了Spark应用程序的注册申请之后,会发送请求给Worker,进行资源的调度和分配。
(3)Worker接收到Master的请求之后,会为Spark应用启动Executor。
(4)Executor启动之后,会向Driver进行反注册。这样,Driver就知道,哪些Executor是为它进行服务的了。
(5)Driver注册了一些Executor之后,就可以开始正式执行我们的Spark应用程序了。首先第一步就是,创建初始的RDD,读取数据源。HDFS文件内容读取到多个worker节点上,形成内存中的分布式数据集,也就是初始RDD。
(6)Driver会根据我们对RDD定义的操作,提交一大堆task去Executor上。
(7)Executor接收到task之后,会启动多个线程来执行task。
(8)task就会对RDD的partition数据执行指定的算子操作,形成新的RDD的partition。
阅读全文
1 0
- Spark的架构原理
- Spark架构原理
- spark原理架构
- Spark架构原理
- Spark核心编程:Spark架构原理
- Spark 调度架构原理解析
- spark-sql架构与原理
- spark架构原理(一)
- Spark入门之五:SparkSQL的原理以及架构
- spark的架构
- Spark的架构
- spark的架构
- Spark的架构
- Spark的运行架构
- Spark 调度架构原理深度解析
- Spark(一): 基本架构及原理
- Spark(一): 基本架构及原理
- Spark(一): 基本架构及原理
- 搭建ELK日志分析系统(四)-kibana安装和使用
- C和指针第八章笔记
- Matplotlib 及 Seaborn 使用教程 1
- Matlab与C和C++混合编程接口及应用
- Yii框架单文件上传
- Spark的架构原理
- JDBC中增删改查
- Machine Learning---2---决策树
- 重装pycharm 软件后先前的程序无法运行
- Matplotlib 及 Seaborn 使用教程 2
- [初学笔记] 字符串
- java中一个类初始化的全过程
- 【Git】5.分支管理
- Java远程调试 java -Xdebug各参数说明