spark学习笔记-spark基本概念与框架理解
来源:互联网 发布:直线制职能制矩阵制 编辑:程序博客网 时间:2024/05/01 04:37
spark架构
master:集群资源管理和调度
worker:单个节点的资源管理
executor:对数据进行并行处理
driver:应用逻辑执行的起点
spark构成
clustermanager:standlone模式中为master,即主节点,控制整个集群,监控worker,在yarn模式中为资源管理器。
worker:从节点,负责控制计算节点,启动executor或driver,在yarn模式中为nodemanger,负责计算节点的控制。
driver:运行application的main函数,并且创建sparkcontext。
executor:执行器,是为某个application运行在worker 弄得上的一个进程,启动线程池运行任务,每个application拥有独立的一组executors。
sparkcontext:整个应用的上下文,控制应用的生命周期。
rdd:spark的基本计算单元,一组rdd形成执行的有向无环图rddgraph。
dag scheduler :根据job构建基于stage的dag, 并提交给taskscheduler.
taskscheduler:将task分发给executor执行
sparkenv: 线程级别的上下文,存储运行时的重要组件的引用。
client提交应用,master找到一个worker启动driver,driver向master或者资源管理器申请资源,之后将应用转换为rdd graph, dagscheduler将rdd graph转换为stage的有向无环图提交给taskscheduler,由taskschedule提交任务给executor进行执行。任务执行过程中其他组件协同工作确保整个应用顺利执行。
spark的工作机制
spark作业:
application:用户自定义的spark 程序,用户提交后,spark为APP分配资源将程序转换执行。
driverprogram:运行application的main函数并且创建sparkcontext。
rdddag: 当rdd遇到action算子,将之前的所有算子形成一个有向无环图。再在spark中转换为job,提交到集群进行执行。一个APP中可以包含多个job。
job:一个rdd graph触发的作业,往往是由sparkaction算子触发,在sparkcontext中通过runjob方法向spark提交job。
stage:每个job会根据rdd 的宽依赖关系被切分成很多stage,每个stage中包含一组相同的task,这一组task也叫taskset。
task:一个分区对应一个task,task执行rdd中对应stage中所包含的算子,task被封装好后放入executor的线程池中执行。
spark运行流程
spark程序转换
输入数据块
根据调度策略执行各个stage的tasks
输出结果返回
spark计算模型
数据结构RDD + 算法(transformation, action)
- spark学习笔记-spark基本概念与框架理解
- spark学习一 基本概念理解
- spark学习笔记(2)spark基本概念和术语解释
- 【Spark笔记】基本概念
- spark学习--基本概念描述
- spark学习-19-Spark的mapPartitions与MapPartitionsWithIndex理解
- Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令
- spark学习笔记:Spark Streaming
- Spark学习笔记:初识Spark
- Spark学习笔记--Spark基础知识
- spark学习笔记:初识spark
- Spark基本概念与执行流程
- spark基本概念与架构设计
- Spark学习笔记 --- Spark Streaming 与 Stom 比较
- 【Spark】Spark基本概念
- 【Spark】Spark基本概念
- Spark 基本概念
- Spark基本概念
- Android keyboardView字体样式修改
- Java基础
- Linux实战教学笔记21-Rsync数据同步工具
- Android 水平平均布局
- JS对图片进行base64压缩以及图片的EXIF-Orientation信息
- spark学习笔记-spark基本概念与框架理解
- 高版本mysql向低版本mysql导入数据
- 网络编程
- 蓝桥杯练习: 算法训练 6-1 递归求二项式系数值
- 挑战练习题2.3动态规划 poj2385Apple Catching dp
- ActiveMQ介绍及Spring整合实例
- Kafka内部网络框架
- Leetcode 77
- BFC