spark streaming原理
来源:互联网 发布:谭浩强c语言教学视频 编辑:程序博客网 时间:2024/05/16 11:50
Spark Streaming 是基于spark的流式批处理引擎,其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。
本节描述了Spark Streaming作业的执行流程。
图1 Spark Streaming作业的执行流程
具体流程:
- 客户端提交作业后启动Driver,Driver是spark作业的Master。
- 每个作业包含多个Executor,每个Executor以线程的方式运行task,Spark Streaming至少包含一个receiver task。
- Receiver接收数据后生成Block,并把BlockId汇报给Driver,然后备份到另外一个Executor上。
- ReceiverTracker维护Reciver汇报的BlockId。
- Driver定时启动JobGenerator,根据Dstream的关系生成逻辑RDD,然后创建Jobset,交给JobScheduler。
- JobScheduler负责调度Jobset,交给DAGScheduler,DAGScheduler根据逻辑RDD,生成相应的Stages,每个stage包含一到多个task。
- TaskScheduler负责把task调度到Executor上,并维护task的运行状态。
- 当tasks,stages,jobset完成后,单个batch才算完成。
2 0
- spark streaming原理
- Spark 之Streaming--原理
- Spark Streaming原理介绍
- Spark Streaming基础原理
- Spark Streaming原理简析
- Spark Streaming原理简析
- spark streaming原理与实践
- Spark-Streaming checkpoint的原理
- Spark-Streaming及其工作原理
- Spark Streaming之运行原理
- 实战7.Spark Streaming(上)--Spark Streaming原理介绍
- 实时流计算Spark Streaming原理介绍
- 实时流计算Spark Streaming原理介绍
- 实时流计算Spark Streaming原理介绍
- spark streaming 运行原理图解分析
- Spark-Streaming KafkaDirectDStream checkpoint的原理
- 实时流计算Spark Streaming原理介绍
- 实时流计算Spark Streaming原理介绍
- 二叉树的简单创建与三中遍历
- 九度OJ 题目1015:还是A+B
- C语言编程入门——结构体(下)
- 异常——(10)The JSP specification requires that an attribute name is preceded by whitespace
- p1011
- spark streaming原理
- oracle_Listener in INTERMEDIATE status with "Not All Endpoints Registered"
- 南邮 OJ 1019 计算二叉树的高度和结点数
- SVM支持向量机
- C项目开发—通讯录(一) 整体设计及界面、框架搭建
- iOS输入框禁止输入emoji表情
- list view header footer设置顺序
- 树的直径
- session的removeAttribute()和invalidate()的区别