通过案例对SparkStreaming透彻理解(2)

来源:互联网 发布:松井玲奈毕业 知乎 编辑:程序博客网 时间:2024/06/06 00:03

本博文主要内容包括:

  1. Spark Streaming架构

  2. Spark Streaming运行机制

一、Spark Streaming的架构分析:

1、SparkStreaming运行时更像SparkCore上的应用程序,SparkStreaming程序启动后会启动很多job,每个batchIntval、windowByKey的job、框架运行启动的job。例如,Receiver启动时也启动了job,此job为其他job服务,所以需要做复杂的spark程序,往往多个job之间互相配合。SparkStreaming是最复杂的应用程序,如果对SparkStreaming了如指掌的话,做其他的Spark应用程序没有任何问题。看下官网:Spark sql,SparkStreaming,Spark ml,Spark graphx子框架都是后面开发出来的,我们要洞悉Spark Core 的话,SparkStreaming是最好的切入方式。

2、Spark大数据分析框架的核心部件: spark Core、spark Streaming流计算、GraphX图计算、MLlib机器学习、Spark SQL、Tachyon文件系统、SparkR计算引擎等主要部件:

这里写图片描述

3、SparkStreaming启动后,数据不断通过inputStream流进来,根据时间划分成不同的job、就是batchs of input data,每个job有一序列rdd的依赖。Rdd的依赖有输入的数据,所以这里就是不同的rdd依赖构成的batch,这些batch是不同的job,根据spark引擎来得出一个个结果。DStream是逻辑级别的,而RDD是物理级别的。DStream是随着时间的流动内部将集合封装RDD。对DStream的操作,转过来是对其内部的RDD操作。
这里写图片描述
这里写图片描述
这里写图片描述

Spark Streaming基础概念理解:
(1) 离散流:(Discretized Stream ,DStream):这是spark streaming对内部的持续的实时数据流的抽象描述,也即我们处理的一个实时数据流,在spark streaming中对应一个DStream ;
(2 )批数据:将实时流时间以时间为单位进行分批,将数据处理转化为时间片数据的批处理;
(3) 时间片或者批处理时间间隔:逻辑级别的对数据进行定量的标准,以时间片作为拆分流数据的依据;
(4) 窗口长度:一个窗口覆盖的流数据的时间长度。比如说要每隔5分钟统计过去30分钟的数据,窗口长度为6,因为30分钟是batch interval 的6倍;
(5) 滑动时间间隔:比如说要每隔5分钟统计过去30分钟的数据,窗口时间间隔为5分钟;
(6) input DStream :一个inputDStream是一个特殊的DStream 将spark streaming连接到一个外部数据源来读取数据。
(7) Receiver :长时间(可能7*24小时)运行在Excutor之上,每个Receiver负责一个inuptDStream (比如读取一个kafka消息的输入流)。每个Receiver,加上inputDStream 会占用一个core/slot

4、Spark Core处理的每一步都是基于RDD的,RDD之间有依赖关系。下图中的RDD的DAG显示的是有3个Action,会触发3个job,RDD自下向上依赖,RDD产生job就会具体的执行。从DSteam Graph中可以看到,DStream的逻辑与RDD基本一致,它就是在RDD的基础上加上了时间的依赖。RDD的DAG又可以叫空间维度,也就是说整个Spark Streaming多了一个时间维度,也可以成为时空维度。

这里写图片描述

这里写图片描述

从这个角度来讲,可以将Spark Streaming放在坐标系中。其中Y轴就是对RDD的操作,RDD的依赖关系构成了整个job的逻辑,而X轴就是时间。随着时间的流逝,固定的时间间隔(Batch Interval)就会生成一个job实例,进而在集群中运行。

这里写图片描述

(时间维度:按照固定时间间隔不断地产生job对象,并在集群上运行:
包含有batch interval,窗口长度,窗口滑动时间等
空间维度:代表的是RDD的依赖关系构成的具体的处理逻辑的步骤,是用DStream来表示的:
1、需要RDD,DAG的生成模板
2、TimeLine的job控制器、
3、InputStream和outputstream代表的数据输入输出
4、具体Job运行在Spark Cluster之上,此时系统容错就至关重要
5、事务处理,在处理出现奔溃的情况下保证Exactly once的事务语义一致性
随着时间的流动,基于DStream Graph不断生成RDD Graph,也就是DAG的方式生成job,并通过Job Scheduler的线程池的方式提交给Spark Cluster不断的执行 ,RDD 与 DStream之间的关系如下:1、RDD是物理级别的,而 DStream 是逻辑级别的;2、DStream是RDD的封装模板类,是RDD进一步的抽象;3、DStream要依赖RDD进行具体的数据计算
 对于Spark Streaming来说,当不同的数据来源的数据流进来的时候,基于固定的时间间隔,会形成一系列固定不变的数据集或event集合(例如来自flume和kafka)。而这正好与RDD基于固定的数据集不谋而合,事实上,由DStream基于固定的时间间隔行程的RDD Graph正是基于某一个batch的数据集的。
从上图中可以看出,在每一个Batch上,空间维度的RDD依赖关系都是一样的,不同的是这个五个Batch流入的数据规模和内容不一样,所以说生成的是不同的RDD依赖关系的实例,所以说RDD的Graph脱胎于DStream的Graph,也就是说DStream就是RDD的模板,不同的时间间隔,生成不同的RDD Graph实例。

二:Spark Streaming运行机制

1、StreamingContext方法中调用JobScheduler的start方法:

  val ssc = new StreamingContext(conf, Seconds(5))
  val lines = ssc.socketTextStream(“Master”, 9999)
  ……//业务处理代码略
  ssc.start()
  ssc.awaitTermination()

这里写图片描述

我们进入JobScheduler start方法的内部继续分析:

这里写图片描述

1、JobScheduler 通过onReceive方法接收各种消息并存入enventLoop消息循环体中。
2、通过rateController对流入SparkStreaming的数据进行限流控制。
3、在JobScheduler的start内部会构造JobGenerator和ReceiverTacker,并且调用JobGenerator和ReceiverTacker的start方法。

ReceiverTacker的启动方法:

这里写图片描述

1、ReceiverTracker启动后会创建ReceiverTrackerEndpoint这个消息循环体,来接收运行在Executor上的Receiver发送过来的消息。
2、ReceiverTracker启动后会在Spark Cluster中启动executor中的Receivers。
JobGenerator的启动方法:

这里写图片描述

1、JobGenerator启动后会启动以batchInterval时间间隔发送GenerateJobs消息的定时器

这里写图片描述

这里写图片描述

这里写图片描述

0 0
原创粉丝点击