通过案例对SparkStreaming透彻理解(2)

来源：互联网发布：松井玲奈毕业知乎编辑：程序博客网时间：2024/06/06 00:03

本博文主要内容包括：

　　1. Spark Streaming架构

　　2. Spark Streaming运行机制

一、Spark Streaming的架构分析：

1、SparkStreaming运行时更像SparkCore上的应用程序，SparkStreaming程序启动后会启动很多job，每个batchIntval、windowByKey的job、框架运行启动的job。例如，Receiver启动时也启动了job，此job为其他job服务，所以需要做复杂的spark程序，往往多个job之间互相配合。SparkStreaming是最复杂的应用程序，如果对SparkStreaming了如指掌的话，做其他的Spark应用程序没有任何问题。看下官网：Spark sql，SparkStreaming，Spark ml，Spark graphx子框架都是后面开发出来的，我们要洞悉Spark Core 的话，SparkStreaming是最好的切入方式。

2、Spark大数据分析框架的核心部件： spark Core、spark Streaming流计算、GraphX图计算、MLlib机器学习、Spark SQL、Tachyon文件系统、SparkR计算引擎等主要部件：

这里写图片描述

3、SparkStreaming启动后，数据不断通过inputStream流进来，根据时间划分成不同的job、就是batchs of input data，每个job有一序列rdd的依赖。Rdd的依赖有输入的数据，所以这里就是不同的rdd依赖构成的batch，这些batch是不同的job，根据spark引擎来得出一个个结果。DStream是逻辑级别的，而RDD是物理级别的。DStream是随着时间的流动内部将集合封装RDD。对DStream的操作，转过来是对其内部的RDD操作。
这里写图片描述

Spark Streaming基础概念理解：
（1）离散流：(Discretized Stream ,DStream):这是spark streaming对内部的持续的实时数据流的抽象描述，也即我们处理的一个实时数据流，在spark streaming中对应一个DStream ；
（2 ）批数据：将实时流时间以时间为单位进行分批，将数据处理转化为时间片数据的批处理；
（3）时间片或者批处理时间间隔：逻辑级别的对数据进行定量的标准，以时间片作为拆分流数据的依据；
（4）窗口长度：一个窗口覆盖的流数据的时间长度。比如说要每隔5分钟统计过去30分钟的数据，窗口长度为6，因为30分钟是batch interval 的6倍；
（5）滑动时间间隔：比如说要每隔5分钟统计过去30分钟的数据，窗口时间间隔为5分钟；
（6） input DStream :一个inputDStream是一个特殊的DStream 将spark streaming连接到一个外部数据源来读取数据。
（7） Receiver :长时间（可能7*24小时）运行在Excutor之上，每个Receiver负责一个inuptDStream (比如读取一个kafka消息的输入流)。每个Receiver,加上inputDStream 会占用一个core/slot

4、Spark Core处理的每一步都是基于RDD的，RDD之间有依赖关系。下图中的RDD的DAG显示的是有3个Action，会触发3个job，RDD自下向上依赖，RDD产生job就会具体的执行。从DSteam Graph中可以看到，DStream的逻辑与RDD基本一致，它就是在RDD的基础上加上了时间的依赖。RDD的DAG又可以叫空间维度，也就是说整个Spark Streaming多了一个时间维度，也可以成为时空维度。

这里写图片描述

从这个角度来讲，可以将Spark Streaming放在坐标系中。其中Y轴就是对RDD的操作，RDD的依赖关系构成了整个job的逻辑，而X轴就是时间。随着时间的流逝，固定的时间间隔（Batch Interval）就会生成一个job实例，进而在集群中运行。

这里写图片描述

（时间维度：按照固定时间间隔不断地产生job对象，并在集群上运行：
包含有batch interval,窗口长度，窗口滑动时间等
空间维度：代表的是RDD的依赖关系构成的具体的处理逻辑的步骤，是用DStream来表示的：
1、需要RDD,DAG的生成模板
2、TimeLine的job控制器、
3、InputStream和outputstream代表的数据输入输出
4、具体Job运行在Spark Cluster之上，此时系统容错就至关重要
5、事务处理，在处理出现奔溃的情况下保证Exactly once的事务语义一致性
随着时间的流动，基于DStream Graph不断生成RDD Graph,也就是DAG的方式生成job,并通过Job Scheduler的线程池的方式提交给Spark Cluster不断的执行，RDD 与 DStream之间的关系如下：1、RDD是物理级别的，而 DStream 是逻辑级别的；2、DStream是RDD的封装模板类，是RDD进一步的抽象；3、DStream要依赖RDD进行具体的数据计算）
　对于Spark Streaming来说，当不同的数据来源的数据流进来的时候，基于固定的时间间隔，会形成一系列固定不变的数据集或event集合（例如来自flume和kafka）。而这正好与RDD基于固定的数据集不谋而合，事实上，由DStream基于固定的时间间隔行程的RDD Graph正是基于某一个batch的数据集的。
从上图中可以看出，在每一个Batch上，空间维度的RDD依赖关系都是一样的，不同的是这个五个Batch流入的数据规模和内容不一样，所以说生成的是不同的RDD依赖关系的实例，所以说RDD的Graph脱胎于DStream的Graph，也就是说DStream就是RDD的模板，不同的时间间隔，生成不同的RDD Graph实例。

二：Spark Streaming运行机制

1、StreamingContext方法中调用JobScheduler的start方法：

　　val ssc = new StreamingContext(conf, Seconds(5))
　　val lines = ssc.socketTextStream(“Master”, 9999)
　　……//业务处理代码略
　　ssc.start()
　　ssc.awaitTermination()

这里写图片描述

我们进入JobScheduler start方法的内部继续分析：

这里写图片描述

1、JobScheduler 通过onReceive方法接收各种消息并存入enventLoop消息循环体中。
2、通过rateController对流入SparkStreaming的数据进行限流控制。
3、在JobScheduler的start内部会构造JobGenerator和ReceiverTacker，并且调用JobGenerator和ReceiverTacker的start方法。

ReceiverTacker的启动方法：

这里写图片描述

1、ReceiverTracker启动后会创建ReceiverTrackerEndpoint这个消息循环体，来接收运行在Executor上的Receiver发送过来的消息。
2、ReceiverTracker启动后会在Spark Cluster中启动executor中的Receivers。
JobGenerator的启动方法：

这里写图片描述

1、JobGenerator启动后会启动以batchInterval时间间隔发送GenerateJobs消息的定时器

这里写图片描述

0 0