Spark Streaming

来源:互联网 发布:lol网络不稳 编辑:程序博客网 时间:2024/04/30 07:16
转载自:http://blog.csdn.net/snail_gesture/article/details/49968617
              http://blog.selfup.cn/619.html

概述

       Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强这两个特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。另外Spark Streaming也能和MLlib(机器学习)以及Graphx完美融合。
       其内部工作方式如下:
       
        在Spark Streaming内部实现是接收到输入数据之后,以时间为分片对数据拆分成多个Batch。切分好数据分片之后,Spark Engine对数据进行计算,最后的结果也是以batch的方式组成的。 对于每一批的处理batch是并行处理的。例如,一秒产生一批,如果前一秒的还没处理完,下一秒的将不会被计算,这时候就会产生阻塞。因此这里面的时间设置也是一个优化点。 

DStream

       Discretized Streams(DStreams)是Spark Streaming的基础抽象,代表持续性的数据流和经过各种Spark原语操作后的结果数据流。在内部实现上,DStream由连续的序列化RDD来表示。每个RDD含有一段时间间隔内的数据,这些RDD会被DSream管理和计算。流进来的数据会被DStream划分为不同的时间段,每个时间段都会产生很多RDD,每个时间段是有自己ID的,第一个时间区间是[0,1),左闭右开区间的,然后依次类推。如下图:
       
       对数据的操作也是按照RDD为单位来进行的,数据是串行输入的,每个batch处理是并行的。如下图所示,下方的RDD都是通过Spark高级原语的转换而来,计算过程由Spark engine来完成。
       
       每一个时间段进行单词统计,进行flatMap操作,单词统计,然后随着时间流逝依次类推。

       DStream上的原语与RDD的类似,分为Transformations(转换)和Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种window相关的原语。
       updateStateByKey()用于记录历史记录。若不用UpdateStateByKey来更新状态,那么每次数据进来后分析完成后,结果输出后将不再保存。
       transform()允许DStream上执行任意的RDD-to-RDD函数。通过该函数可以方便的扩展Spark API。
       window设置窗口的大小和滑动窗口的间隔来动态的获取当前Steaming的允许状态。
       
       上图中每一个红色的方框表示一个窗口,窗口的长度为3,滑动间隔即窗口操作的时间间隔为2,也就是说,每隔2个操作时间,对过去3个时间进行统计。注意:比如窗口长度为3 的话,则是左闭右开的,也就是说 window at time 3 是对time1 和time2 进行统计的,不包含time3。 
       当某个Output Operations原语被调用时,stream才会开始真正的计算过程。例如:
print()foreachRDD(func)saveAsObjectFiles(prefix, [suffix])saveAsTextFiles(prefix, [suffix])saveAsHadoopFiles(prefix, [suffix]


更多详细内容请参考:https://github.com/lw-lin/CoolplaySpark
0 0
原创粉丝点击