Spark Structured Streaming、Kafak整合
来源:互联网 发布:ubuntu repair 编辑:程序博客网 时间:2024/05/22 15:48
Structured Streaming
SBT 依赖包:
groupId = org.apache.spark
artifactId = spark-sql-kafka-0-10_2.11
version = 2.1.1
在Spark2.x中,Spark Streaming获得了比较全面的升级,称为Structured Streaming,和之前的很不同,功能更强大,效率更高,跟其他的组件整合性也更好。
Spark 2.X提出了continuous application(连续的应用程序)的概念,非常重大。
首先,也是最重要的,在2.x中,提出了一个叫做continuous applications连续应用程序的概念。
如下图所示,数据从Kafka中流进来,通过ETL操作进行数据清洗,清洗出来作为目标数据进行进一步处理,可能是机器学习,也可能是交互式查询,也有可能直接把数据存在数据库或者其他外部存储设备,也有可能是直接交给已有的应用程序。也就是说SparkStreaming从获得数据后,能把全部处理环节串联起来,称之为端到端(End to end)处理!!!
#
http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html
groupId = org.apache.spark
artifactId = spark-sql-kafka-0-10_2.11
version = 2.1.1
http://blog.csdn.net/javastart/article/details/50942397
未完成待续
參考文献:
【1】http://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html 官网简单介绍
【2】http://www.cnblogs.com/dt-zhw/p/5597353.html Spark定制班第29课:深入理解Spark 2.x中的Structured Streaming内幕
【3】https://www.iteblog.com/archives/1322.html 实际较详细的例子
【4】https://github.com/ansrivas/spark-structured-streaming/blob/master/src/main/scala/com/kafkaToSparkToCass/Main.scala
代码参考
- Spark Structured Streaming、Kafak整合
- Spark Streaming整合kafak
- Spark 2.1 structured streaming
- spark 2.0.0 Structured Streaming Programming
- 「Spark-2.2.0」Structured Streaming
- Spark Structured Streaming入门编程指南
- spark structured streaming GroupState setTimeoutDuration触发机制
- Spark Streaming+ FlumeNG整合
- Spark Streaming整合Kafka
- spark streaming整合sparksql
- spark streaming 整合kafka
- Structured Streaming
- 谷歌Dataflow编程模型和spark 2.0 structured streaming
- google Dataflow编程模型和spark 2.0 structured streaming对比
- spark structured streaming的source解析与自定义
- Spark Structured Streaming框架(1)之基本用法
- Spark Structured Streaming框架(2)之数据输入源详解
- Spark Structured Streaming框架(2)之数据输入源详解
- 关于网络状态改变监听广播的使用(android不同系统版本会有不同)
- J2EE系列之Spring4学习笔记(一)--Spring介绍
- uboot章
- Neighboring Subsystem and ARP
- Activity的点点滴滴
- Spark Structured Streaming、Kafak整合
- [MySQL][ODBC 3.51 Driver][mysqld-5.5.37-log]Table 'ldk2.T_User' doesn't exist问题解决
- 集合常用的方法--073
- 可重入函数与线程安全
- 成都云栖大会_阿里1582.73亿营收背后的持续交付如何玩?
- Java 编程题目 第一题
- IOS-Controller中点击屏幕退出键盘
- Java 实例 – 时间戳转换成时间
- 微信JS-SDK config OK,但分享配置失败(分享接口回调函数失效)