Spark Streaming管理Kafka偏移量
来源:互联网 发布:腾讯游戏平台mac版本 编辑:程序博客网 时间:2024/06/05 01:05
前言
为了让Spark Streaming消费kafka的数据不丢数据,可以创建Kafka Direct DStream,由Spark Streaming自己管理offset,并不是存到zookeeper。启用Spark Streaming的 checkpoints是存储偏移量的最简单方法,因为它可以在Spark的框架内轻松获得。 checkpoints将应用程序的状态保存到HDFS,以便在故障时可以恢复。如果发生故障,Spark Streaming应用程序可以从checkpoints偏移范围读取消息。
但是,Spark Streaming checkpoints在应用程序挂掉或者重启无法恢复,因此不是非常可靠,特别是如果您将此机制用于关键生产应用程序,另外,基于zookeeper的offset可视化工具将无法使用。我们不建议通过Spark checkpoints来管理偏移量。因此本文将手动存储offset到zookeeper,完全自我掌控offset。
从ZK获取offset
创建ZKClient,API有好几个,最后用带序列化参数的,不然保存offset的时候容易出现乱码。
查看该groupId在该topic下是否有消费记录,如果有,肯定在对应目录下会有分区数,children大于0则有记录。
在有记录的情况下,去拿具体的offset
注意红色线框部分,在zookeeper里存储的offset有可能在kafka里过期了,所以要拿kafka最小的offset和zookeeper里的offset比较一下。
创建DStream
接下来就可以创建Kafka Direct DStream了,前者是从zookeeper拿的offset,后者是直接从最新的开始(第一次消费)。
最后就是处理RDD,保存Offset。
注意:其中有些图片不太清晰,可在简书看清晰版。
- Spark Streaming管理Kafka偏移量
- 如何管理Spark Streaming消费Kafka的偏移量(一)
- 如何管理Spark Streaming消费Kafka的偏移量(二)
- 如何管理Spark Streaming消费Kafka的偏移量(三)
- Kafka 消息偏移量
- kafka控制offset偏移量
- kafka偏移量offset--java
- Spark Streaming整合Kafka
- Spark Streaming + kafka
- Kafka+Spark Streaming集成
- kafka + spark streaming 架构
- spark streaming+kafka
- Spark Streaming + Kafka
- kafka-spark streaming-hbase
- spark streaming 整合kafka
- spark streaming + kafka
- flume kafka spark streaming
- Kafka->Spark Streaming->mongodb
- 在AndroidStudio中使用ARCore
- 单链表的基本操作(适合数据结构初学者)
- OpenCV常用的头文件
- http填坑2&Ajax基础详解
- 单例模式
- Spark Streaming管理Kafka偏移量
- 滑动窗口的最大值——C++版
- Html 基础学习系列一 标签img
- visual studio 2015 密钥
- Java软件工程师面试题汇总(持续更新)
- How to set JAVA_HOME on mac
- 最小距离分类法介绍
- LeetCode 72. Edit Distance
- Spring Aop(一)——Aop简介