程序博客网 > 腾讯游戏平台mac版本

Spark Streaming管理Kafka偏移量

来源：互联网发布：腾讯游戏平台mac版本编辑：程序博客网时间：2024/06/05 01:05

前言

为了让Spark Streaming消费kafka的数据不丢数据，可以创建Kafka Direct DStream，由Spark Streaming自己管理offset，并不是存到zookeeper。启用Spark Streaming的 checkpoints是存储偏移量的最简单方法，因为它可以在Spark的框架内轻松获得。 checkpoints将应用程序的状态保存到HDFS，以便在故障时可以恢复。如果发生故障，Spark Streaming应用程序可以从checkpoints偏移范围读取消息。

但是，Spark Streaming checkpoints在应用程序挂掉或者重启无法恢复，因此不是非常可靠，特别是如果您将此机制用于关键生产应用程序，另外，基于zookeeper的offset可视化工具将无法使用。我们不建议通过Spark checkpoints来管理偏移量。因此本文将手动存储offset到zookeeper，完全自我掌控offset。

从ZK获取offset

创建ZKClient，API有好几个，最后用带序列化参数的，不然保存offset的时候容易出现乱码。

这里写图片描述

查看该groupId在该topic下是否有消费记录，如果有，肯定在对应目录下会有分区数，children大于0则有记录。

在有记录的情况下，去拿具体的offset

这里写图片描述

注意红色线框部分，在zookeeper里存储的offset有可能在kafka里过期了，所以要拿kafka最小的offset和zookeeper里的offset比较一下。

创建DStream

接下来就可以创建Kafka Direct DStream了，前者是从zookeeper拿的offset，后者是直接从最新的开始（第一次消费）。
这里写图片描述

最后就是处理RDD，保存Offset。

这里写图片描述

这里写图片描述

注意：其中有些图片不太清晰，可在简书看清晰版。

阅读全文

0 0

腾讯游戏平台mac版本

腾讯游戏平台mac版本

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子女服古装民族服装秧歌服舞蹈服戏服爵士舞服装脉宝云店脉宝云云脉文档识别京东云脉客商圈云脉云脉文字识别软件云脉文档云腾云腾自拍杆 yunteng 云腿云腿月饼踏云腿甲云腿是什么云腿月饼的做法云腿怎么做好吃云腿月饼哪个牌子好云腿的做法嘉华云腿月饼潘祥记云腿月饼云腿月饼价格德和云腿午餐肉云腿月饼品牌鲜花云腿饼金钱云腿云腿月饼的做法大全云腿图片踏云腿甲同模型云腿月饼图片流云眼线膏世云堂草本膏 bobbi brown流云眼线膏云舍云舍景区旅游