kafka添加 partion导致 spark 实时任务数据减少
来源:互联网 发布:b站视频 知乎 编辑:程序博客网 时间:2024/06/08 10:57
场景: kafka原有两个分区,添加一个分区后,一直运行的实时的spark任务 数据减少约3分之一
分析: spark 将kafka 的offsite维护在checkpoint 里面,当spark任务运行的时候,给kafka添加新的分区,原来的checkpoint只维护原来的两个分区的 offsite,新的分区的offsite 无法维护(checkpoint 只在第一次创建的时候,创建新offsite,以后只是维护)
解决方法: 删除spark的checkpoint 重新启动程序
通过查看日志可知(红色箭头为删除checkpoint前后的数据):
删除前 spark 只接收 kafka 两个partion的数据;删除后 接收三个partion的数据
总结:kafka的分区一定要在创建topic的时候设置好,要不后续重设很麻烦
阅读全文
0 0
- kafka添加 partion导致 spark 实时任务数据减少
- kafka实现实时收集Spark Steaming任务日志
- Kafka连接问题,导致Spark数据分析中断
- Spark Streaming实时读取Kafka
- Spark kafka实时消费实现
- Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据
- Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据
- Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据
- 文本框实时增加减少数据
- Kafka和Spark Streaming Java版本集成并将数据实时写入HBase
- Kafka和Spark Streaming Java版本集成并将数据实时写入HBase及代码
- 使用Flume+Logstash+Kafka+Spark Streaming进行实时日志处理分析【公安大数据】
- TOP100summit:【分享实录-Microsoft】基于Kafka与Spark的实时大数据质量监控平台
- Kafka+Spark Streaming+Redis实时系统实践
- Kafka+Spark Streaming+Redis实时系统实践
- Kafka+Spark Streaming+Redis实时系统实践
- Kafka+Spark Streaming+Redis实时系统实践
- Kafka+Spark Streaming+Redis实时系统实践
- codeforces 801A Vicious Keyboard
- Effective Java中文第二章第1节(个人渣翻)
- 多线程/并发笔记:线程池的创建--Executor框架
- GDI+[59]: 路径
- 关于用mvc三层设计模式来设计用户登录系统
- kafka添加 partion导致 spark 实时任务数据减少
- myeclipse10破解版无common文件夹
- 教你怎样源码免杀
- GIT从创建分支到如何在分支和主分支两种模式下开发
- Lintcode122 Largest Rectangle In Histogram solution 题解
- localStorage使用总结
- Vue笔记3 vue-cli单页面应用与路由设置
- 鸡蛋一小步:ubuntu开发环境之一:下载篇
- MYSQL下载后的使用方法