Spark streaming的Exactly-once容错HA机制
来源:互联网 发布:qq游戏平台 mac 编辑:程序博客网 时间:2024/05/29 17:19
Spark streaming 1.2提供的基于WAL的容错机制(参考上一篇博文http://blog.csdn.net/yangbutao/article/details/44975627),可以保证数据的计算至少被执行一次,
但是不能保证只执行一次,比如在kafka receiver写数据到WAL中后,往zookeeper写offset失败,那么在driver失效恢复后,由于offset还是之前写过的offset位置,数据又会从kafka中拉取一次,就执行一次了,而对于一些场景中对一致的性要求比较严格的,并且1.2的HA机制比较复杂,且对性能的影响比较大。
从1.3开始提供了一种更简单的方式支持了对Spark streaming Exactly-one的需求,这就是Direct API。
参考下图:
区别1.2版本HA依赖于WAL和Receiver,1.3版本的利用Direct API方式实现了Exactly-once。
Driver在生成RDD任务时,对于每个batch的划分,是基于kafka的消费的offset范围的;当每个job在执行时,数据从kafka中基于划分的offset范围获取;当前的offset可以在Driver中通过checkpoint机制进行可靠的存储,以便于失效时可靠的恢复。由于去掉了Receiver,对于并行的操作也不需要配置多少个线程消费kafka的partition,在Direct API的实现中,每个RDD的分区对应于kafka的分区,大大简化的并行编程模型,做到自动并行读取。
0 0
- Spark streaming的Exactly-once容错HA机制
- 第4课:Spark Streaming的Exactly Once的事务处理
- Spark Streaming对Exactly Once的实现原理
- Exactly-once Spark Streaming from Apache Kafka
- Exactly-once Spark Streaming from Apache Kafka
- Spark Streaming Crash 如何保证Exactly Once
- Spark Streaming中如何实现Exactly-Once
- Spark Streaming Crash 如何保证Exactly Once Semantics
- Spark Streaming 中如何实现 Exactly-Once 语义
- Spark Streaming exactly once原理及编程示例
- Spark定制班第4课:Spark Streaming的Exactly-Once的事务处理和不重复输出彻底掌握
- Spark Streaming的容错和数据无丢失机制
- Spark Streaming的Exactly-One的事务处理
- Spark Streaming的Exactly-One的事务处理
- Spark Streaming之容错机制以及事务语义
- 【Spark】Spark容错机制
- Spark学习笔记(4)Spark Streaming的Exactly-One的事务处理
- Spark Streaming容错的改进和零数据丢失
- Linux上卸载Oracle数据库
- ACM Steps ---- Section1
- ADF计算Table列
- vlc源码目录
- 2015年蓝桥杯省赛B组第8题--移动距离
- Spark streaming的Exactly-once容错HA机制
- linux 安装桌面环境
- Java字符串自动补全整数前面零的方法
- Unicode,ANSI,UTF-8的故事
- 设置新版本特效界面
- 学习java的第213天
- WebLogic11g-负载实现的三种方式
- Sicily 13981. Cow Baseball
- ADF自定义错误消息