spark-streaming direct stream的部分实现原理
来源:互联网 发布:mac gcc 升级最新版本 编辑:程序博客网 时间:2024/05/24 01:01
今天看了一片介绍spark-streaming direct stream的实现原理,文章在这个地址(内容加载比较慢,打开链接后等几分钟内从才能显示出来):
Exactly-once Spark Streaming from Apache Kafka
总结一下几点:
1. spark-streaming其实是根据interval创建了rdd stream。在创建rdd的时候,首先根据上次读取的偏移量定义rdd,然后再根据刚才定义的rdd实际接收数据,产生rdd
2. HasOffsetRanges,对应于每个topic的每个partition,在rdd中都有一个HasOffsetRanges表示
3. spark-streaming的kafka默认consume消息是At-most-once模式,但是如果想要实现Exactly-once模式,会消耗很大的资源来保存每个rdd partition的offset。比如说在上面的文章里面,使用了如下标红的代码来读取rdd partition的offset
stream.foreachRDD { rdd => <span style="color:#ff0000;">rdd.foreachPartition { iter => // make sure connection pool is set up on the executor before writing SetupJdbc(jdbcDriver, jdbcUrl, jdbcUser, jdbcPassword) iter.foreach { case (key, msg) => DB.autoCommit { implicit session => // the unique key for idempotency is just the text of the message itself, for example purposes sql"insert into idem_data(msg) values (${msg})".update.apply }</span> } } }
0 0
- spark-streaming direct stream的部分实现原理
- Spark Streaming基于kafka的Direct详解
- Spark Streaming基于kafka的Direct详解
- 39:Spark Streaming中Direct Kafka内幕实现彻底解密
- spark-streaming系列------- 5. Spark-Streaming checkpoint的原理和实现
- Spark-Streaming checkpoint的原理
- "Spark Streaming + Kafka direct + checkpoints + 代码改变" 引发的问题
- 将 Spark Streaming + Kafka direct 的 offset 保存进入Zookeeper
- Spark Streaming之Kafka的Receiver和Direct方式
- Spark Streaming对Exactly Once的实现原理
- Spark streaming整合Kafka之Direct方式
- Spark-Streaming KafkaDirectDStream checkpoint的原理
- 第39课:spark streaming中direct kafka 内幕实现彻底解密
- spark streaming原理
- Spark 之Streaming--原理
- Spark Streaming原理介绍
- Spark Streaming基础原理
- Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式
- 由xib创建的类,被继承后的问题
- 弹出div层
- ajax验证用户名是否存在
- 类的成员及其定义(常量,属性,字段,方法)
- wireshark参数
- spark-streaming direct stream的部分实现原理
- EJB
- getIntent().getExtras().remove(key)删除不成功
- call apply区别
- MyEclipse中Jboss启动出现Java heap space解决方案
- prim算法 最小生成树
- Android实现推送方式解决方案
- oracle 网址
- 网站备案 应该找域名商还是空间商备案