KafkaUtils.createDirectStream
来源:互联网 发布:rsync windows 编辑:程序博客网 时间:2024/06/07 14:07
转:http://blog.selfup.cn/1665.html
官网上对这个新接口的介绍很多,大致就是不与zookeeper交互,直接去kafka中读取数据,自己维护offset,于是速度比KafkaUtils.createStream要快上很多。但有利就有弊:无法进行offset的监控。
项目中需要尝试使用这个接口,同时还要进行offset的监控,于是只能按照官网所说的,自己将offset写入zookeeper。
方法1
这个方法只有3个参数,使用起来最为方便,但是每次启动的时候默认从Latest offset开始读取,或者设置参数
显然这2种读取位置都不适合生产环境。
方法2
这个方法可以在启动的时候可以设置offset,但参数设置起来复杂很多,首先是fromOffsets: Map[TopicAndPartition, Long]的设置,参考下方代码。
其中
然后是参数messageHandler的设置,为了后续处理中能获取到topic,这里形成(topic, message)的tuple:
接着将从获取rdd的offset并写入到zookeeper中:
最后附上batchSave的示例:
1
2
3
4
5
6
7
defbatchSave(iter:Iterator[(String,String)]):Unit={
iter.foreach(item=>{
valtopic=item._1
valmessage=item._2
...
})
}
阅读全文
0 0
- KafkaUtils.createDirectStream
- spark-streaming kafka api(KafkaUtils.createDirectStream)使用
- KafkaUtils.createStream接收数据流程
- createDirectStream 实现offset管理
- scala版本kafka createDirectStream
- java版本kafka createDirectStream
- createDirectStream官网例子
- spark+kafka出现问题1,找不到KafkaUtils$
- spark createDirectStream保存kafka offset(JAVA实现)
- spark createDirectStream保存kafka offset(JAVA实现)
- spark createDirectStream保存kafka offset(JAVA实现)
- spark createDirectStream保存kafka offset(JAVA实现)
- Kafka + spark stream +redis (createStream + createDirectStream)
- Spark Kafka(createDirectStream)自己管理offset
- spark createDirectStream保存kafka offset(JAVA实现)
- spark streaming kafka1.4.1中的低阶api createDirectStream使用总结
- spark的kafka的低阶API createDirectStream的一些总结。
- spark streaming kafka1.4.1中的低阶api createDirectStream使用总结
- eclipse使用插件远程调试Hadoop
- 使用Socket进行远程调用
- 实验一Linux操作系统的安装
- Postgresql相关问题
- 【Linux】命令整理(一)
- KafkaUtils.createDirectStream
- 头文件懒得打系列
- Android之invalid address or address of corrupt block 0xabb494a0 passed to dlfree崩溃解决办法
- Python 模块安装
- WebSocket初探
- MyEclipse中导入JQuery的min.js包总会报错
- IN+子查询(Mysql)
- oracle之 安装 11G RAC 报 NTP failed
- 作业整理