Spark学习笔记(31)Kafka原理内幕和集群构建与测试实战

来源:互联网 发布:html 炫酷展示页源码 编辑:程序博客网 时间:2024/06/13 02:36
本期内容:
1. Kafka原理内幕
2. Kafka集群实战

Spark Streaming是处理层面的,Kafka相当于流程控制和数据控制的层面。
Kafka就是消息中间件。分布式的,可以扩展规模。可以对消息持久化。默认是7天,意思是,不管是否已消费,消息7天之后会被删除。有队列方式,也有发布者和订阅者方式。事务方面,kafka不行。是个粘合器,打破信息孤岛。
Kafka观点:数据时时刻刻是流动的。基于内核之间进行数据的交换,虽然数据在磁盘中,数据是近乎内存的速度。数据进出没有必要放入内存空间。
Kafka也可以是监控机器终端的CPU、内存等各种状况数据的消息中间件。理论上讲可以存储任意规模的数据。
可以处理离线、在线的数据。
Kafka不处理数据,没必要把数据放在Application的buffer上,而是基于内存的读取和传输,通过内核进行Socket传输。
Kafka是进行Topic消息分组。consumer基于Topic去获取数据。sendfile是文件数据交互的机制。重要的概念有上下文。
push、pull方式。使用Zookeeper注册和管理broker和consumer。
消息的一致性。Kafka中数据没有id,有offset。如果consumer出错,重新启动consumer,就可以从最近的offset开始处理。kafka自己保存offset。kafka无状态,数据是可以重复消费的。


、、、

阅读全文
0 0