Spark学习笔记（31）Kafka原理内幕和集群构建与测试实战

来源：互联网发布：html 炫酷展示页源码编辑：程序博客网时间：2024/06/13 02:36

本期内容：

1. Kafka原理内幕

2. Kafka集群实战

Spark Streaming是处理层面的，Kafka相当于流程控制和数据控制的层面。
Kafka就是消息中间件。分布式的，可以扩展规模。可以对消息持久化。默认是7天，意思是，不管是否已消费，消息7天之后会被删除。有队列方式，也有发布者和订阅者方式。事务方面，kafka不行。是个粘合器，打破信息孤岛。

Kafka观点：数据时时刻刻是流动的。基于内核之间进行数据的交换，虽然数据在磁盘中，数据是近乎内存的速度。数据进出没有必要放入内存空间。

Kafka也可以是监控机器终端的CPU、内存等各种状况数据的消息中间件。理论上讲可以存储任意规模的数据。

可以处理离线、在线的数据。

Kafka不处理数据，没必要把数据放在Application的buffer上，而是基于内存的读取和传输，通过内核进行Socket传输。

Kafka是进行Topic消息分组。consumer基于Topic去获取数据。sendfile是文件数据交互的机制。重要的概念有上下文。

push、pull方式。使用Zookeeper注册和管理broker和consumer。

消息的一致性。Kafka中数据没有id，有offset。如果consumer出错，重新启动consumer，就可以从最近的offset开始处理。kafka自己保存offset。kafka无状态，数据是可以重复消费的。

、、、

阅读全文

0 0