Kafka 消息偏移量的维护

来源：互联网发布：数据库基础知识总结编辑：程序博客网时间：2024/06/05 19:11

Kafka是大数据领域常用的消息队列，其高效的吞吐量和分布式容错等特性是其收到青睐的重要原因。

kafka消息的位置

用好Kafka，维护其消息偏移量对于避免消息的重复消费与遗漏消费,确保消息的Exactly-once是至关重要的。
kafka的消息所在的位置Topic、Partitions、Offsets三个因素决定。
Kafka消费者消费的消息位置还与consumer的group.id有关。

名称含义 earlieastLeaderOffsets 存储在broker上的leader节点的最早的消息偏移量 consumerOffsets 消费者消费的消息偏移量位置

为了表述方便，我们记earlieastLeaderOffsets为A，记consumerOffsets为B 。

我们知道，存储在broker上的kafka的消息常设置消息过期配置，当到达过期时间时过期的消息将会被清除。

情况二：如果A 依然小于 B，则仍可以正常消费：
情况三：然而，当 A > B 时，则说明还没有被消费的消息已经被清除：

此种情况会抛出 kafka.common.OffsetOutOfRangeException 异常。

当情况三发生时，在（B，A）区间内的消息还没有被消费就已经被清除了，将导致两个后果。
1. 消息丢失。
2. 抛出 kafka.common.OffsetOutOfRangeException 异常。

在对消息完整性有严格要求的系统中，消息的丢失造成的影响会比较严重，所以在这种情况下，要保证消息不会遭到丢失。
避免消息丢失包含两个方面：

还没有被消费过的消息不会被清除。
在没有外部系统清除kafka消息的情况下，协调设置broker的最大保留大小 log.retention.bytes 和最大保留时间log.retention.hours 等，来配合消费者端的读取消息。可以通过读取和监控消费者消费的offsets，来保证消息不会被意外清除。
消费者端消费消息没有遗漏。
当消费者意外中断时，重新启动消费时能够从上一次中断的消息偏移量开始消费。

阅读全文

0 0