kafka常见问题汇总

来源：互联网发布：剑三菊花dbm数据编辑：程序博客网时间：2024/06/08 07:28

1、kafka集群中常见错误的解决方法：kafka.common.KafkaException: Should not set log end offset on partition

问题描述：kafka单台机器做集群操作是没有问题的，如果分布多台机器并且partitions或者备份的个数大于1都会报kafka.common.KafkaException: Should not set log end offset on partition 这个错误，如果使用kafka默认的日志等级，过不了几分钟错误日志就会把磁盘刷满，导致服务器down掉。

这个问题困扰了我几天，怎么搞都不行，开始以为是版本问题，升级到最新版本问题还是存在，后来在官方FQA中找到了一段描述，原文如下：

Why do I see error "Should not set log end offset on partition" in the broker log?

Typically, you will see errors like the following.

kafka.common.KafkaException: Should not set log end offset on partition [test,22]'s local replica 4

ERROR [ReplicaFetcherThread-0-6], Error for partition [test,22] to broker 6:class kafka.common.UnknownException(kafka.server.ReplicaFetcherThread)

A common problem is that more than one broker registered the same host/port in Zookeeper. As a result, the replica fetcher is confused when fetching data from the leader. To verify that, you can use a Zookeeper client shell to list the registration info of each broker. The Zookeeper path and the format of the broker registration is described in Kafka data structures in Zookeeper. You want to make sure that all the registered brokers have unique host/port.

这段内容的大意思是不允许在zookeeper上注册来自同一个主机+端口的brokers，开始我以为是同一台机器上挂了二个brokers的缘故，因为机器上我同时布署了solr与kafka，都用的同一个zookeeper服务，于是我把kafka的broker改成/chroot的方式，在zookeeper上加了一级节点：（原来的brokers写法：192.168.12.206:2181,192.168.12.208:2181，改为：192.168.12.206:2181,192.168.12.208:2181/kafka)
经测试还是一样的结果，我实在是没撤了，最后我又仔细看了一下错误日志，发现一个规律，都是在分区备份的时候发生的此错误，所以我就在想是不是服务器之间数据同步有问题。

接着我打开kafka的配置文件，逐一往下看，发现了host.name属性，我心中已经有一半相信是这个参数配置的问题，因为我没有启动这个参数，于是我把它改成实际的IP地址，如host.name=192.168.12.206，另一台也如是改，最后发现错误不报了，收发消息正常，于是我知道这个参数在默认不配置的时候，绑定的是当前主机127.0.0.1，所以集群中主机之间进行相互备份的时候通过127.0.0.1找不到主机了。

有二个方面的原因导致一直查不出问题，一是网上关于此问题的说明实在是少的可怜，有也都是千篇一律，查到的结果都一样，另一个原因是配置文件的注释让人误解，如host.name的注释：

# Hostname the broker will bind to. If not set, the server will bind to all interfaces

从字面意思理解不就是“如果不设置，服务器将绑定到所有接口”，所以我想应该不设置也不会有问题。

这么简单的问题，居然折腾了我几天，所以写出来，仅供参考。

(1) 如果想消费已经被消费过的数据

consumer是底层采用的是一个阻塞队列，只要一有producer生产数据，那consumer就会将数据消费。当然这里会产生一个很严重的问题，如果你重启一消费者程序，那你连一条数据都抓不到，但是log文件中明明可以看到所有数据都好好的存在。换句话说，一旦你消费过这些数据，那你就无法再次用同一个groupid消费同一组数据了。

原因：消费者消费了数据并不从队列中移除，只是记录了offset偏移量。同一个consumergroup的所有consumer合起来消费一个topic，并且他们每次消费的时候都会保存一个offset参数在zookeeper的root上。如果此时某个consumer挂了或者新增一个consumer进程，将会触发kafka的负载均衡，暂时性的重启所有consumer，重新分配哪个consumer去消费哪个partition，然后再继续通过保存在zookeeper上的offset参数继续读取数据。注意:offset保存的是consumer 组消费的消息偏移。

要消费同一组数据，你可以

1 采用不同的group。

2 通过一些配置，就可以将线上产生的数据同步到镜像中去，然后再由特定的集群区处理大批量的数据。

(2) 如何自定义去消费已经消费过的数据

Conosumer.properties配置文件中有两个重要参数

auto.commit.enable：如果为true，则consumer的消费偏移offset会被记录到zookeeper。下次consumer启动时会从此位置继续消费。

auto.offset.reset 该参数只接受两个常量largest和Smallest,分别表示将当前offset指到日志文件的最开始位置和最近的位置。

如果进一步想控制时间，则需要调用SimpleConsumer，自己去设置相关参数。比较重要的参数是 kafka.api.OffsetRequest.EarliestTime()和kafka.api.OffsetRequest.LatestTime()分别表示从日志（数据）的开始位置读取和只读取最新日志。

如何使用SimpleConsumer

首先，你必须知道读哪个topic的哪个partition

然后，找到负责该partition的broker leader，从而找到存有该partition副本的那个broker

再者，自己去写request并fetch数据

最终，还要注意需要识别和处理brokerleader的改变

2kafka partition和consumer数目关系

1. 如果consumer比partition多，是浪费，因为kafka的设计是在一个partition上是不允许并发的，所以consumer数不要大于partition数。
    2. 如果consumer比partition少，一个consumer会对应于多个partitions，这里主要合理分配consumer数和partition数，否则会导致partition里面的数据被取的不均匀。最好partiton数目是consumer数目的整数倍，所以partition数目很重要，比如取24，就很容易设定consumer数目。
   3. 如果consumer从多个partition读到数据，不保证数据间的顺序性，kafka只保证在一个partition上数据是有序的，但多个partition，根据你读的顺序会有不同
   4. 增减consumer，broker，partition会导致rebalance，所以rebalance后consumer对应的partition会发生变化

3kafka topic 副本问题

Kafka尽量将所有的Partition均匀分配到整个集群上。一个典型的部署方式是一个Topic的Partition数量大于Broker的数量。

(1) 如何分配副本:

Producer在发布消息到某个Partition时，先通过ZooKeeper找到该Partition的Leader，然后无论该Topic的Replication Factor为多少（也即该Partition有多少个Replica），Producer只将该消息发送到该Partition的Leader。Leader会将该消息写入其本地Log。每个Follower都从Leader pull数据。这种方式上，Follower存储的数据顺序与Leader保持一致。

(2) Kafka分配Replica的算法如下：

(1)将所有Broker（假设共n个Broker）和待分配的Partition排序

(2)将第i个Partition分配到第（imod n）个Broker上

(3)将第i个Partition的第j个Replica分配到第（(i + j) mode n）个Broker上