kafka

来源：互联网发布：中化蓝天网络商学院编辑：程序博客网时间：2024/06/16 23:55

kafka高性能吞吐揭秘、原理分析

主要：http://blog.csdn.net/suifeng3051/article/details/48053965

http://bbs.umeng.com/thread-12086-1-1.html

kafka运行环境优化分析

http://blog.csdn.net/lizhitao/article/details/41777571

kafka高性能的特点及条件

kafka是一个高吞吐量分布式消息系统，并且提供了持久化。其高性能的有两个重要特点：

利用了磁盘连续读写性能远远高于随机读写的特点；
并发，将一个topic拆分多个partition。

要充分发挥kafka的性能，就需要满足这两个条件。linkedin的测试，就把这两个方面发挥到极致（参考http://engineering.linkedin.com/kafka/benchmarking-apache-kafka-2-million-writes-second-three-cheap-machines）

磁盘的连续性

要充分利用磁盘连续读写高性能的特点，就意味着要减少操作系统对磁盘的重新调度。kakfa内部的实现非常巧妙：

生产：网络 —> pagecache(内存) —>磁盘

消费：磁盘 —> 网络（使用sendfile将磁盘数据直接拷贝到网卡发送缓冲区）

这样的设计使得，写磁盘的机会仅仅是pagecache需要flush到磁盘的时候；这样保证了大多数时候磁盘可以连续地读取，而且直接复制到网卡，避免消费影响到生产（写入内存）。另外，使用文件系统pagecache而不是自建缓存，还利用pagecache对于 sendfile来说是透明的优势，也就是在没有消息堆积时，数据流动实际时pagecahe直接到网卡，减少磁盘io又保证及时消费。

并发，将topic拆分多个partition

kafka读写的单位是partition，因此，将一个topic拆分为多个partition可以提高吞吐量。但是，这里有个前提，就是不同partition需要位于不同的磁盘（可以在同一个机器）。如果多个partition位于同一个磁盘，那么意味着有多个进程同时对一个磁盘的多个文件进行读写，使得操作系统会对磁盘读写进行频繁调度，也就是破坏了磁盘读写的连续性。

在linkedlin的测试中，每台机器就加载了6个磁盘，并且不做raid，就是为了充分利用多磁盘并发读写，又保证每个磁盘连续读写的特性。

具体配置上，是将不同磁盘的多个目录配置到broker的log.dirs，例如
log.dirs=/disk1/kafka-logs,/disk2/kafka-logs,/disk3/kafka-logs
kafka会在新建partition的时候，将新partition分布在partition最少的目录上，因此，一般不能将同一个磁盘的多个目录设置到log.dirs

kafka server部署配置优化

http://blog.csdn.net/lizhitao/article/details/42180265

好文章：http://bbs.umeng.com/forum.php?mod=viewthread&tid=12479&page=1&authorid=17785

配置优化都是修改server.properties文件中参数值

网络和io操作线程配置优化

# broker处理消息的最大线程数
num.network.threads=xxx
# broker处理磁盘IO的线程数
num.io.threads=xxx

建议配置：

一般num.network.threads主要处理网络io，读写缓冲区数据，基本没有io等待，配置线程数量为cpu核数加1.

num.io.threads主要进行磁盘io操作，高峰期可能有些io等待，因此配置需要大些。配置线程数量为cpu核数2倍，最大不超过3倍.

2. log数据文件刷盘策略
为了大幅度提高producer写入吞吐量，需要定期批量写文件。
建议配置：

# 每当producer写入10000条消息时，刷数据到磁盘 log.flush.interval.messages=10000

# 每间隔1秒钟时间，刷数据到磁盘
log.flush.interval.ms=1000

3. 日志保留策略配置
当kafka server的被写入海量消息后，会生成很多数据文件，且占用大量磁盘空间，如果不及时清理，可能磁盘空间不够用，kafka默认是保留7天。
建议配置：

# 保留三天，也可以更短

log.retention.hours=72

# 段文件配置1GB，有利于快速回收磁盘空间，重启kafka加载也会加快(如果文件过小，则文件数量比较多，
# kafka启动时是单线程扫描目录(log.dir)下所有数据文件)

log.segment.bytes=1073741824

4.配置jmx服务
kafka server中默认是不启动jmx端口的，需要用户自己配置

[lizhitao@root kafka_2.10-0.8.1]$ vim bin/kafka-run-class.sh

#最前面添加一行

JMX_PORT=8060

配置文件参数说明

server.properties配置文件参数说明

http://blog.csdn.net/lizhitao/article/details/25667831

http://debugo.com/kafka-params/

设计原理

非常好：http://blog.csdn.net/suifeng3051/article/details/48053965

把消息日志以Partition的形式存放有多重考虑，第一，方便在集群中扩展，每个Partition可以通过调整以适应它所在的机器，而一个topic又可以有多个Partition组成，因此整个集群就可以适应任意大小的数据了；第二就是可以提高并发，因为可以以Partition为单位读写了。
Apache kafka 是一个分布式的基于push-subscribe的消息系统，它具备快速、可扩展、可持久化的特点。它现在是Apache旗下的一个开源系统，作为hadoop生态系统的一部分，被各种商业公司广泛应用。它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/spark流式处理引擎。
Consumergroup：各个consumer可以组成一个组，每个消息只能被组中的一个consumer消费，如果一个消息可以被多个consumer消费的话，那么这些consumer必须在不同的组。
消息状态：在Kafka中，消息的状态被保存在consumer中，broker不会关心哪个消息被消费了被谁消费了，只记录一个offset值（指向partition中下一个要被消费的消息位置），这就意味着如果consumer处理不好的话，broker上的一个消息可能会被消费多次。
批量发送：Kafka支持以消息集合为单位进行批量发送，以提高push效率。
push-and-pull : Kafka中的Producer和consumer采用的是push-and-pull模式，即Producer只管向broker push消息，consumer只管从broker pull消息，两者对消息的生产和消费是异步的。
离线数据装载：Kafka由于对可拓展的数据持久化的支持，它也非常适合向Hadoop或者数据仓库中进行数据装载。

应用场景

日志收集：一个公司可以用Kafka可以收集各种服务的log，通过kafka以统一接口服务的方式开放给各种consumer，例如hadoop、Hbase、Solr等
消息系统：解耦和生产者和消费者、缓存消息等。
用户活动跟踪：Kafka经常被用来记录web用户或者app用户的各种活动，如浏览网页、搜索、点击等活动，这些活动信息被各个服务器发布到kafka的topic中，然后订阅者通过订阅这些topic来做实时的监控分析，或者装载到hadoop、数据仓库中做离线分析和挖掘。
运营指标：Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据，生产各种操作的集中反馈，比如报警和报告。
流式处理：比如spark streaming和storm
事件源

为什么说Kafka使用磁盘比内存快

http://www.jianshu.com/p/a1e593f7c3d2

磁盘的顺序读写

其实Kafka最核心的思想是使用磁盘，而不是使用内存，可能所有人都会认为，内存的速度一定比磁盘快，我也不例外。在看了Kafka的设计思想，查阅了相应资料再加上自己的测试后，发现磁盘的顺序读写速度和内存持平。

而且Linux对于磁盘的读写优化也比较多，包括read-ahead和write-behind，磁盘缓存等。如果在内存做这些操作的时候，一个是JAVA对象的内存开销很大，另一个是随着堆内存数据的增多，JAVA的GC时间会变得很长，使用磁盘操作有以下几个好处：

磁盘缓存由Linux系统维护，减少了程序员的不少工作。
磁盘顺序读写速度超过内存随机读写。
JVM的GC效率低，内存占用大。使用磁盘可以避免这一问题。
系统冷启动后，磁盘缓存依然可用。

0 0