强大的分布式消息中间件——kafka

来源：互联网发布：淘宝需要营业执照吗编辑：程序博客网时间：2024/05/18 00:00

在我们大量使用分布式数据库、分布式计算集群的时候，是否会遇到这样的一些问题：

l 我想分析一下用户行为（pageviews），以便我能设计出更好的广告位

l 我想对用户的搜索关键词进行统计，分析出当前的流行趋势。这个很有意思，在经济学上有个长裙理论，就是说，如果长裙的销量高了，说明经济不景气了，因为姑娘们没钱买各种丝袜了。

l 有些数据，我觉得存数据库浪费，直接存硬盘又怕到时候操作效率低。

这个时候，我们就可以用到分布式消息系统了。虽然上面的描述更偏向于一个日志系统，但确实kafka在实际应用中被大量的用于日志系统。

首先我们要明白什么是消息系统，在kafka官网上对kafka的定义叫：A distributed publish-subscribe messaging system。publish-subscribe是发布和订阅的意思，所以更准确的说kafka是一个消息订阅和发布的系统。publish-subscribe这个概念很重要，因为kafka的设计理念就可以从这里说起。

我们将消息的发布（publish）暂时称作producer，将消息的订阅（subscribe）表述为consumer，将中间的存储阵列称作broker，这样我们就可以大致描绘出这样一个场面：

生产者（蓝色，蓝领么，总是辛苦点儿）将数据生产出来，丢给broker进行存储，消费者需要消费数据了，就从broker中去拿出数据来，然后完成一系列对数据的处理。

乍一看这也太简单了，不是说了它是分布式么，难道把producer、broker和consumer放在三台不同的机器上就算是分布式了么。我们看kafka官方给出的图：

多个broker协同合作，producer和consumer部署在各个业务逻辑中被频繁的调用，三者通过zookeeper管理协调请求和转发。这样一个高性能的分布式消息发布与订阅系统就完成了。图上有个细节需要注意，producer到broker的过程是push，也就是有数据就推送到broker，而consumer到broker的过程是pull，是通过consumer主动去拉数据的，而不是broker把数据主动发送到consumer端的。