Kafka入门及使用(一)- kafka架构介绍

来源:互联网 发布:如何做seo 编辑:程序博客网 时间:2024/06/02 00:06

从发送模型上来看分为消息系统分为两类:

1、Peer-to-Peer

  • 一般基于Pull或者Polling 接收消息。
  • 发送到队列中的消息被一个而且仅仅一个接收者锁接收。即使有多个接收者在同一个队列中侦听同一消息。
  • 既支持异步“即发即弃”的消息传送方式,也支持同步请求/应答传送方式。

    单播模型

2、发布/订阅

  • 发布到一个主题的消息,可被多个订阅者所接收
  • 发布/订阅即可基于Push消费数据,也可以基于Pull或者Polling消费数据。
  • 解耦能力比P2P模型更强。
    多播模型

kafka同时支持topic的单播和多播。

消息系统实用场景:

  • 解耦 各位系统之间通过消息系统这个统一的接口交换数据,无须了解彼此的存在。
  • 冗余 部分消息系统具有消息持久化能力,可规避消息处理前丢失的风险。
  • 扩展 消息系统是统一的数据接口,各系统可独立扩展。
  • 峰值处理能力 消息系统可顶住峰值流量,业务系统可根据处理能力从消息系统中获取并处理对应量的请求。
  • 可恢复性 系统中部分组件失效并不会影响整个系统,它恢复后仍然可从消息系统中获取并处理数据。
  • 异步通信 在不需要立即处理请求的场景下,可以将请求放入消息系统,合适的时候再处理。

常用消息系统对比:

  • RabbitMQ 使用Erlang编写的一个开源的消息队列,本身支持很多的协议:AMQP,XMPP, SMTP, STOMP,也正因如此,它非常重量级,更适合于企业级的开发。同时实现了Broker构架,这意味着消息在发送给客户端时先在中心队列排队。对路由,负载均衡或者数据持久化都有很好的支持。

  • Redis Redis是一个基于Key-Value对的NoSQL数据库,开发维护很活跃。虽然它是一个Key-Value数据库存储系统,但它本身支持MQ功能,所以完全可以当做一个轻量级的队列服务来使用。对于RabbitMQ和Redis的入队和出队操作,各执行100万次,每10万次记录一次执行时间。测试数据分为128Bytes、512Bytes、1K和10K四个不同大小的数据。实验表明:入队时,当数据比较小时Redis的性能要高于RabbitMQ,而如果数据大小超过了10K,Redis则慢的无法忍受;出队时,无论数据大小,Redis都表现出非常好的性能,而RabbitMQ的出队性能则远低于Redis。

  • ZeroMQ ZeroMQ号称最快的消息队列系统,尤其针对大吞吐量的需求场景。ZMQ能够实现RabbitMQ不擅长的高级/复杂的队列,但是开发人员需要自己组合多种技术框架,技术上的复杂度是对这MQ能够应用成功的挑战。ZeroMQ具有一个独特的非中间件的模式,你不需要安装和运行一个消息服务器或中间件,因为你的应用程序将扮演这个服务器角色。你只需要简单的引用ZeroMQ程序库,可以使用NuGet安装,然后你就可以愉快的在应用程序之间发送消息了。但是ZeroMQ仅提供非持久性的队列,也就是说如果宕机,数据将会丢失。其中,Twitter的Storm 0.9.0以前的版本中默认使用ZeroMQ作为数据流的传输(Storm从0.9版本开始同时支持ZeroMQ和Netty作为传输模块)。

  • ActiveMQ Apache下的一个子项目。 类似于ZeroMQ,它能够以代理人和点对点的技术实现队列。同时类似于RabbitMQ,它少量代码就可以高效地实现高级应用场景。JMS实现,Peer-to-Peer,支持持久化、 XA事务。

  • Kafka/Jafka 高性能跨语言的分布式发布/订阅消息系统,数据持久化,全分布式,同时支持在线和离线处理。不支持XA分布式事务。Kafka是Apache下的一个子项目,是一个高性能跨语言分布式发布/订阅消息队列系统,而Jafka是在Kafka之上孵化而来的,即Kafka的一个升级版。具有以下特性:快速持久化,可以在O(1)的系统开销下进行消息持久化;高吞吐,在一台普通的服务器上既可以达到10W/s的吞吐速率;完全的分布式系统,Broker、Producer、Consumer都原生自动支持分布式,自动实现负载均衡;支持Hadoop数据并行加载,对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka通过Hadoop的并行加载机制统一了在线和离线的消息处理。Apache Kafka相对于ActiveMQ是一个非常轻量级的消息系统,除了性能非常好之外,还是一个工作良好的分布式系统。

  • MetaQ/RocketMQ 纯Java实现,发布/订阅消息系统,支持本地事务和XA分布式事务。

Kafka设计目标:

  • 高吞吐率 在廉价的商用机器上单机可支持每秒100万条消息的读写。
  • 消息持久化 所有消息均被持久化到磁盘,无消息丢失,支持消息重放。
  • 完全分布式 Producer,Broker,Consumer均支持水平扩展。
  • 同时适应在线流处理离线批处理。对接spark及hadoop。

Kafka架构图:

这里写图片描述

  • Broker Kafka集群包含一个或多个服务器,这种服务器被称为broker。
  • Topic 每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。(物理上不同Topic的消息分开存储,逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处)
  • Partition Parition是物理上的概念,每个Topic包含一个或多个Partition.
  • Producer 负责发布消息到Kafka broker。
  • Consumer 消息消费者,向Kafka broker读取消息的客户端。
  • Consumer Group 每个Consumer属于一个特定的Consumer Group(可为每个Consumer指定group name,若不指定group name则属于默认的group)。
阅读全文
0 0