RabbitMQ

来源:互联网 发布:http协议端口号 编辑:程序博客网 时间:2024/05/16 05:23

引言

你是否遇到过两个(多个)系统间需要通过定时任务来同步某些数据?你是否在为异构系统的不同进程间相互调用、通讯的问题而苦恼、挣扎?如果是,那么恭喜你,消息服务让你可以很轻松地解决这些问题。
消息服务擅长于解决多系统、异构系统间的数据交换(消息通知/通讯)问题,你也可以把它用于系统间服务的相互调用(RPC)。本文将要介绍的RabbitMQ就是当前最主流的消息中间件之一。

RabbitMQ简介

AMQP,即Advanced Message Queuing Protocol,高级消息队列协议,是应用层协议的一个开放标准,为面向消息的中间件设计。消息中间件主要用于组件之间的解耦,消息的发送者无需知道消息使用者的存在,反之亦然。
AMQP的主要特征是面向消息、队列、路由(包括点对点和发布/订阅)、可靠性、安全。
RabbitMQ是一个开源的AMQP实现,服务器端用Erlang语言编写,支持多种客户端,如:Python、Ruby、.NET、Java、JMS、C、PHP、ActionScript、XMPP、STOMP等,支持AJAX。用于在分布式系统中存储转发消息,在易用性、扩展性、高可用性等方面表现不俗。
下面将重点介绍RabbitMQ中的一些基础概念,了解了这些概念,是使用好RabbitMQ的基础。

ConnectionFactory、Connection、Channel

ConnectionFactory、Connection、Channel都是RabbitMQ对外提供的API中最基本的对象。Connection是RabbitMQ的socket链接,它封装了socket协议相关部分逻辑。ConnectionFactory为Connection的制造工厂。
Channel是我们与RabbitMQ打交道的最重要的一个接口,我们大部分的业务操作是在Channel这个接口中完成的,包括定义Queue、定义Exchange、绑定Queue与Exchange、发布消息等。

Queue

Queue(队列)是RabbitMQ的内部对象,用于存储消息,用下图表示。
queue

RabbitMQ中的消息都只能存储在Queue中,生产者(下图中的P)生产消息并最终投递到Queue中,消费者(下图中的C)可以从Queue中获取消息并消费。
qq

多个消费者可以订阅同一个Queue,这时Queue中的消息会被平均分摊给多个消费者进行处理,而不是每个消费者都收到所有的消息并处理。
2014-2-21 9-46-43

Message acknowledgment

在实际应用中,可能会发生消费者收到Queue中的消息,但没有处理完成就宕机(或出现其他意外)的情况,这种情况下就可能会导致消息丢失。为了避免这种情况发生,我们可以要求消费者在消费完消息后发送一个回执给RabbitMQ,RabbitMQ收到消息回执(Message acknowledgment)后才将该消息从Queue中移除;如果RabbitMQ没有收到回执并检测到消费者的RabbitMQ连接断开,则RabbitMQ会将该消息发送给其他消费者(如果存在多个消费者)进行处理。这里不存在timeout概念,一个消费者处理消息时间再长也不会导致该消息被发送给其他消费者,除非它的RabbitMQ连接断开。
这里会产生另外一个问题,如果我们的开发人员在处理完业务逻辑后,忘记发送回执给RabbitMQ,这将会导致严重的bug——Queue中堆积的消息会越来越多;消费者重启后会重复消费这些消息并重复执行业务逻辑…

Message durability

如果我们希望即使在RabbitMQ服务重启的情况下,也不会丢失消息,我们可以将Queue与Message都设置为可持久化的(durable),这样可以保证绝大部分情况下我们的RabbitMQ消息不会丢失。但依然解决不了小概率丢失事件的发生(比如RabbitMQ服务器已经接收到生产者的消息,但还没来得及持久化该消息时RabbitMQ服务器就断电了),如果我们需要对这种小概率事件也要管理起来,那么我们要用到事务。由于这里仅为RabbitMQ的简单介绍,所以这里将不讲解RabbitMQ相关的事务。

Prefetch count

前面我们讲到如果有多个消费者同时订阅同一个Queue中的消息,Queue中的消息会被平摊给多个消费者。这时如果每个消息的处理时间不同,就有可能会导致某些消费者一直在忙,而另外一些消费者很快就处理完手头工作并一直空闲的情况。我们可以通过设置prefetchCount来限制Queue每次发送给每个消费者的消息数,比如我们设置prefetchCount=1,则Queue每次给每个消费者发送一条消息;消费者处理完这条消息后Queue会再给该消费者发送一条消息。
2014-2-21 9-49-08

Exchange

在上一节我们看到生产者将消息投递到Queue中,实际上这在RabbitMQ中这种事情永远都不会发生。实际的情况是,生产者将消息发送到Exchange(交换器,下图中的X),由Exchange将消息路由到一个或多个Queue中(或者丢弃)。
2014-2-21 9-51-03
Exchange是按照什么逻辑将消息路由到Queue的?这个将在Binding一节介绍。
RabbitMQ中的Exchange有四种类型,不同的类型有着不同的路由策略,这将在Exchange Types一节介绍。

routing key

生产者在将消息发送给Exchange的时候,一般会指定一个routing key,来指定这个消息的路由规则,而这个routing key需要与Exchange Type及binding key联合使用才能最终生效。
在Exchange Type与binding key固定的情况下(在正常使用时一般这些内容都是固定配置好的),我们的生产者就可以在发送消息给Exchange时,通过指定routing key来决定消息流向哪里。
RabbitMQ为routing key设定的长度限制为255 bytes。

Binding

RabbitMQ中通过Binding将Exchange与Queue关联起来,这样RabbitMQ就知道如何正确地将消息路由到指定的Queue了。
2014-2-21 9-52-46

Binding key

在绑定(Binding)Exchange与Queue的同时,一般会指定一个binding key;消费者将消息发送给Exchange时,一般会指定一个routing key;当binding key与routing key相匹配时,消息将会被路由到对应的Queue中。这个将在Exchange Types章节会列举实际的例子加以说明。
在绑定多个Queue到同一个Exchange的时候,这些Binding允许使用相同的binding key。
binding key 并不是在所有情况下都生效,它依赖于Exchange Type,比如fanout类型的Exchange就会无视binding key,而是将消息路由到所有绑定到该Exchange的Queue。

Exchange Types

RabbitMQ常用的Exchange Type有fanout、direct、topic、headers这四种(AMQP规范里还提到两种Exchange Type,分别为system与自定义,这里不予以描述),下面分别进行介绍。

fanout

fanout类型的Exchange路由规则非常简单,它会把所有发送到该Exchange的消息路由到所有与它绑定的Queue中。
2014-2-21 9-54-26
上图中,生产者(P)发送到Exchange(X)的所有消息都会路由到图中的两个Queue,并最终被两个消费者(C1与C2)消费。

direct

direct类型的Exchange路由规则也很简单,它会把消息路由到那些binding key与routing key完全匹配的Queue中。
2014-2-21 9-55-20
以上图的配置为例,我们以routingKey=”error”发送消息到Exchange,则消息会路由到Queue1(amqp.gen-S9b…,这是由RabbitMQ自动生成的Queue名称)和Queue2(amqp.gen-Agl…);如果我们以routingKey=”info”或routingKey=”warning”来发送消息,则消息只会路由到Queue2。如果我们以其他routingKey发送消息,则消息不会路由到这两个Queue中。

topic

前面讲到direct类型的Exchange路由规则是完全匹配binding key与routing key,但这种严格的匹配方式在很多情况下不能满足实际业务需求。topic类型的Exchange在匹配规则上进行了扩展,它与direct类型的Exchage相似,也是将消息路由到binding key与routing key相匹配的Queue中,但这里的匹配规则有些不同,它约定:

  • routing key为一个句点号“. ”分隔的字符串(我们将被句点号“. ”分隔开的每一段独立的字符串称为一个单词),如“stock.usd.nyse”、“nyse.vmw”、“quick.orange.rabbit”
  • binding key与routing key一样也是句点号“. ”分隔的字符串
  • binding key中可以存在两种特殊字符“*”与“#”,用于做模糊匹配,其中“*”用于匹配一个单词,“#”用于匹配多个单词(可以是零个)

2014-2-21 9-57-37
以上图中的配置为例,routingKey=”quick.orange.rabbit”的消息会同时路由到Q1与Q2,routingKey=”lazy.orange.fox”的消息会路由到Q1,routingKey=”lazy.brown.fox”的消息会路由到Q2,routingKey=”lazy.pink.rabbit”的消息会路由到Q2(只会投递给Q2一次,虽然这个routingKey与Q2的两个bindingKey都匹配);routingKey=”quick.brown.fox”、routingKey=”orange”、routingKey=”quick.orange.male.rabbit”的消息将会被丢弃,因为它们没有匹配任何bindingKey。

headers

headers类型的Exchange不依赖于routing key与binding key的匹配规则来路由消息,而是根据发送的消息内容中的headers属性进行匹配。
在绑定Queue与Exchange时指定一组键值对;当消息发送到Exchange时,RabbitMQ会取到该消息的headers(也是一个键值对的形式),对比其中的键值对是否完全匹配Queue与Exchange绑定时指定的键值对;如果完全匹配则消息会路由到该Queue,否则不会路由到该Queue。
该类型的Exchange没有用到过(不过也应该很有用武之地),所以不做介绍。

RPC

MQ本身是基于异步的消息处理,前面的示例中所有的生产者(P)将消息发送到RabbitMQ后不会知道消费者(C)处理成功或者失败(甚至连有没有消费者来处理这条消息都不知道)。
但实际的应用场景中,我们很可能需要一些同步处理,需要同步等待服务端将我的消息处理完成后再进行下一步处理。这相当于RPC(Remote Procedure Call,远程过程调用)。在RabbitMQ中也支持RPC。
2014-2-21 9-59-04
RabbitMQ中实现RPC的机制是:

  • 客户端发送请求(消息)时,在消息的属性(MessageProperties,在AMQP协议中定义了14中properties,这些属性会随着消息一起发送)中设置两个值replyTo(一个Queue名称,用于告诉服务器处理完成后将通知我的消息发送到这个Queue中)和correlationId(此次请求的标识号,服务器处理完成后需要将此属性返还,客户端将根据这个id了解哪条请求被成功执行了或执行失败)
  • 服务器端收到消息并处理
  • 服务器端处理完消息后,将生成一条应答消息到replyTo指定的Queue,同时带上correlationId属性
  • 客户端之前已订阅replyTo指定的Queue,从中收到服务器的应答消息后,根据其中的correlationId属性分析哪条请求被执行了,根据执行结果进行后续业务处理

总结

本文介绍了RabbitMQ中个人认为最重要的概念,充分利用RabbitMQ提供的这些功能就可以处理我们绝大部分的异步业务了。
本篇的基本概念可能很难理解并消化,结合实际的应用代码应该会比较容易吸收。所以接下来要写的文章例中会包含实际的业务应用场景分析,为什么使用RabbitMQ来实现,如何用RabbitMQ来实现。




以下内容都是网上摘抄而来,时间久远了,没有保存链接,一时找不到原文出处了。

MQ是一种应用程序和应用程序之间通信的方法,应用程序通过写和检索出入队列的针对应用程序的数据或消息来通信。消息传递指的是程序之间通过在消息中发送数据进行通信,而不是通过直接调用彼此来通信。

MQ是一个典型的消费者-生产者模型。RabbitMQ是一个在AMQP基础上完整的可复用的企业消息系统。

RabbitMQ有四个重要的基本概念:

  • Virtual Host:虚拟主机

  • Exchange: 又称交换机,主要接受和路由消息,将消息发送给消息队列,具有三种类型,direct,fanout,topic

  • Queue: 消息队列是一个特定的缓冲区,代表一组应用程序保存消息

  • Bingding: 将一个特定得Exchange 和特定的Queue绑定,绑定关键字成为BandingKey.

Exchange

ExchangeDirect

Exchange Direct

ExchangeDirectExchangeDirect

Exchange Fanout

ExchangeDirect

Exchange Topic
ExchangeDirectExchangeDirect



此文基本上是从OpenStack官方网站翻译而来,链接在此

Nova在RabbitMQ的基础上实现了RPC(两种形式:一,request+reponse,二:one way,前者是rpc.call,后者是rpc.cast)。每个nova服务在初始化是都会创建两个队列,其中一个接收的消息的routing key形式是’NODE-TYPE.NODE-ID’,例如compute.gb06,另一种routing key形式是‘NODE-TYPE’,例如compute。当API请求需要路由到具体的节点时,则发送消息到前者类型的队列。

每个nova服务都会连接到rabbitmq server来,创建两个消息队列,创建两个Topic consumer. 依赖于服务自身的特点,服务可能使用这个队列作为调用者或者作为工作者。服务作为调用者可以使用rpc.call或者rpc.cast来发送消息到队列,作为工作者,从队列接收消息处理,若是rpc.call则返回response。

补充,在上图中,name:control_exchange,在nova中,该control_exchange的值是nova,type为topic。上图显示了一个rpc.call的过程。其中存在多个概念:

  • Topic Publisher:该对象存始于服务调用rpc.call时,结束与消息发送出去,生命周期短暂。用来将消息发送到队列系统中,每个topic publisher连接于具有topic的exchange。

  • Direct Consumer:该对象存在于服务调用rpc.call之后,专门用来接收rpc.call调用返回的结果,接收结果后销毁。每个direct consumer连接到一个特定msg_id的direct exchange,中间连接一个特定msg_id的队列,该msg_id是一个uuid,由rpc.call发送消息的msg_id决定。

  • Topic Consumer:该对象始于服务的创建,和服务一直共同存在着。用来接收消息队列中的消息。每个Topic Consumer连接到同一个topic的exchange,中间倚靠一个独占或者一个共享的队列连接。每个worker都有两个consumer,一个连接key为topic的队列,一个连接key为topic.host的队列。

  • Direct Publisher:该对象始于rpc.call调用,当response返回时创建,结束与消息的发送,连接这特定msg_id的direct类型的exchange。

由此可见,当调用rpc.call时,需要生成msg_id,指定topic与host,由topic publisher将消息发送到key为topic.host的队列,topic consumer接收到之后,处理生成结果,由Direct Publisher直接发送过去,direct consumer接收到返回结果,完成调用。

下图是rpc.cast的过程,与rpc.call相比,差别在于消息经过的队列是key为topic的共享队列,没有返回结果,过程相较简单多了。

Nova使用Kombu来连接RabbitMQ server。Kombu是一个Python库,实现了标准的AMQP 0.8版的协议。当使用Kombu时,调用者和工作者都需要一些参数来初始化对RabbitMQ Server 的连接对象。Hostname,userid,password,virtual_host,port除了上面一些,还有三个默认变量:* Insist:默认值false,对server的一个持续的connection* Connect_timeout:默认是没有timeout的* SSL:使用SSL来连接server,默认为false

作为consumer,还需要更多的参数,如下:* Connection:连接rabbitmq server的对象* Queue,Exchange,Routing_Key* Durable:默认为true,决定了queue和exchange的持续性,如果是durable queue 和exchange,那么当rabbitmq server重启之后,这些queue 和exchange都在。* Auto_delete:默认false,如果为true,当所有的queue都没了,和他们绑定的exchange就结束。* Exclusive:独占的队列只能被当前连接的consumer使用,当设置了Exclusive,这预示着auto_delete* Exchange_type,auto_ack(默认为false,收到消息后的自动回答),no_ack(关闭了回复,牺牲了稳定性换来了性能))


下面将描述的内容都是基于OpenStack Folsom版本代码。参考这两篇博文,这儿和这儿

文章中后面两张图片是visio画的,如果看不清除,可以直接通过文章后给出的链接下载。

在这一部分,重点分析nova(以下均以nova-compute为例)中是如何使用RabbitMQ来实现不同服务之间的通信的,rpc调用到底是怎么实现的,中间涉及到哪些python新知识和设计模式。

在nova服务启动的过程中,会有如下一些与rpc相关的代码,具体截图如下。

这八行代码就是我们敲开rpc实现的入口。这六行代码分为三个步骤,一个是创建一个与RabbitMQ Server的连接;一个是rpc_dispatcher,简单的理解是一个callback函数;一个是创建消费者,典型的队列中的生产者和消费者模式。

首先分解rpc.create_connection部分。

上图描绘了使用nova中rpc的各种类之间的关系图。

从412行代码rpc.create_connection开始,调用rpc模块中__init__文件的create_connection 函数,该函数会判断到底使用什么样的rpc_driver,这个已经在配置文件中配置好了,以下都假设使用impl_kombu driver。

然后调用impl_kombu模块中的create_connection函数,该函数随即调用ampq.py文件中的create_function,再调用时传递的一个参数是connection_pool,此时就创建这个connection_pool,若Connection类中的类属性pool没赋值,则创建,若已经复制,则返回。这样还确保了一个全局唯一的pool,有点单态模式的味道。通过上图,已经知道pool是使用eventlet中的pools.pool来实现的,pool中存储的就是connection实例。

在amqp.py文件中的create_connection函数就直接返回一个ConnectionContext的实例,该实例在初始化时,会创建一个connection实例,如果ConnectionContext初始化时的参数pooled为true,就从pool中取出,否则就创建,该connection实例就完成了对RabbitMQ Server的连接。ConnectionContext实例重载了__enter__和__exit__函数,就可以使用with语句了。

总之,一句话,第412行代码返回一个ConnectionContext的实例。

从前面我们已经知道self.manager是nova.compute.manager.ComputeManager的实例。

上图是manager相关类的关系图,细看这些关系,ComputeManager继承于manager,调用manager的create_rpc_dispatcher会返回一个RpcDispatcher的实例,该实例的存在一个callbacks的列表,这个callbacks存在一个元素就是manager这个实例。RpcDispatcher类还存在一个dispatch方法,该方法会调用msg指定的函数,这个函数是manager实例的一个方法。

总之,self.manager.create_rpc_dispatcher返回的是RpcDispatcher这么一个用来回调的实例。Nova-compute服务启动的过程中,要创建三个持久的consumer,两个topic consumer,差别在于绑定的队列的key(topic:compute; topic:compute.gb07)一个fanout consumer。

创建consumer,最终会由Connection中的create_consumer函数来完成。第一篇文章中介绍过RabbitMQ具有不同类型的Exchange,下面这张图就描述代码中关于Exchange的consumer关系。

  • RPC.vsd
  • Manager.vsd
  • consumer.vsd


总结下openstack中rpc的机制。

总之,RabbitMQ 提供的是一个消息队列,那么很自然的使用这个RabbitMQ的方式是经典的生产者-消费者模式。故存在一个或多个生产者publisher,向队列中发送消息,同样存在一个或多个消费者consumer来读取消息。由于需要发送的消息很多,发往的不同消费者也多,因此需要将消息发送到不同的队列,这样存在一个exchange来将消息路由到不同的队列,队列需要一个key,则消息需要一个对应的key。所以使用RabbitMQ需要这几个基本的对象queue,exchange(它们均由RabbitMQ来维护)。因此,还需要存在一个connection来连接RabbitMQ Server。同时由于需要多个connection,故使用eventlets.pools.pool来维护一个全局的pool,来管理这些connection。

Publisher通过connection将消息按照method和args的方式发送到RabbitMQ Server对应的队列上,Consumer则轮询该队列,有了msg,则通过connection将该msg取出来,解析出msg的method和args,由于consumer在创建时,已经注册了一个callback函数,由于不同的msg需要调用不同的method,为了解决这个问题,故使用了一个RpcProxy来代理这个callback函数。所以consumer取出msg后,调用RpcProxy来处理msg,最后完成msg指定方法的调用。由于msg特别多,执行的任务时间也长,故是使用greenthread来执行每个method。

除了上面的大致流程分析之外,还需要考虑下面这些问题。

  • API版本的处理技巧
  • 中间涉及到的较多context,如何处理的
  • 多线程是如何避免死锁问题的
  • 这套rpc机制是如何实现对不同的ampq实现方式的支持

当然,这些都是技术层面的技术问题,并没有解释出为什么使用RabbitMQ来进行通信,其他分布式文件系统中也需要RPC来完成远程通信,却不是选择得消息队列方式,这些有什么区别。还有RabbitMQ运用在这个平台上,是否还有哪些欠缺的地方,这些更需要了解!



0 0
原创粉丝点击