zookeeper介绍（一）

来源：互联网发布：怎么在淘宝买伟哥编辑：程序博客网时间：2024/06/05 06:43

转载自：http://blog.chinaunix.net/uid-13875633-id-4551483.html
http://blog.jpush.cn/push_zookeeper_study_usage/
http://blog.mimvp.com/2013/11/zookeeper-working-principle/

1.总体结构

Zookeeper服务自身组成一个集群(2n+1个服务允许n个失效)。Zookeeper服务中leader，负责写服务和数据同步，follower提供读服务，leader失效后会在follower中重新选举新的leader。
Zookeeper中的角色：

系统模型如图所示：

1. 客户端可以连接到每个server，每个server的数据完全相同。
2. 每个follower都和leader有连接，接受leader的数据更新操作。
3. Server记录事务日志和快照到持久存储。
4. 大多数server可用，整体服务就可用。
Leader和各个follower是互相通信的，对于zookeeper系统的数据都是保存在内存里面的，同样也会备份一份在磁盘上。对于每个zookeeper节点而言，可以看做每个zookeeper节点的命名空间是一样的，也就是有同样的数据。如果Leader挂了，zookeeper集群会重新选举，在毫秒级别就会重新选举出一个Leaer ，集群中除非有一半以上的zookeeper节点挂了，zookeeper service才不可用。

2.特点

最终一致性：client不论连接到哪个Server，展示给它都是同一个视图，这是zookeeper最重要的性能。
可靠性：具有简单、健壮、良好的性能，如果消息m被到一台服务器接受，那么它将被所有的服务器接受。
实时性：Zookeeper保证客户端将在一个时间间隔范围内获得服务器的更新信息，或者服务器失效的信息。但由于网络延时等原因，Zookeeper不能保证两个客户端能同时得到刚更新的数据，如果需要最新数据，应该在读数据之前调用sync()接口。
等待无关（wait-free）：慢的或者失效的client不得干预快速的client的请求，使得每个client都能有效的等待。
原子性：更新只能成功或者失败，没有中间状态。
顺序性：包括全局有序和偏序两种：全局有序是指如果在一台服务器上消息a在消息b前发布，则在所有Server上消息a都将在消息b前被发布；偏序是指如果一个消息b在消息a后被同一个发送者发布，a必将排在b前面。

3.工作原理

Zookeeper的核心是原子广播，这个机制保证了各个Server之间的同步。实现这个机制的协议叫做Zab协议。Zab协议有两种模式，它们分别是恢复模式（选主）和广播模式（同步）。当服务启动或者在领导者崩溃后，Zab就进入了恢复模式，当领导者被选举出来，且大多数Server完成了和leader的状态同步以后，恢复模式就结束了。状态同步保证了leader和Server具有相同的系统状态。
为了保证事务的顺序一致性，zookeeper采用了递增的事务id号（zxid）来标识事务。每次变更会有一个唯一的zxid，如果zxid1小于zxid2说明zxid1在zxid2之前发生。所有的提议（proposal）都在被提出的时候加上了zxid。实现中zxid是一个64位的数字，它高32位是epoch用来标识leader关系是否改变，每次一个leader被选出来，它都会有一个新的epoch，标识当前属于那个leader的统治时期。低32位用于递增计数。
当leader崩溃或者leader失去大多数的follower，这时候zookeeper进入恢复模式，恢复模式需要重新选举出一个新的leader，让所有的Server都恢复到一个正确的状态。zookeeper的选举算法有两种：一种是基于basic paxos实现的，另外一种是基于fast paxos算法实现的。系统默认的选举算法为fast paxos。选完leader以后，zookeeper就进入状态同步过程。
Leader主要有三个功能：1.恢复数据；2.维持与Learner的心跳，接收Learner请求并判断Learner的请求消息类型；3.Learner的消息类型主要有PING消息、REQUEST消息、ACK消息、REVALIDATE消息，根据不同的消息类型，进行不同的处理。
Follower主要有四个功能：1.向Leader发送请求（PING消息、REQUEST消息、ACK消息、REVALIDATE消息）； 2 .接收Leader消息并进行处理；3 .接收Client的请求，如果为写请求，发送给Leader进行投票；4 .返回Client结果。

4.数据模型

Zookeeper表现为一个分层的文件系统目录树结构（不同于文件系统的是，节点可以有自己的数据，而文件系统中的目录节点只有子节点）。它和linux的文件系统很像，也是树状，这样就可以确定每个路径都是唯一的，对于命名空间的操作必须都是绝对路径操作。与linux文件系统不同的是，linux文件系统有目录和文件的区别，而在ZooKeeper树中的每个节点被称为一个znode。一个znode节点可以包含子znode，同时也可以包含数据。
Znodes包含了一个stat数据结构，这个数据结构包括了数据变更的版本号、acl变更。stat数据结构也有时间戳，版本号和时间戳一起来允许ZooKeeper校验缓存和协调更新。每当一个znode的数据改变，版本号就会增加。例如：当一个客户端取得数据，它同样也接受数据的版本。并且，当一个客户端执行一个更新或删除操作，它必须提供数据的版本号。如果客户端提供的的版本号和实际的版本号不匹配，更新操作将会失败。
数据模型结构图如下：

一个节点对应一个应用，节点存储的数据就是应用需要的配置信息。比如/ app1，/是一个znode，/app1是/的子znode，/app1还可以包含数据，/ app1/p_1是/app1子znode，它也可以包含数据。

5.读写数据

写数据，当一个客户端进行写数据请求时，会指定zookeeper集群中节点，如果是follower接收到写请求，就会把请求转发给Leader，Leader通过内部的Zab协议进行原子广播，直到所有zookeeper节点都成功写了数据后（内存同步以及磁盘更新），这次写请求算是完成，然后service就会给client发回响应。znode的数据要少于1M，或者应该更小。
读数据，因为集群中所有的zookeeper节点都呈现一个同样的命名空间视图（就是结构数据），上面的写请求已经保证了写一次数据必须保证集群所有的zookeeper节点都是同步命名空间的，所以读的时候可以在任意一台zookeeper节点上。

0 0