zookeepr 杂讲

来源：互联网发布：mac添加农历编辑：程序博客网时间：2024/06/01 08:42

zookeeper 是通过zab 保证顺序性和一致性，基于paxos算法 http://www.aboutyun.com/thread-13828-1-1.html

保持分布式一致性算法，一般基于共享锁或者协议，zookeeper是通过协议的算法保证一致性（最终一致性伪实时性) ，最终一致性，没有实时性，要实时性的话需要用sync方法

http://www.superwu.cn/2014/11/21/1423/ zookeeper能保证的（注意是最终一致性伪实时性）

http://www.cnblogs.com/lpshou/archive/2013/06/14/3136904.html

zookeeper应用场景

http://www.cnblogs.com/tommyli/p/3766189.html （文中提到的强一致性有问题）

在Hbase中，也是使用ZooKeeper来实现动态HMaster的选举。在Hbase实现中，会在ZK上存储一些ROOT表的地址和HMaster的地址，HRegionServer也会把自己以临时节点（Ephemeral）的方式注册到Zookeeper中，使得HMaster可以随时感知到各个HRegionServer的存活状态，同时，一旦HMaster出现问题，会重新选举出一个HMaster来运行，从而避免了HMaster的单点问题

zookeepr特性

1.最终一致性：client不论连接到哪个Server，(将在一个时间间隔后，可能很短)展示给它都是同一个视图，这是zookeeper最重要的性能。

2 .可靠性：具有简单、健壮、良好的性能，如果消息m被到一台服务器接受，那么它将被所有的服务器接受。

3 .实时性：Zookeeper保证客户端将在一个时间间隔范围内获得服务器的更新信息，或者服务器失效的信息。但由于网络延时等原因，Zookeeper不能保证两个客户端能同时得到刚更新的数据，如果需要最新数据，应该在读数据之前调用sync()接口。

【伪实时性,太让人误解了,直白点说就是数据可以在十几秒Sync到各个节点,保证最终一致性. 我第一时间看到这个实时性的时候,我就好奇,Oracle RAC花了老鼻子劲才保证了实时性和一致性,Zookeeper是如何轻松做到的,原来是个假的,还说的那么让人误会. 】

4 .等待无关（wait-free）：慢的或者失效的client不得干预快速的client的请求，使得每个client都能有效的等待。

5.原子性：更新只能成功或者失败，没有中间状态。

6 .顺序性：包括全局有序和偏序两种：全局有序是指如果在一台服务器上消息a在消息b前发布，则在所有Server上消息a都将在消息b前被发布；偏序是指如果一个消息b在消息a后被同一个发送者发布，a必将排在b前面。

Follower的消息循环处理如下几种来自Leader的消息：

PING消息：心跳消息；
PROPOSAL消息：Leader发起的提案，要求Follower投票；
COMMIT消息：服务器端最新一次提案的信息；
UPTODATE消息：表明同步完成；
REVALIDATE消息：根据Leader的REVALIDATE结果，关闭待revalidate的session还是允许其接受消息；
.SYNC消息：返回SYNC结果到客户端，这个消息最初由客户端发起，用来强制得到最新的更新。

zookeeper 原理 refer to http://my.oschina.net/zhengyang841117/blog/186600?fromerr=ZKbUgaIV

简单说下原理：

1.一个写request 发送给了 zk service的任意一台server， server转发给leader，leader convert this W req to “proposal” and deliver to every follower for their “ready” reponse (这里其实是完成了W req基本的所有操作除了最后的commit)，leader收到一半以上的 ready后就发送commit 请求，让所有的server去docommit w req (zab 协议保证最终一致性基于paxos算法) 。这个过程也叫广播，可以保证所有server节点的tiretree 数据都一致（最终一致性，无实时性）

2.tiretree 中的data 包括 node 和 data 都可以注册 watcher，当数据改变时可以notify watcher 去做其他事情

遇到过的问题：

在zk 恢复时，选出新leader后，新leader 和 follower 同步数据，如ali 同步的上限数据是500M 加载到内存中有3G（不知道怎么搞的），于是在同步中就会遇到网络IO超时（也遇到过磁盘IO超时）。造成TimeoutException。导致重新去选举leader，导致再次TimeoutException 的死循环。

0 0