浅谈php-Memcached常规应用与分布式部署方案-

来源：互联网发布：5个数相加等于100算法编辑：程序博客网时间：2024/05/21 06:37

1、Memcached常规应用
使用Memcached缓存MySQL查询结果减轻数据库压力，下面直接上代码，后面做简单说明。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
<?php
/**
* Memcached常规应用演示
* 天涯PHP博客
* http://blog.phpha.com
*/
$mc=newMemcache();
$mc->conncet('127.0.0.1',11211);
$sql=sprintf("SELECT * FROM users WHERE uid = %d",$_GET['uid']);
$key=md5($sql);
//检测结果是否已经被缓存
if(!$data=$mc->get($key)){
//没有缓存则直接从数据库读取
mysql_conncet('localhost','test','test');
mysql_select_db('test');
while($row=mysql_fetch_object(mysql_query($sql))){
$data[]=$row;
}
//并将查询结果缓存
$mc->add($key,$data);
}
var_dump($data);

说明：首先通过md5()将SQL语句转化成一个唯一的KEY，并用此KEY查询Memcached检测是否已经缓存，是的话在直接返回结果，否则先查询数据库再缓存，并返回结果。这样，下次使用此KEY就可以直接返回结果了。另外值得一提的是，看代码中SQL语句的组合部分，用到了sprintf()函数，简单高效，来自白菜指南推荐。

2、Memcached分布式部署方案
通常较小的应用一台Memcached服务器就可以满足需求，但是大中型项目可能就需要多台Memcached服务器了，这就牵涉到一个分布式部署的问题。
对于多台Memcached服务器，怎么确定一个数据应该保存到哪台服务器呢？有两种方案，一是普通Hash分布，二是一致性Hash分布。下面详细说明。

[1]Memcached分布式部署之普通Hash分布
普通Hash分布对于Memcached服务器数量固定的情况推荐使用，比较简单，但是可想而知扩展性不好。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
<?php
/**
* 普通Hash分布
* 天涯PHP博客
* http://blog.phpha.com
*/
//Hash函数
functionmHash($key){
$md5=substr(md5($key),0,8);
$seed=31;
$hash=0;
for($i=0;$i<8;$i++){
$hash=$hash*$seed+ord($md5{$i});
$i++;
}
return$hash&0x7FFFFFFF;
}
//假设有2台Memcached服务器
$servers=array(
array('host'=>'192.168.1.1','port'=>11211),
array('host'=>'192.168.1.1','port'=>11211)
);
$key='MyBlog';
$value='http://blog.phpha.com';
$sc=$servers[mHash($key)%2];
$memcached=newMemcached($sc);
$memcached->set($key,$value);
?>

说明：首先通过MD5函数把KEY处理成32位字符串，然后截取前8位，再经过Hash算法处理成一个整数并返回。利用这个整数与Memcached服务器数量取模，决定当前KEY存储于哪台Memcached服务器，就完成了Memcached的分布式部署。可想而知，当要读取KEY的值时，依然是先要通过Hash算法判断存储于哪台服务器。这种方案整体来说比较简单容易理解。

[2]Memcached分布式部署之一致性Hash分布
当Memcached服务器数量固定时，普通Hash分布可以很好的运作。但是当服务器数量发生改变时，问题就出来了。因为同一个KEY经Hash算法处理后，与服务器数量取模，会导致结果与服务器数量未变化时不同，这就导致之前保存的数据丢失。采取一致性Hash分布可以有效的解决这个问题，把丢失的数据减到最小（注意这里并没有说完全不丢失）。
一致性Hash分布算法分4个步骤：
步骤1：将一个32位整数[0 ~ (2^32-1)]想象成一个环，0 作为开头，(2^32-1) 作为结尾，当然这只是想象。
步骤2：通过Hash函数把KEY处理成整数。这样就可以在环上找到一个位置与之对应。
步骤3：把Memcached服务器群映射到环上，使用Hash函数处理服务器对应的IP地址即可。
步骤4：把数据映射到Memcached服务器上。查找一个KEY对应的Memcached服务器位置的方法如下：从当前KEY的位置，沿着圆环顺时针方向出发，查找位置离得最近的一台Memcached服务器，并将KEY对应的数据保存在此服务器上。
说明：这样一来，当添加或移除某一台服务器时，受影响的数据范围变的更小了。具体可以画个图更便于理解，这里我就不画了。

[3]一致性Hash分布算法实例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
<?php
/**
* 一致性Hash分布
* 天涯PHP博客
* http://blog.phpha.com
*/
classFlexiHash{
//服务器列表
private$serverList=array();
//记录是否已经排序
private$isSorted=FALSE;
//添加一台服务器
publicfunctionaddServer($server){
$hash=$this->mHash($server);
if(!isset($this->serverList[$hash])){
$this->serverList[$hash]=$server;
}
//需要重新排序
$this->isSorted=FALSE;
returnTRUE;
}
//移除一台服务器
publicfunctionremoveServer($server){
$hash=$this->mHash($server);
if(isset($this->serverList[$hash])){
unset($this->serverList[$hash]);
}
//需要重新排序
$this->isSorted=FALSE;
returnTRUE;
}
//在当前服务器列表查找合适的服务器
publicfunctionlookup($key){
$hash=$this->mHash($key);
//先进行倒序排序操作
if(!$this->isSorted){
krsort($this->serverList,SORT_NUMERIC);
$this->isSorted=TRUE;
}
//圆环上顺时针方向查找当前KEY紧邻的一台服务器
foreach($this->serverListas$pos=>$server){
if($hash>=$pos)return$server;
}
//没有找到则返回顺时针方向最后一台服务器
return$this->serverList[count($this->serverList)-1];
}
//Hash函数
privatefunctionmHash($key){
$md5=substr(md5($key),0,8);
$seed=31;
$hash=0;
for($i=0;$i<8;$i++){
$hash=$hash*$seed+ord($md5{$i});
$i++;
}
return$hash&0x7FFFFFFF;
}
}
?>

说明：其整体查找思路，已经在前面的一致性Hash分布部分进行了介绍，需要补充的是每次添加或移除服务器后需要对服务器列表这个序列就行一次排序。
下面是对上面的一致性Hash分布实例的相关测试代码：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
<?php
/**
* 一致性Hash分布测试代码
* 天涯PHP博客
* http://blog.phpha.com
*/
$hserver=newFlexiHash();
//初始5台服务器
$hserver->addServer("192.168.1.1");
$hserver->addServer("192.168.1.2");
$hserver->addServer("192.168.1.3");
$hserver->addServer("192.168.1.4");
$hserver->addServer("192.168.1.5");
echo"save key1 in server: ",$hserver->lookup('key1'),"<br/>";
echo"save key2 in server: ",$hserver->lookup('key2'),"<br/>";
echo'===============================================<br/>';
//移除1台服务器
$hserver->removeServer("192.168.1.4");
echo"save key1 in server: ",$hserver->lookup('key1'),"<br/>";
echo"save key2 in server: ",$hserver->lookup('key2'),"<br/>";
echo'===============================================<br/>';
//添加1台服务器
$hserver->addServer('192.168.1.6');
echo"save key1 in server: ",$hserver->lookup('key1'),"<br/>";
echo"save key2 in server: ",$hserver->lookup('key2');
?>
//测试结果如下：
savekey1inserver:192.168.1.4
savekey2inserver:192.168.1.2
==================================
savekey1inserver:192.168.1.3
savekey2inserver:192.168.1.2
==================================
savekey1inserver:192.168.1.3
savekey2inserver:192.168.1.2

---------接下来再来引用一段memcached的作者介绍的分布式算法---------------------
根据余数计算分散Cache::Memcached的分布式方法简单来说，就是“根据服务器台数的余数进行分散”。 求得键的整数哈希值，再除以服务器台数，根据其余数来选择服务器。
下面将Cache::Memcached简化成以下的Perl脚本来进行说明。
use strict;
use warnings;
use String::CRC32;

my @nodes = ('node1','node2','node3');
my @keys = ('tokyo', 'kanagawa', 'chiba', 'saitama', 'gunma');

foreach my $key (@keys) {
    my $crc = crc32($key);             # CRC値
    my $mod = $crc % ( $#nodes + 1 );
    my $server = $nodes[ $mod ];       # 根据余数选择服务器
    printf "%s => %s\n", $key, $server;
}Cache::Memcached在求哈希值时使用了CRC。
String::CRC32 - search.cpan.org
首先求得字符串的CRC值，根据该值除以服务器节点数目得到的余数决定服务器。 上面的代码执行后输入以下结果：
tokyo       => node2
kanagawa => node3
chiba       => node2
saitama   => node1
gunma     => node1根据该结果，“tokyo”分散到node2，“kanagawa”分散到node3等。 多说一句，当选择的服务器无法连接时，Cache::Memcached会将连接次数 添加到键之后，再次计算哈希值并尝试连接。这个动作称为rehash。 不希望rehash时可以在生成Cache::Memcached对象时指定“rehash => 0”选项。
根据余数计算分散的缺点余数计算的方法简单，数据的分散性也相当优秀，但也有其缺点。 那就是当添加或移除服务器时，缓存重组的代价相当巨大。 添加服务器后，余数就会产生巨变，这样就无法获取与保存时相同的服务器， 从而影响缓存的命中率。用Perl写段代码来验证其代价。
use strict;
use warnings;
use String::CRC32;

my @nodes = @ARGV;
my @keys = ('a'..'z');
my %nodes;

foreach my $key ( @keys ) {
    my $hash = crc32($key);
    my $mod = $hash % ( $#nodes + 1 );
    my $server = $nodes[ $mod ];
    push @{ $nodes{ $server } }, $key;
}

foreach my $node ( sort keys %nodes ) {
    printf "%s: %s\n", $node,  join ",", @{ $nodes{$node} };
}这段Perl脚本演示了将“a”到“z”的键保存到memcached并访问的情况。 将其保存为mod.pl并执行。
首先，当服务器只有三台时：
$ mod.pl node1 node2 nod3
node1: a,c,d,e,h,j,n,u,w,x
node2: g,i,k,l,p,r,s,y
node3: b,f,m,o,q,t,v,z结果如上，node1保存a、c、d、e……，node2保存g、i、k……， 每台服务器都保存了8个到10个数据。
接下来增加一台memcached服务器。
$ mod.pl node1 node2 node3 node4
node1: d,f,m,o,t,v
node2: b,i,k,p,r,y
node3: e,g,l,n,u,w
node4: a,c,h,j,q,s,x,z添加了node4。可见，只有d、i、k、p、r、y命中了。像这样，添加节点后 键分散到的服务器会发生巨大变化。26个键中只有六个在访问原来的服务器， 其他的全都移到了其他服务器。命中率降低到23%。在Web应用程序中使用memcached时， 在添加memcached服务器的瞬间缓存效率会大幅度下降，负载会集中到数据库服务器上， 有可能会发生无法提供正常服务的情况。
mixi的Web应用程序运用中也有这个问题，导致无法添加memcached服务器。 但由于使用了新的分布式方法，现在可以轻而易举地添加memcached服务器了。 这种分布式方法称为 Consistent Hashing。
Consistent Hashing关于Consistent Hashing的思想，mixi株式会社的开发blog等许多地方都介绍过， 这里只简单地说明一下。
mixi Engineers' Blog - スマートな分散で快適キャッシュライフ
ConsistentHashing - コンシステント ハッシュ法
Consistent Hashing的简单说明Consistent Hashing如下所示：首先求出memcached服务器（节点）的哈希值， 并将其配置到0～232的圆（continuum）上。 然后用同样的方法求出存储数据的键的哈希值，并映射到圆上。 然后从数据映射到的位置开始顺时针查找，将数据保存到找到的第一个服务器上。 如果超过232仍然找不到服务器，就会保存到第一台memcached服务器上。

图4 Consistent Hashing：基本原理
从上图的状态中添加一台memcached服务器。余数分布式算法由于保存键的服务器会发生巨大变化 而影响缓存的命中率，但Consistent Hashing中，只有在continuum上增加服务器的地点逆时针方向的 第一台服务器上的键会受到影响。

图5 Consistent Hashing：添加服务器
因此，Consistent Hashing最大限度地抑制了键的重新分布。 而且，有的Consistent Hashing的实现方法还采用了虚拟节点的思想。 使用一般的hash函数的话，服务器的映射地点的分布非常不均匀。 因此，使用虚拟节点的思想，为每个物理节点（服务器） 在continuum上分配100～200个点。这样就能抑制分布不均匀， 最大限度地减小服务器增减时的缓存重新分布。
通过下文中介绍的使用Consistent Hashing算法的memcached客户端函数库进行测试的结果是， 由服务器台数（n）和增加的服务器台数（m）计算增加服务器后的命中率计算公式如下：
(1 - n/(n+m)) * 100
支持Consistent Hashing的函数库本连载中多次介绍的Cache::Memcached虽然不支持Consistent Hashing， 但已有几个客户端函数库支持了这种新的分布式算法。 第一个支持Consistent Hashing和虚拟节点的memcached客户端函数库是 名为libketama的PHP库，由last.fm开发。
libketama - a consistent hashing algo for memcache clients – RJ ブログ - Users at Last.fm
至于Perl客户端，连载的第1次 中介绍过的Cache::Memcached::Fast和Cache::Memcached::libmemcached支持 Consistent Hashing。
Cache::Memcached::Fast - search.cpan.org
Cache::Memcached::libmemcached - search.cpan.org
两者的接口都与Cache::Memcached几乎相同，如果正在使用Cache::Memcached， 那么就可以方便地替换过来。Cache::Memcached::Fast重新实现了libketama， 使用Consistent Hashing创建对象时可以指定ketama_points选项。
my $memcached = Cache::Memcached::Fast->new({
    servers => ["192.168.0.1:11211","192.168.0.2:11211"],
    ketama_points => 150
});另外，Cache::Memcached::libmemcached 是一个使用了Brain Aker开发的C函数库libmemcached的Perl模块。 libmemcached本身支持几种分布式算法，也支持Consistent Hashing， 其Perl绑定也支持Consistent Hashing。
Tangent Software: libmemcached
总结本次介绍了memcached的分布式算法，主要有memcached的分布式是由客户端函数库实现， 以及高效率地分散数据的Consistent Hashing算法。下次将介绍mixi在memcached应用方面的一些经验， 和相关的兼容应用程序。

0 0