MemCache深入学习（一）

来源：互联网发布：网络用语sd是什么意思编辑：程序博客网时间：2024/06/11 23:06

MemCache简介

memcached是以LiveJournal旗下DangaInteractive公司的BradFitzpatric为首开发的一款软件。许多Web应用都将数据保存到RDBMS中，应用服务器从中读取数据并在浏览器中显示。但随着数据量的增大、访问的集中，就会出现RDBMS的负担加重、数据库响应恶化、网站显示延迟等重大影响。有的Web应用将Session信息保存到inteinfo.exe进程、ASP.NETState Service中，这类Web应用搭建负载时，会导致Session丢失。就需要将数据缓存到内容，并支持分布式的需求。对于支持分布式缓存有：MemCached、Redis、MongoDB等。这里我将通过网络和书籍收集到的MemCached技术整理，并分享给大家。

MemCached是高性能的分布式内存缓存服务器。一般的使用目的是，通过缓存数据库查询结果，减少数据库访问次数，以提高动态Web应用的速度、提高可扩展性。

MemCached的特征

MemCached作为高速运行的分布式缓存服务器，具有以下的特点：

1）协议简单：MemCached的服务器客户端通信并不使用复杂的XML等格式，而使用简单的基于文本行的协议。因此，通过telnet也能在memcached上保存数据、取得数据。

2）基于libevent的事件处理：libevent是个程序库，它将Linux的epoll、BSD类操作系统的kqueue等事件处理功能封装成统一的接口。即使对服务器的连接数增加，也能发挥O(1)的性能。MemCached使用这个libevent库，因此能在Linux、BSD、Solaris等操作系统上发挥其高性能。

3）内置内存存储方式：为了提高性能，MemCached中保存的数据都存储在memcached内置的内存存储空间中。由于数据仅存在于内存中，因此重启memcached、重启操作系统会导致全部数据消失。另外，内容容量达到指定值之后，就基于LRU(LeastRecentlyUsed)算法自动删除不使用的缓存。memcached本身是为缓存而设计的服务器，因此并没有过多考虑数据的永久性问题。

4）MemCached不互相通信的分布式：MemCached尽管是“分布式”缓存服务器，但服务器端并没有分布式功能。各个MemCached不会互相通信以共享信息。那么，分布式是完全取决于客户端的实现。

Slab Allocation机制：整理内存以便重复使用

目前MemCached采用SlabAllocator的机制分配、管理内存。SlabAllocator的基本原理是按照预先规定的大小，将分配的内存分割成特定长度的块，以完全解决内存碎片问题。

1）如上图所示，SlabAllocation将分配的内存分割成各种尺寸的块（chunk，用于缓存记录的内存空间），并把尺寸相同的块分成组（chunk的集合，每个chunk的大小相同）。默认一个slab（chunks）的大小是1MB，叫1Page。

2）slaballocator有重复使用已分配的内存的目的。也就是说，分配到的内存不会释放，而是重复利用。

3）MemCached根据收到的数据的大小，选择最适合数据大小的slab。MemCached中保存着slab内空闲chunk的列表，根据该列表选择chunk，然后将数据缓存于其中。如当来了100bytes数据，会选择最合适的112bytes的chunk（假如slabclasses中chunk的大小包含有88bytes、112bytes、144bytes……）

4）SlabAllocator解决了当初的内存碎片问题，但由于分配的是特定长度的内存，因此无法有效利用分配的内存。例如，将100字节的数据缓存到128字节的chunk中，剩余的28字节就浪费了。

MemCached的删除机制

1）MemCached是缓存，所以数据不会永久保存在服务器上，其实数据不会真正从memcached中消失。实际上MemCached不会释放已分配的内存，记录超时后，客户端就无法再看见该记录，其存储空间即可重复使用。

2）LazyExpiration：MemCached内部不会监视记录是否过期，而是在get时查看记录的时间戳，检查记录是否过期。这种技术被称为lazyexpiration（延期过期技术）。因此，MemCached不会在过期监视上耗费CPU时间。

3）MemCached会优先使用已超时的记录的空间，但即使如此，也会发生追加新记录时空间不足的情况，此时就要使用名为LeastRecently Used（LRU）机制来分配空间。顾名思义，这是删除“最近最少使用”的记录的机制。因此，当memcached的内存空间不足时（无法从slabclass获取到新的空间时），就从最近未被使用的记录中搜索，并将其空间分配给新的记录。

MemCached的分布式

1）MemCached但服务器端并没有“分布式”功能。分布式是完全由客户端程序库实现的。这种分布式是MemCached的最大特点。

2)set(存数据到MemCached)时，set(‘key’,data)，将’key’传给客户端程序库后，客户端实现的算法就会根据“键”来决定保存数据的MemCached服务器。服务器选定后，即命令它保存（’key’,data）；

3）get（从MemCached取数据）时，get(‘key’），此时客户端把’key’传递给函数库，函数库通过与数据保存时相同的算法，根据“键”选择服务器。使用的算法相同，就能选中与保存时相同的服务器，然后发送get命令。只要数据没有因为某些原因被删除，就能获得保存的值。

4）以上将不同的键保存到不同的服务器上，就实现了MemCached的分布式。MemCached服务器增多后，键就会分散，即使一台MemCached服务器发生故障无法连接，也不会影响其他的缓存，系统依然能继续运行。

5）Cache::MemCached的分布式算法简单来说，就是“根据服务器台数的余数进行分散”。求得键的整数哈希值[使用crc32函数，如crc32($key)]，再除以服务器台数，根据其余数来选择服务器。余数计算的方法简单，数据的分散性也相当优秀，但也有其缺点。那就是当添加或移除服务器时，缓存重组的代价相当巨大

Memcached的客户端

一致性Hash算法的目的有两点：一是节点变动后其他节点受影响尽可能小；二是节点变动后数据重新分配尽可能均衡 Memcached客户端有各种语言的版本供大家使用，包括java，c，php，.net等等，具体可参见memcachedapi page。大家可以根据自己项目的需要，选择合适的客户端来集成。