memcached源码分析-----LRU队列与item结构体

来源：互联网发布：纳什生涯场均数据编辑：程序博客网时间：2024/05/29 08:47

转载请注明出处：http://blog.csdn.net/luotuo44/article/details/42869325

LRU队列：

之前的《slab内存分配》博文已经写到：一个slab class里面的所有slab分配器只分配相同大小的item，不同的slab class分配不同大小的item。item结构体里面有一个slabs_clsid成员，用来指明自己是属于哪个slab class的。这里把slabs_clsid值相同的item称为是同一类item。

slab分配器负责分配一个item，但这个item并非直接被哈希表进行管理。从《哈希表的删除操作》可以得知，对哈希表中的某一个item进行删除只是简单地将这个item从哈希表的冲突链中删除掉，并没有把item内存归还给slab。实际上，slab分配器分配出去的item是由一个LRU队列进行管理的。当一个item从LRU队列中删除就会归还给slab分配器。

LRU队列其实是一个双向链表。memcached里面有多条LRU队列，条数等于item的种类数。所以呢，同一类item(slabs_clsid成员变量值相等)将放到同一条LRU队列中。之所以是双向链表，是因为要方便从前后两个方向插入和遍历链表。下面浏览一下item结构体的部分成员。

typedef struct _stritem {    struct _stritem *next; //next指针，用于LRU链表    struct _stritem *prev; //prev指针，用于LRU链表    struct _stritem *h_next;//h_next指针，用于哈希表的冲突链    rel_time_t      time;   //最后一次访问时间。绝对时间  ...    uint8_t         slabs_clsid;/* which slab class we're in */} item;

接下来阅读管理LRU队列的数据结构。其实是超级简单的，就三个全局数组而已，而且是static数组(开心吧)。

//memcached.h文件#define POWER_LARGEST  200//items.c文件#define LARGEST_ID POWER_LARGESTstatic item *heads[LARGEST_ID];//指向每一个LRU队列头static item *tails[LARGEST_ID];//指向每一个LRU队列尾static unsigned int sizes[LARGEST_ID];//每一个LRU队列有多少个item

可以看到这三个数组的大小是和slabclass提供的最大slab class个数是一样的。这样也印证了一个LRU队列就对应一类item。heads[i]指向第i类LRU链表的第一个item，tails[i]则指向了第i类LRU链表的最后一个item，sizes[i]则指明第i类LRU链表有多少个item。由LRU队列和heads和tails构成的结构如下图所示：

LRU队列的基本操作：

插入操作：

假设我们有一个item要插入到LRU链表中，那么可以通过调用item_link_q函数把item插入到LRU队列中。下面是具体的实现代码。

//将item插入到LRU队列的头部static void item_link_q(item *it) { /* item is the new head */    item **head, **tail;    assert(it->slabs_clsid < LARGEST_ID);    assert((it->it_flags & ITEM_SLABBED) == 0);    head = &heads[it->slabs_clsid];    tail = &tails[it->slabs_clsid];    assert(it != *head);    assert((*head && *tail) || (*head == 0 && *tail == 0));//头插法插入该item    it->prev = 0;    it->next = *head;    if (it->next) it->next->prev = it;    *head = it;//该item作为对应链表的第一个节点//如果该item是对应id上的第一个item，那么还会被认为是该id链上的最后一个item//因为在head那里使用头插法，所以第一个插入的item，到了后面确实成了最后一个item    if (*tail == 0) *tail = it;    sizes[it->slabs_clsid]++;//个数加一    return;}

删除操作：

有了插入函数，肯定有对应的删除函数。删除函数是蛮简单，主要是处理删除这个节点后，该节点的前后驱节点怎么拼接在一起。

//将it从对应的LRU队列中删除static void item_unlink_q(item *it) {    item **head, **tail;    assert(it->slabs_clsid < LARGEST_ID);    head = &heads[it->slabs_clsid];    tail = &tails[it->slabs_clsid];    if (*head == it) {//链表上的第一个节点        assert(it->prev == 0);        *head = it->next;    }    if (*tail == it) {//链表上的最后一个节点        assert(it->next == 0);        *tail = it->prev;    }    assert(it->next != it);    assert(it->prev != it);//把item的前驱节点和后驱节点连接起来    if (it->next) it->next->prev = it->prev;    if (it->prev) it->prev->next = it->next;    sizes[it->slabs_clsid]--;//个数减一    return;}

可以看到无论是插入还是删除一个item，其耗时都是常数。其实对于memcached来说几乎所有的操作时间复杂度都是常数级的。

更新操作：

为什么要把item插入到LRU队列头部呢？当然实现简单是其中一个原因。但更重要的是这是一个LRU队列！！还记得操作系统里面的LRU吧。这是一种淘汰机制。在LRU队列中，排得越靠后就认为是越少使用的item，此时被淘汰的几率就越大。所以新鲜item(访问时间新)，要排在不那么新鲜item的前面，所以插入LRU队列的头部是不二选择。下面的do_item_update函数佐证了这一点。do_item_update函数是先把旧的item从LRU队列中删除，然后再插入到LRU队列中(此时它在LRU队列中排得最前)。除了更新item在队列中的位置外，还会更新item的time成员，该成员指明上一次访问的时间(绝对时间)。如果不是为了LRU，那么do_item_update函数最简单的实现就是直接更新time成员即可。

#define ITEM_UPDATE_INTERVAL 60 //更新频率为60秒void do_item_update(item *it) {//下面的代码可以看到update操作是耗时的。如果这个item频繁被访问，//那么会导致过多的update，过多的一系列费时操作。此时更新间隔就应运而生//了。如果上一次的访问时间(也可以说是update时间)距离现在(current_time)//还在更新间隔内的，就不更新。超出了才更新。    if (it->time < current_time - ITEM_UPDATE_INTERVAL) {        mutex_lock(&cache_lock);        if ((it->it_flags & ITEM_LINKED) != 0) {            item_unlink_q(it);//从LRU队列中删除            it->time = current_time;//更新访问时间            item_link_q(it);//插入到LRU队列的头部        }        mutex_unlock(&cache_lock);    }}

memcached处理get命令时会调用do_item_update函数更新item的访问时间，更新其在LRU队列的位置。在memcached中get命令是很频繁的命令，排在LRU队列第一或者前几的item更是频繁被get。对于排在前几名的item来说，调用do_item_update是意义不大的，因为调用do_item_update后其位置还是前几名，并且LRU淘汰再多item也难于淘汰不到它们(一个LRU队列的item数量是很多的)。另一方面，do_item_update函数耗时还是会有一定的耗时，因为要抢占cache_lock锁。如果频繁调用do_item_update函数性能将下降很多。于是memcached就是使用了更新间隔。

前面讲了怎么在LRU队列中插入和删除一个item，现在讲一下怎么从slab分配器中申请一个item和怎么归还item给slab分配器。

item结构体：

虽然前面多次提到了item，但item长成什么样子估计读者还是迷迷糊糊的。下面看一下item结构体的完整定义吧，留意英文注释。

#define ITEM_LINKED 1 //该item插入到LRU队列了#define ITEM_CAS 2 //该item使用CAS#define ITEM_SLABBED 4 //该item还在slab的空闲队列里面，没有分配出去#define ITEM_FETCHED 8 //该item插入到LRU队列后，被worker线程访问过typedef struct _stritem {    struct _stritem *next;//next指针，用于LRU链表    struct _stritem *prev;//prev指针，用于LRU链表    struct _stritem *h_next;//h_next指针，用于哈希表的冲突链    rel_time_t      time;//最后一次访问时间。绝对时间    rel_time_t      exptime;//过期失效时间，绝对时间    int             nbytes;//本item存放的数据的长度       unsigned short  refcount;//本item的引用数    uint8_t         nsuffix;//后缀长度    /* length of flags-and-length string */    uint8_t         it_flags;//item的属性   /* ITEM_* above */    uint8_t         slabs_clsid;/* which slab class we're in */    uint8_t         nkey;//键值的长度       /* key length, w/terminating null and padding */    /* this odd type prevents type-punning issues when we do     * the little shuffle to save space when not using CAS. */    union {        uint64_t cas;        char end;    } data[];    /* if it_flags & ITEM_CAS we have 8 bytes CAS */    /* then null-terminated key */    /* then " flags length\r\n" (no terminating null) */    /* then data with terminating \r\n (no terminating null; it's binary!) */} item;

上面代码里面的英文注释说明了item布局。item结构体的最后一个成员是data[]，这样的定义称为柔性数组。柔性数组的一个使用特点是，数据域就存放在数组的后面。memcached的item也是这样使用柔性数组的。上面的item只是定义了item结构体本身的成员，但之前的博文一直用item表示item存储的数据。这样写是合理的。因为item结构体本身和item对应的数据都是存放slab分配器分配的同一块内存里面。在《slab内存分配器》初始化slabclass数组的时候，其分配的内存块大小是sizeof(item) +settings.chunk_size。

item结构体后面紧接着的是一堆数据，并非仅仅是用户要存储的data，具体如下图所示：

看上面的图可能还不完全清楚明了item以及对应数据的存储形式。我懂的，码农是需要代码才能完全清楚明了的。

#define ITEM_key(item) (((char*)&((item)->data)) \         + (((item)->it_flags & ITEM_CAS) ? sizeof(uint64_t) : 0))#define ITEM_suffix(item) ((char*) &((item)->data) + (item)->nkey + 1 \         + (((item)->it_flags & ITEM_CAS) ? sizeof(uint64_t) : 0))#define ITEM_data(item) ((char*) &((item)->data) + (item)->nkey + 1 \         + (item)->nsuffix \         + (((item)->it_flags & ITEM_CAS) ? sizeof(uint64_t) : 0))#define ITEM_ntotal(item) (sizeof(struct _stritem) + (item)->nkey + 1 \         + (item)->nsuffix + (item)->nbytes \         + (((item)->it_flags & ITEM_CAS) ? sizeof(uint64_t) : 0))static size_t item_make_header(const uint8_t nkey, const int flags, const int nbytes,                     char *suffix, uint8_t *nsuffix) {    /* suffix is defined at 40 chars elsewhere.. */    *nsuffix = (uint8_t) snprintf(suffix, 40, " %d %d\r\n", flags, nbytes - 2);    return sizeof(item) + nkey + *nsuffix + nbytes;//计算总大小}//key、flags、exptime三个参数是用户在使用set、add命令存储一条数据时输入的参数。//nkey是key字符串的长度。nbytes则是用户要存储的data长度+2,因为在data的结尾处还要加上"\r\n"//cur_hv则是根据键值key计算得到的哈希值。item *do_item_alloc(char *key, const size_t nkey, const int flags,                    const rel_time_t exptime, const int nbytes,                    const uint32_t cur_hv) {    uint8_t nsuffix;    item *it = NULL;    char suffix[40];//要存储这个item需要的总空间。要注意第一个参数是nkey+1，所以上面的那些宏计算时//使用了(item)->nkey + 1    size_t ntotal = item_make_header(nkey + 1, flags, nbytes, suffix, &nsuffix);    if (settings.use_cas) {//开启了CAS功能        ntotal += sizeof(uint64_t);    }//根据大小判断从属于哪个slab    unsigned int id = slabs_clsid(ntotal);    if (id == 0)//0表示不属于任何一个slab        return 0;...it = slabs_alloc(ntotal, id);//从slab分配器中申请内存it->refcount = 1;it->it_flags = settings.use_cas ? ITEM_CAS : 0;    it->nkey = nkey;    it->nbytes = nbytes;    memcpy(ITEM_key(it), key, nkey);//这里只拷贝nkey个字节，最后一个字节空着    it->exptime = exptime;    memcpy(ITEM_suffix(it), suffix, (size_t)nsuffix);    it->nsuffix = nsuffix;return it;}

码农们好好体会上面代码中的几个宏定义以及item_make_header函数。上面的代码还只是超级简单地介绍了do_item_alloc函数，之所以说超级简单是因为这个函数实际上是相当复杂的，完整版本点击这里查看。

上面简单给出了向slab申请一个item，现在贴出归还item的代码。

//items.c文件void item_free(item *it) {    size_t ntotal = ITEM_ntotal(it);    unsigned int clsid;    clsid = it->slabs_clsid;    it->slabs_clsid = 0;    slabs_free(it, ntotal, clsid);}//slabs.c文件void slabs_free(void *ptr, size_t size, unsigned int id) {    pthread_mutex_lock(&slabs_lock);    do_slabs_free(ptr, size, id);//归还给slab分配器    pthread_mutex_unlock(&slabs_lock);}

item和哈希表的联系：

前面的do_item_alloc函数是根据所需的大小申请一个item。从do_item_alloc实现代码来看，它没有把这个item插入到哈希表和LRU队列中。实际上这个任务是由另外的函数实现的。

插入和删除item：

接下来阅读，如何把item传给哈希表、LRU队列以及如何从哈希表、LRU队列收回item(有时还需要归还给slab的)。

//将item插入到哈希表和LRU队列中，插入到哈希表需要哈希值hvint do_item_link(item *it, const uint32_t hv) {//确保这个item已经从slab分配出去并且还没插入到LRU队列中    assert((it->it_flags & (ITEM_LINKED|ITEM_SLABBED)) == 0);//当哈希表不在为扩展而迁移数据时，就往哈希表插入item//当哈希表在迁移数据时，会占有这个锁。    mutex_lock(&cache_lock);    it->it_flags |= ITEM_LINKED;//加入 已link标志    it->time = current_time;    /* Allocate a new CAS ID on link. */    ITEM_set_cas(it, (settings.use_cas) ? get_cas_id() : 0);    assoc_insert(it, hv);//将这个item插入到哈希表中    item_link_q(it);//将这个item插入到链表中    refcount_incr(&it->refcount);//引用计数加一    mutex_unlock(&cache_lock);    return 1;}//从哈希表删除，所以需要哈希值hvvoid do_item_unlink(item *it, const uint32_t hv) {    mutex_lock(&cache_lock);    if ((it->it_flags & ITEM_LINKED) != 0) {        it->it_flags &= ~ITEM_LINKED;//减去已link标志        assoc_delete(ITEM_key(it), it->nkey, hv);//将这个item从哈希表中删除        item_unlink_q(it);//从链表中删除该item        do_item_remove(it);//向slab归还这个item    }    mutex_unlock(&cache_lock);}void do_item_remove(item *it) {    assert((it->it_flags & ITEM_SLABBED) == 0);    assert(it->refcount > 0);    if (refcount_decr(&it->refcount) == 0) {//引用计数等于0的时候归还        item_free(it);//归还该item给slab    }}

在使用do_item_remove函数向slab归还item时，会先测试这个item的引用数是否等于0。引用数可以简单理解为是否有worker线程在使用这个item。引用数的将会在后面的《item引用计数》中详细讲解。

前面的代码中很少使用锁。但实际上前述的item操作都是需要加锁的，因为可能多个worker线程同时操作哈希表和LRU队列。之所以很少看到锁是因为他们都使用了包裹函数(如果看过《UNIX网络编程》，这个概念应该不陌生)。在包裹函数中加锁和解锁。前面的函数中，函数名一般都是以do_作为前缀。其对应的包裹函数名就是去掉前缀do_。锁的介绍不是本博文的任务，后面会有专门的博文介绍锁的使用。

3 0