LRU-K,2Q,LIRS算法介绍与比较

来源:互联网 发布:小榕sql注入工具下载 编辑:程序博客网 时间:2024/05/22 19:31

    研究H2的过程中发现新的存储引擎MVStore使用了新的cache替换算法——LIRS,经过一系列相关的论文研读,发现比旧存储引擎PageStore的LRU算法改良不少。为了更好地了解LIRS的优异性,把同样属于LRU变种的基于倒数第二次访问时间对比进行cache替换的LRU-K(K一般为2)[1],2Q[2],LIRS[3]算法进行对比

概述

    为方便讨论,统一称呼要进行缓存的对象为块(或Page)。在访问块的行为中,假定存在时间局部性原理,(temporal locality - locations referenced recently likely to be referenced again)。cache替换算法就是针对局部性原理,分辨哪些是访问频率高的hot块,哪些是访问频率低的cold块,并缓存hot块到cache中,从而提高cache命中率。但对于现实中的数据存在不同的访问规律,因此cache算法为了必须尽快地适应块访问规律的改变,缓存新的hot块,并同时避免cold块“污染”hot块的缓存。

    论文[3]提出了4种块访问规律:

1.顺序访问。所有的块一个接一个被访问,不存在重访问。

2.循环访问。所有块都按照一定的间隔重复访问

3.时间密集访问。最近被访问的块是将来最有可能被访问的。

4.概率访问。所有块都有固定的访问概率,所有块都互相独立地根据概率被访问。

    论文[1]提出了2个访问规律中出现的问题:

5.Correlated References。关联访问,即块被首次访问之后,紧接着的短时间内会有数次访问。

6.Reference Retained Information Problem。访问信息保存问题。即需要在块替换出cache后,仍然保留之前的访问信息。

具体算法

    由于传统的LRU算法存在较多的问题,如顺序块访问会把hot块替换出cache,对于索引块和数据块的循环访问时,不会根据访问概率缓存索引块。LRU-K,2Q,LIRS等cache替换算法就是为了解决LRU算法的问题,提供同样甚至更高性能的同时,同时不需要外部的调控,能够自动根据块访问规律的改变对cache进行调整,都是作为通用的块缓存算法。

LRU-K

    K指的是最后第K次访问的距离,也就是倒数第K次访问时和最近一次访问的时间差。LRU-K算法主要是对比最后第K次的访问距离,访问距离越大则代表每次的访问间隔越长,因此更容易被替换出cahce。另外论文[1]中提出了对于稳定不变的访问规律,K越大,cache命中率会越高,但对于访问规律变化较大的时候,K越大则表明需要更加多的访问去适应新的规律,因此变化响应更差,因此一般取K=2。
    原论文考虑到访问规律出现5,6中的问题,提出了Correlated References Period和Reference Retained Information Period两个时间间隔参数。
    Correlated References Period,指块首次访问后的一段时间。块(可能是cold或者hot)的首次访问后可能会接着数次短时间内的关联访问,如数据库中同一事务内的select和update会多次扫描相同的块,为了避免关联访问的干扰造成对块的错误判断,在第一次访问块后,会预留在cahce中。在这段时间内的多次访问只算作一次访问。只有这段时间后块再次被访问,才算第二次被访问。
    Reference Retained Information Period,则指块被替换出cache后的一段时间。块被替换出cache后,可能很快地再次被访问,由于之前访问记录已丢弃,这样只算作首次访问,之后又很快被替换出cahce后,又再次被访问,这样又只会算作首次访问,如此下来,虽然块被频繁访问,属于hot块,但由于替换出cahce后没有保留访问信息,导致错误判断。因此对于替换出cache后的块会继续保留访问信息一段时间。
    由于原论文只给出伪代码,并没有具体的实现。虽然网络上有各种的LRU-K的实现,但某些如多个LRU栈组合的实现并不符合论文的思路。因此结合以上的讨论,个人总结了一个改进后的简单实现(K=2):

  • LRU队列A1。第一次访问的块分配cache后,插入A1队列尾部。在A1中的块被访问时,重新加入队列A1尾部。A1头部出列的块则插入优先级队列P(倒数第二次访问时间初始化为0)。该队列主要实现Correlated References Period,需要根据实际情况设置队列合理固定大小。
  • 优先级队列P。优先级队列P以倒数第二次的访问时间进行升序排序。只有当从A1出列的块或者A2重新访问的块可以插入队列P。P中的块被访问时,更新倒数第二次访问时间并重新排序。当需要分配cache的时候,P队列头部的块(倒数第二次访问时间最短,也就是距离最大)替换出cache后插入到A2中。
  • FIFO队列A2。负责保存替换出cache的块访问信息。如果A2中的块再次被访问,就更新倒数第二次访问时间,同时分配cache,插入优先级队列P。块从A2出列则删除其历史访问信息。
  • [可选]使用HashMap保存块的特证键值和对应的块访问信息,加快查找速度。

总结
   
以上实现中,总共有3个队列,A1,A2,P。其中cache分配给在A1和P和的块,P所占cache比例较大。A2只保存块的访问信息。块的访问信息包含倒数第二次访问时间,最后一次访问时间等。如果扩展到K,则只需要通过保存K次的访问时间,同时初始化为0即可。
    LRU-K对于LRU的改进,最主要是采用了更为激进的方法去替换cold块出cache,这样能够较好地避免顺序访问对cache的影响以及能够更好地区分块访问的频率,但同时,LRU-K算法中存在一些问题:
    1.由于优先级队列的排序操作需要额外的O(logN)的时间复杂度,N为P的大小。
    2.A1,P和A2的大小都必须按照实际情况进行配置取最优比例,才能发挥最优性能。
    3.块的访问频率变化响应较慢。这是因为P的比较是按照历史的最后第K次访问距离进行比较。如果块A在P中的时候倒数第K次的距离较少,但经过较长时间才有新的访问,重新更新访问距离后,才会被快速替换出cache。

2Q

    2Q指的是Two Queue,就是依靠两个队列实现的cache替换算法。针对LRU-K算法的O(logN)时间复杂度,2Q目的是实现O(1)时间复杂度,不需要设置额外参数,并且性能等同甚至优于后者的通用cache替换算法。另外2Q算法也同样解决了LRU算法中的限制,即顺序访问,以及索引块和数据块循环访问的问题。
    论文[2]中首先提出了简化的实现方法:

  • FIFO队列A1。块首次被访问时,分配cache,插入队列A1的队尾。
  • LRU队列Am。块在A1中再次被访问时,就会加入到Am的队尾。
    分配cache时,如果cache没有空闲,首先A1超过阈值时,就会删除A1的头部,否则删除Am的头部。
    简化的实现中,A1和Am各自所占cache的比例是关键。如果A1太小,则检测是否hot块的时间太短,很可能需要较长时间才把hot块加入到Am中。但如果A1太大,则A1会占了原本所属Am的cache,hot块的数量就会减少,会影响cache命中率。
    为了解决上述问题,论文提出了2Q的完整实现,主要是把A1分割为A1in,A1out两个队列:
  • FIFO队列A1in。首次被访问的块分配cache后,插入A1in队尾。A1in的块被访问后不做任何动作。A1in队列头部出列后,替换出cache并插入块指针到A1out。A1in类似LRU-K中的A1,实现Correlated References Period,但A1in中的块被访问时不会重新插入队尾。
  • FIFO队列A1out。A1in队列头部出列后的块,只有块指针会插入到A1out队尾。A1out的块被访问后,分配cache并插入到Am队列队尾。A1out队列头部出列后,块指针被删除。
  • LRU队列Am。A1out中的块被访问后,分配cache并插入Am队尾。Am中的块被访问后,重新插入Am队尾。Am队列头部出列后,块替换出cache,相关信息被删除。
    分配cache时,如果cache没有空闲,如果A1in超出Kin阈值,A1in队列头部块出列,替换出cache后插入A1out队尾,如果A1out超过Kout阈值,A1out队列头部块出列并删除块指针;否则就把Am队列头部的块出列,替换出cache。

总结

    可以看到,和LRU-K比较最后K次访问距离,快速替换出cache中cold块相比,2Q通过对比Am的最近访问时间,替换块出cache,目的是使hot块能常驻在cache中。另外要注意到A1in和A1out两个队列的作用,A1in主要是作为Correlated References Period的实现,而A1out则是需要分辨hot块和cold块,在测试中发现A1in的块适合分配cache,A1out的块则更适合分配块指针。2Q对比LRU-K,只需要记录更少的信息,更少参数配置(推荐Kin为25%,Kout为50%),以及更低的时间复杂度O(1)。
    2Q算法中的缺点:
    1.仍然需要配置参数。A1in和A1out的大小阈值Kin和Kout的需要根据实际进行配置。
    2.Kout固定值。Kout的大小主要影响访问模式变化的响应速度,Kout为固定值则不能根据块访问模式变化而动态变化。

    3.Belady’s anomaly:cache大小增加反而导致cache命中率下降[3]。

LIRS

    LIRS,Low Inter-reference Recency Set,主要通过比较IRR(Inter-Reference Recency )来决定哪些块被替换出cache。LIRS也是目标实现一个低开销,不需要额外参数设置,并且性能优异于其它同类型的cache替换算法。
    首先要了解一下LIRS的两个概念:
recency,最近被访问的时间。
Inter-Reference Recency (IRR),同一块连续两次访问期间中间访问过的不重复块数。IRR用于记录块的历史信息,假定IRR值大的块,其值接下来也会大,也就是访问频率低。因此选择IRR大的块进行replacement,但要注意这些块的recency可能会比较低,也就是可能是最近才被访问的块。
    LIRS算法动态区分低IRR(LIR)和高IRR(HIR)的块,LIR块一般会常驻cache,HIR块则会较快被替换出cache。要保证所有LIR块都能缓存,只有比例较小的cache供HIR块缓存,当LIR块的recency超过某个值,HIR块在一个更小的recency中被访问,两者的状态就会交换。
    论文给出了详细的实现:
Stack S:  包括LIR块、少于LIR块最大recency的HIR块(包括已经缓存或者没有缓存)
Queue Q:  HIR块缓存队列,FIFO

  • 栈S大小一般没有限制,包含LIR块和HIR块的entry,entry记录了块的LIR/HIR状态,是否驻cache(LIR一定驻cache,HIR不一定)。为了加快HIR块缓存的搜索,队列Q负责连接HIR块的缓存,size为HIR块分配的缓存。当需要释放缓存时,会先删除队列Q的头部的HIR块缓存,这时如果HIR块仍然在栈S,则转换状态为非驻cache。
  • 确保栈S的底部必须为LIR块,定义“栈裁剪”操作,栈S的底部LIR块被删除,则一直删除底部块直到遇到另一个LIR块。这样做的目的是因为如果底部存在HIR块,则这些HIR块必定大于LIR块的最大recency,这样它们肯定不能转变为LIR块。
  • 如果在栈S中的HIR块被访问,则它的IRR,就是未访问前的recency,必定少于位于底部的LIR块的recency,也就是最大recency的LIR块,因此HIR块转换为LIR块,底部的LIR块则转换为HIR块,并同时从栈S删除,添加到队列Q的尾部。
  • LIR块缓存没满时,所有首次访问块都作为LIR状态,并驻cache中,直到超出LIR块缓存阈值后,首次访问块会被赋予HIR块状态。另外,栈S出栈的块都会转换为HIR状态。
    LIRS算法对于不同类型的块访问的做法如下:
  • 访问栈S中的LIR块X:LIR块必定驻cache中,所以必定命中缓存。然后把块X移动到栈S的头部,如果块X之前是在栈S的底部,则执行“栈裁剪”操作。
  • 访问驻cache中的HIR块X:访问命中缓存。把X移动到栈S头部。另外块X有两种情况:(1)块X在栈S中,把它状态转换为LIR,还删除队列Q中块X的cache。然后把栈S底部的LIR块转换为HIR块,然后移动到队列Q中。最后“栈裁剪”。(2)块X不在栈S中,则块X的状态保持HIR不变,然后从队列Q的cache移动到队列尾部。
  • 访问非驻cache中的HIR块X:没有命中缓存。首先删除队列Q头部的HIR块(如果该块在栈S,则变为非驻cache状态),这样多出cache空间,然后加载块X到该cache空间,然后移动到栈S的顶部。块X同样有两种情况:(1)块X在栈S中,改变状态为LIR,并同时改变栈底部的LIR块为HIR块,并移动到队列Q的尾部,然后“栈裁剪”。(2)块X不在栈S中,则状态为HIR,并放到队列Q的尾部。
    在上述算法中,与2Q进行对比,可以看到LIRS巧妙地把栈S作为A1in,A1out,Am的合并,通过对比块的recency从而判断IRR大小来决定块属于hot块,需要常驻cache中。另外,队列Q也解决了Reference Retained Information的问题,栈S出栈的块会重新加入队列Q一段时间。不过论文的作者显然没有考虑Correlated References
的问题,如果某些块在短时间内产生数次关联访问,则很快变为LIR块驻cache中。
    LIRS对于上面提到的4种访问模式能够快速适应。特别地,对于循环访问,LIRS能够固定开始的LIR块驻cache中,保证一定的cache命中率,这点比LRU-K以及2Q要好。另外LIRS不像2Q需要设置过多参数,通常假设LIR占99%的cache大小,HIR占1%即可。
存在问题:
    1.对于顺序访问的块,即会出现大量第一次访问块,由于栈S没有考虑到entry大小的限制,因此会一直添加这些顺序访问块到栈S的头部,使栈S变得很大。改良方法是,给栈S一个大小限制,超过的时候就去删除最接近底部的那些HIR块,这个大小可以是cache的几倍,经过测试不会造成太大的性能影响,另外栈S记录的信息只有几byte,栈S大小超过cache大小几倍不是很大问题。
    2."栈裁剪"操作只是平均的O(1)时间复杂度,并不是最差O(1)时间复杂度。

    3.对于IRR变化不会太敏感。如某些cold块IRR瞬间变小,变成LIR块,这样会把栈S底部的LIR块变为HIR块,从而很快被替换出cache,这样就造成后面的cache miss

总结

    LRU-K,2Q,LIRS三种算法都基于倒数第二次的访问时间,以此推断块的访问频率,从而替换出访问频率低的块。从空间额外消耗来看,除了LRU-K需要记录访问时间外,LIRS需要记录块状态(HIR/LIR等),2Q并不需要太多的访问信息记录,因此2Q>LIRS>LRU-K。从时间复杂度来看,LRU-K是O(logN),2Q和LIRS都是O(1),但LIRS的"栈裁剪"是平均的O(1),因此2Q>LIRS>LRU-K。从实现复杂来看,LIRS只需要两个队列,2Q和LRU-K的完整实现都需要3个队列,因此LIRS>2Q=LRU-K。最后,LIRS是唯一参数不需要去按照实际情况进行调整(尽管仍然有LIR和HIR的cache大小参数),2Q和LRU-K都需要进行细微的参数调整,因此LIRS>2Q=LRU-K。从性能角度来看,LIRS论文看得出还是有一定的提升,LIRS>2Q>LRU-K。
    本文目前只比较了三种LRU变种算法,事实上,还有基于业务情况,基于访问模式探测等不同类型的cache替换算法。另外对于LRU变种算法中,ARC也是值得探索的。我们应该明白并不存在万能的cache替换算法可以适用于任何情况。事实上,在真实database应用中,一般会对论文中的算法做适当的调整和扩展,使其更适用自身,能够发挥最佳性能。

Reference

[1]E. J. O’Neil, P. E. O’Neil, and G. Weikum, “The LRU-K Page Replacement Algorithm for Database Disk Buffering”

[2]T. Johnson and D. Shasha, “2Q: A Low Overhead High Performance Buffer Management Replacement Algorithm”

[3]Song Jiang and Xiaodong Zhang, "LIRS: An Efficient Low Inter-reference Recency Set Replacement Policy to Improve Buffer Cache Performance"

0 0