1.1 Cache不可不察也

来源:互联网 发布:jsp java 编辑:程序博客网 时间:2024/04/27 21:11

在现代处理器中,CacheHierarchy一般由多级组成,处于CPU和主存储器之间,形成了一个层次结构,这个层次结构日趋复杂。Intel甚至放弃使用阿拉伯字母对Cache的各级层次编号,而直接使用LLC(Last-Level Cache)MLC(Medium-Level Cache)这样的术语。

变化的称呼表明了一个事实,Cache层次结构在整个处理器系统中愈发重要,也越发复杂。Sandy Bridge处理器大约使用了十亿个晶体管,在其正中不再是传统的CPU,是Ring Bus包裹着的最后一级Cache[1]

1.1 <wbr>Cache不可不察也

处理器的制作过程异常复杂。在人类历史上,其设计难度只有古埃及的金字塔可以与其媲美,即便是胡夫金字塔也只使用了230万个巨石,几十万个劳工而已。现代CPU的所耗的资源何止这些数字。在处理器这座金字塔中,Cache层次结构是最基本的框架。

几千年前,孙子曾经说过,“兵者,国之大事,死生之地,存亡之道,不可不察也”。对于有志于站在金字塔顶峰的,即便目标只有半山腰的系统程序员,也是Cache,不可不察也。在IntelValues->Discipline中有一句话“Pay attention to detail”。

但是不要忘记Devil is in thedetail。准备深入理解Cache层次结构的读者需要时刻提醒自己真正了解什么是细节之后,才会重视细节,才能够避免因为忽视细节而引发的灾难。重视细节这个品质与你是否足够细心没有必然联系。

我们回到公式13,简单探讨计算Hit timeMiss RateMiss Penalty这三个参数时所需要考虑的因素和相关的环境。

似乎Hit Time参数最容易获得。我们很快就可以从CPU的数据手册中找到各级Cache Hit后的访问时间,并从L1 Cache的访问时间开始计算Hit Time。可能我们上来就错了,现代处理器大多使用了Store-LoadForwarding技术。存储器读操作首先要查询的并不是L1 Cache,是在更前面执行的,还没有来得及提交的Store结果,这些结果保存在一段数据缓冲中,这个数据缓冲也是一种Cache,不过比L1 Cache更加快速一些,也更接近CPU

除了数据Cache,在现代处理器中,在指令Cache前还有一个Line-Fill BufferSandy Bridge微架构中还含有一个μops Cache[1],计算指令CacheHit延时也没有想象中容易。精确计算指令与数据Cache Hit的延时需要注意很多细节。简而言之,在处理器系统存储层次中,L1 Cache并不是最快的,也不是第一级。如果进一步考虑到Load Speculation使用的各类算法和命中率,Hit Time参数并不容易计算清楚。

即便不考虑这些较为复杂的细节,我们仅从L1 Cache开始,Hit Time参数也很难用简单的公式描述。在单处理器环境中,L1 Miss后会逐级查找下级Cache,直到主存储器。但是在多处理器内核环境中,情况复杂得多,一次存储器访问在自己的内核中没有命中,可能会在其他内核的Cache中命中,在其他内核的Cache中命中后,又存在数据如何传递,延时如何计算这些问题。说清楚这些问题并不容易。如果我们再进一步讨论多个SMP系统间Cache的一致性,这个Hit Time的计算就更加复杂。我只能选择放弃在这一节内,能够清楚地描述如何计算Hit Time这个参数。

Miss Rate参数更加难以琢磨。我们真的可以用VtunePerf这样的工具精确计算出哪怕是单个任务的Miss Rate这样的参数吗,用这样的工具得到的统计数值有什么用途。同一片树叶,有的人一叶障目,有的人一叶知秋。不要为一叶障目而苦恼。多看几片后,必会发现春天的到来,也不要为一叶知秋而骄傲,少看几片,终会被最后一片树叶阻隔。

Miss Penalty参数的计算仿佛容易一些。最糟糕的情况莫过于CPU从主存储器中获取数据。我们可以将环境进一步简化,以便于读者计算这个参数。我们可以不讨论SMP系统间的Cache一致性,甚至不讨论SMP之内的Cache一致性,仅讨论单处理器。即便如此Miss Penalty参数也不容易轻易计算,即便在这种情况之下,我们只讨论存储器读。

我们忽略微架构在Cache使用的各类Queue,让存储器读操作首先对L1 Cache进行尝试。如果没有命中这级Cache,这次数据访问一定可以到达L2 Cache吗,如果不是L2 Cache,又是哪一级Cache。这一切由L1L2 Cache的关联结构决定。在一个处理器系统中,L1L2 Cache之间可能是Inclusive,也可能是Exclusive。如果是Inclusive,存储器读操作将接着尝试L2 Cache,如果不是将会跨越这级Cache。事实并非如此简单,L1L2 Cache并不会直接相连,之间依然存在着许多Buffer

历经千辛万苦,数据访问最终到达最后一级Cache,如果没有命中,就可以从主存储器中获得数据。在这种情况之下,我们仿佛可以计算出最恶劣情况之下的Miss Penalty。但是这只是噩梦的开始。在现代处理器系统中,每一次存储器读写指令,都是由若干个步骤组成,这些步骤间具有相互联系,如果进一步考虑Memory Consistency层面,所涉及到的同步操作更多一些,这些操作并不能用几句话概括。

我们抛开这些复杂话题,讨论在L1L2 Cache Miss之后从存储器获得数据这个模型。存储器读从存储器获得数据仅是一次读访问的步骤。从主存储器获得的宝贵数据不会轻易丢失,会存放在Cache中,需要将这些数据存放到哪一级Cache最为合理,LLCMLCs还是FLC

在一个正常运行的系统中,在每一个Cache Block中存放的数据都是有用的。新数据存放通常意味着旧数据的淘汰。值得思考的是如何进行这些淘汰操作,使用什么策略进行淘汰。从L1 Cache中淘汰的数据虽然暂时没有用途,但是不意味着可以轻易丢失,是否应该先进入到L2 Cache暂存。采用这种策略时,L2 Cache也需要相应的进行淘汰操作。

从上文的描述可以看到,一个简单的存储器读访问带来了一系列的问题。我们首先需要为这次存储器读做基础的准备,然后进行真正的存储器读,读完成之后,还有复杂的扫尾工作。貌似容易计算的Miss Penalty参数即便在简化到了不能再简化的现代处理器系统中,也很难计算清楚。

我们还没有讨论存储器写对Cache Block的的污染与破坏,写操作可能会改变Cache Block的状态,使存储器读操作更加举步维艰,写操作还会带来很多Bus Traffic,这些Traffic加大了存储器读的Miss Penalty,我们没有讨论多处理器内核环境下的Cache Coherence

我们依然忽略了一个更加基本的细节,虚实地址转换。在现代操作系统中运行的任务,没有哪个任务可以直接使用PhysicalAddress(PA),使用更多的是EffectiveAddress(EA)。在多数处理器系统中,EA首先被转换为VirtualAddress(VA),之后再转化为PA。处理器微架构在更多的场景中直接使用的是PA,不是VA更不是EA

虚拟化技术的引入,在略微有些复杂的VAPAEA的基础上又引入了MPA(Machine PhysicalAddress)GPA(Guest PhysicalAddress),带来了一系列地址Mapping机制,中断重定向等内容。虚拟化还带来了IOMMUI/O虚拟化技术。为了能够在最小的篇幅完成这篇文章,我们忽略虚拟化技术,专注最基础的虚实地址转换。

0 0
原创粉丝点击