AMD显卡中的Hyber-Z的工作原理

来源:互联网 发布:java遗传算法编程 pdf 编辑:程序博客网 时间:2024/05/16 18:31

本文简单总结了Emil Persson的文章Depth in Depth的一些内容,基本上是关于光栅化管线中的Z compare部分的一些工作原理以及优化方法。由于文章很早了,所以最新的硬件可能会有一些更好的特性,但是这些理解这些基本内容还是有一定好处的。
光线跟踪中,三角形的剔除是通过找到与光线的最近交点搞定的,从某种意义上说,空间划分结构(例如KD树)起了很大的作用。而光栅化采用了一种完全不同的工作原理,即深度缓冲。这种机理的好处在于工作效率较高,而且从正确性来说基本可以满足要求(当然,如果near plane和far plane的距离足够远,可能出现一些z fighting的现象,而光线跟踪中没有这种限制)。如果near plane和far plane设置的靠谱的话,基本上来说和光线跟踪中的三角形剔除没啥大区别。而且很多光线跟踪的primary ray求交都可以用raster来优化(当然,前提是interop的效率足够高,否则意义不是特别大)。那么本文将简单总结下AMD硬件中的z compare的一些特性,了解这些特性对于实时渲染还是很有意义的。
首先,考虑一个简单的问题,在光栅化过程中,有几次Z compare(这个问题我曾经在面试中遇到过,但是当时不了解,所以回答悲剧了)。答案是三次(对于现在最新的硬件或者Nv的卡可能不太一样),一次是Hi-Z,一次是Early-Z,都是在PS之前的,之后会有一次Late-Z。
Hi-Z
Hi-Z(Hierarchical Z),这是一种粗粒度的Z compare,它不是针对pixel的,而是基于tile的。所以这种比较所需要的内存要远远小于正常的深度缓冲,假设一个tile是16*16的,那么它只需要有普通的深度缓冲区的1/256即可,在HD-2000以前的硬件中,都是存在on-chip memory的,所以非常有限。如果深度缓冲区很多,可能导致部分的Hi-Z失效。而在这之后的硬件中,Hi-Z memory都是存在video memory里面的,所以基本上而言是不受内存限制的(当然也有理论上限,不过已经足够了)。
Hi-Z的工作方式与z compare没有本质区别,只不过是粒度大一些,对于每个tile存储一个z值而已。这里的z值存储是有一些规律的,如果我们的z compare是less equal或者less的话,那么这里的z值就存储当前tile中的最大z值。由于很多光栅化系统都是基于tile的,所以在光栅化三角形的时候,可以直接基于tile进行一次粗粒度的检测,如果当前的需要光栅化的tile中的最小z值都比hi-z memory中的值大的话,证明整个tile都是被前面的内容覆盖的,所以可以直接剔除掉,不用做多余工作。反之依然。
当然,hi-z不是任何时候都可以开启的,如果stencil功能开启的话,而且z fail或者stencil fail不是keep,那么hi-z会被driver直接禁止掉。因为hi-z禁止一个tile中的内容,而这里面有些是要更新stencil模板的,所以这样做会有错误发生,只能禁止hi-z防止这种错误。所以在我们不需要模板缓冲的时候,我们一定要尽可能的关闭这项功能。或者是更改这种功能使其不与Hi-Z冲突。例如,我们在做shadow volumn的时候,经常会用stencil fail来工作,因为这种方式可以适应视点在阴影内部的情况,所以貌似相对较优。但是实际上我们无意识的disable了Hi-z的功能,也是一种损失。所以如果大部分情况我们确信视点不会在阴影中的时候,我们可以用stencil pass来做shadow volumn,这样不会禁止Hi-Z。当我们检测到视点在内部的时候,可以做其他处理来得到正确的阴影效果。
注意这里由于Hi-Z不更新深度缓冲,所以类似alpha test和pixel discard之类的功能不会对于hi-Z造成影响。
Early-Z
Hi-Z结束之后的比较就是Early-Z了,这次是一种基于pixel的z compare,不过是在PS之前的。Early-Z就是比较需要光栅化的pixel深度与当前的depth值,如果前者大的话,就直接被剔除掉了,不会pass到管线的后续流程当中,从而节省了一定的带宽。对于HD2000前的硬件而言,early-Z是直接更新深度缓冲的,从而导致了它会与一些行为不兼容,例如alpha test。因为alpha test在early-Z之后,如果z compare可以通过,但是alpha test没有通过,early-Z可能会导致一些错误的深度更新。所以alpha-test和early-Z是不共存的。两者之间的矛盾在于深度缓冲的更新,在HD2000之后,early-Z不会与深度更新绑定,所以可以与alpha test一起工作。
Late-Z
Late-Z没啥好说的,就是在ps之后进行一次保守的z值比较,从而保证看到的东西是正确的。当然如果early-Z开启的话,那么late-z就没有太大意义了(在论坛里面,有人说两者是互斥的。这种互斥不是因为功能冲突,而是因为功能重复)。
Z-compression
Z-compression是一种压缩手段,它可以把深度缓冲区按照tile进行压缩。实际每个tile都有一个深度状态,状态分为三种cleared,compressed和uncompressed。
clear很简单,就是刚刚clear过的深度,还没有三角形覆盖该区域。所以如果需要读取cleared状态的深度,可以直接返回深度更新的值,而不用每个pixel的深度都读取了。那么换个角度思考,Z Clear的过程也变得很廉价,只需要更新状态就可以了,即把所有的tile的状态都更新到cleared,而不需要实际写像素深度。
compressed是一种压缩状态,假设一个tile是16*16的。正常我们在读取这个tile的深度的时候,我们需要读取256个float值,但是有些情况这些值是很有规律的。假设一个三角形完全覆盖某一个tile的所有pixel,那么我们可以根据这个tile一个角的深度值和x,y轴上的深度变化值计算出每个像素的深度值。这样我们只需要读取3个float就可以了,剩下的是一些计算工作了。而这些深度计算工作是非常适合GPU进行的,高度并行,行为高度一致。
还有一种情况,最糟糕。就是三角形的边缘跨过某一个tile,从而导致该tile是非压缩状态的。对于这种tile的深度读取,我们需要读取256个float,代价相对于前面大很多了。
下面简单根据上面的特性介绍一些优化方法吧(没有什么顺序):
1.渲染过程中,要从前往后渲染。这其实很好理解,这种渲染可以使得Hyber-Z的工作达到最高效率,可能使得大量的pixel在Hi-Z和Early-Z就被reject了,节省了PS很大的工作量。这里面有一种叫做Pre-Z的优化方法,如果上述方法效果不好(可能因为PS工作代价太大),那么我们先用disable color write,然后渲染一些我们认为重要的东西,只更新depth值,从而得到我们需要的深度缓冲。然后第二个pass就可以根据所得到的深度缓冲reject大量的pixel了,使得渲染更高效一些。
2.尽量不要用alpha test,texkill等功能,因为他们可能会关掉early-Z从而导致PS工作代价沉重。
3.不要更新z compare的方向,因为这种更新会导致Hi-Z直接失效(Hi-z的工作方式与z compare的方向直接有关的)。
4.最后渲染天空盒。因为天空盒也无非是模型,所以渲染的过程一定不要根据天空盒的大小更新远近裁剪平面。可以在vs或者projection matrix里面做点小手脚,例如vs中:
     Out.position = mul( mvp , vertex ).xyww;
  这样就导致了在perspective divide之后的z等于1,当然这里面我们要注意不要让它被远裁剪平面裁剪掉,这里可以把z compare改成less equal即可。
5.尽可能的关闭depth write如果不需要的话,因为这样可以让early-z工作的机会更多一些。
6.要把远近裁剪平面贴的近一些,否则会导致一些z fighting的现象。而且也会使得Hi-Z的工作效率更低一些。
本文总结了depth in depth里面的一些基本内容,想深入了解的朋友,还是推荐看原版论文比较合适。

原创粉丝点击