GL benchmark测试解析

来源：互联网发布：asp.net抽奖系统源码编辑：程序博客网时间：2024/05/16 11:40

【转自：http://tieba.baidu.com/p/1966590296?from=prin】

1. 都是测GPU的

2. 恩确实比较奇怪，但也不奇怪
http://www.anandtech.com/pipeline/
比较SGX540和Mali-400也是，Mali-400在lowlevel测试（填充率，三角形输出）里都落后，但在Egypt HD反超不少

一方面，SGX系列lowlevel测试高，我觉得有它TBDR架构的关系

另一方面，我们看整个渲染的过程……

三角形Setup-->vertex shader计算-->rasterization(光栅化）-->pixel shader（fragment）计算-->后端处理输出
当然中间很多部分都跟贴图/纹理有关

Fillrate（填充率）理论测试
测的就是这个
三角形Setup-->vertex shader计算-->rasterization(光栅化）-->pixel shader（fragment）计算-->后端处理输出

三角形输出测试，测的
三角形Setup-->vertex shader计算-->rasterization(光栅化）-->pixel shader（fragment）计算-->后端处理输出

然后三角形测试，vertex lit，测得这个
三角形Setup-->vertex shader计算-->rasterization(光栅化）-->pixel shader（fragment）计算-->后端处理输出

然后三角形输出，fragment lit，测得这个
三角形Setup-->vertex shader计算-->rasterization(光栅化）-->pixel shader（fragment）计算-->后端处理输出

一些GPU这部分理论性能测试低，很可能都是在这一步造成的瓶颈：
三角形Setup-->vertex shader计算-->rasterization(光栅化）-->pixel shader（fragment）计算-->后端处理输出

也就是三角形的setup能力在理论测试中不足，所以后面再nb也高不到哪去：
典型的就是Mali-400了

但实际表现是另一回事了……实际场景，如Egypt HD，大部分都是考验shader计算能力的
（特效啊什么的，都是靠shader计算出来的）所以实际压力的大是这两部分
三角形Setup-->vertex shader计算-->rasterization(光栅化）-->pixel shader（fragment）计算-->后端处理输出

而一般情况下，光影等等效果，更加吃pixel shader（记得末代DX9 Radeon X1000系列的3：1架构吧，疯狂增加pixel ALU），所以实际瓶颈往往是：
三角形Setup-->vertex shader计算-->rasterization(光栅化）-->pixel shader（fragment）计算-->后端处理输出

--
So，这时候拥有大量shader计算资源的Mali，Adreno就会相对nb了：
所以shader计算能力约40GFlops的Adreno 320干掉约30GFLops的543MP4，并没有悬念（当然差距很小，因为543MP4有TBDR支持，可以减少些计算量）
同样，～20GFlops的Mali-400干掉12GFlops的SGX540也是在意料之中的
参考：http://tieba.baidu.com/p/1815909366

shader的GFLOPS，反映了GPU的计算能力

桌面显卡，现在好多都拼GFLOPS。而移动GPU，标称三角形生成率和填充率，实际上是过时的算法。加上各家的三角形生成率和填充率的计算法则（或测试规范）并不一致，实际上不见得特别靠谱。
比如，PowerVR SGX(540/543），200MHz的真实填充率是400Mpix/s，但因为PVR特有的TBDR技术（下文说），可以不渲染被遮挡的部分，所以减轻了工作量，IMGtec按照2.5X的系数算，认为等效1000Mpix/s，所以标称为1Gpix/s的填充率
而其他家的最大填充率，也只是生成“无色点”的能力，例如Mali-400 MP4，275MHz下1.1G的填充率，是指输出1.1G的无色点。实际应用中，大家不可能都去玩无色点的，肯定有shader的渲染计算，以及纹理贴图，此时，是绝对达不到标称值的。
而实际的表现，又会跟很多因素相关。

3.1 Vec4如果遇到非4个一组的操作，比如x.rgb + y.rgb这种Vec3的计算，那么一部分性能就相当于浪费了
如果碰到scalar（标量）的计算，比如p.r + q.r,那么浪费的更多
有时候将vec4设计成vec3+1的结构，那么上述的2个计算可以在一个周期内完成，也就是所谓的co-issue（双发射）

3.2 计算精度问题
最常见的，是FP32，32bit的单精度
更高的，有FP64，64bit的双精度，不过图像处理一般用不到，把GPU当科学计算工具使才会用到吧。。。
严格的说，只有FP32和FP64的操作，才能算FLOPS

不过在图形计算中，还有更低精度的，如
FP16，16bit，半精度
FX10，10bit，都不是浮点，而是定点数了

3.3 各家的GPU的shader支持的计算精度

3.3.1 PowerVR SGX系列
USSE：SGX530/535/540用的，结构就像上面说的，是vec4，也就是4-wide SIMD
（实际上好像是vec4+scalar，只是后面的scalar单元用于一些特殊函数的计算，比如三角函数啊，对数啊，并且scalar和vec4不能并发，所以一般只算前面vec4的计算能力了）

USSE一个周期，可以对
4个FX10 或者 2个FP16 或者 1个FP32 进行MADD操作

所以，一个USSE单元，工作在200MHz下时，其GFLOPS为
4×200×2 = 1.6GFLOPS
一个SGX540含有4个USSE，那么200MHz的SGX540（蜂鸟），其计算性能为6.4GFLOPS
但严格的说，这并不确切，因为这是按照FX10精度计算的。
如果是FP32精度，那么要除以4，只剩下1.6GFLOPS了。
不过无所谓，如果游戏里，设置为低精度，按照FX10渲染，那么SGX540就牛b轰轰的了（降低精度你也不见得能看出啥，没记错的话，DX8就是FX10精度的，8.1到FX12，DX9开始要求FP24）

所以：SGX530/535 2USSE
SGX540 4USSE 大家自己算吧
-----
USSE2： SGX543/544
USSE2做了一些改进，号称能co-issue，但我并不清楚这个co-issue跟我3.1里说的是否一样。有资料称USSE2的GFLOPS性能是USSE的2倍。IMGtec官方称在侧重shader计算的测试里，采用USSE2GPU能比采用USSE的GPU快40%。
同样，USSE2对应的高/中/低精度为 FP32/FP16/FX10
按照FX10算，200MHz的USSE2，计算能力为3.2GFLOPS
FP16则为1/2， FP32则为1/4

单个543/544含有4个USSE2
所以，一个200MHz的543MP2，FX10计算能力为2×12.8GFLOPS=25.6GFLOPS

3.3.2 喜闻乐见的Adreno系列
类似于PowerVR SGX，其单个计算单元，同样采用vec4+1的架构，当然那1个也是拿来做specialfunction的貌似，所以算前面的vec4，能力是一样的。

但不同的是，Adreno系列只支持FP32计算，即高/中/低精度，全部用FP32精度进行计算，所以可以说，计算能力是实打实的GFLOPS吧。

Adreno 200， 2Vec4 + 1TMU， 133MHz，2.1GFLOPS
Adreno 205， 4Vec4 + 1TMU， 266MHz，8.5GFLOPS
Adreno 220， 8Vec4 + 2TMU， 266MHz，17GFLOPS
Adreno 225， 8Vec4 + 2TMU， 400MHz，25.6GFLOPS
Adreno 320，目测16vec4 + 4TMU，如果500MHz的话，就是51GFLOPS

3.3.3 Vivante的GC系列
跟Adreno差不多，也是vec4 SIMD，同样只支持FP32精度
不过Vivante这货的特点是跑高频。。。所以他们一直鼓吹同样的性能，面积最小
所以
RK29的GC800， 1Vec4， 450MHz，3.6GFLOPS
飞思卡尔i.MX6的GC2000， 4Vec4，～600MHz，19.2GFLOPS
华为海思K3V2，GC4000+（或者叫GC6000？），8Vec4，680MHz， 43.5GFLOPS

3.3.4 Mali系列
因为T系列还没产品上市。。。所以说说Mali-400吧
Mali-400并非Unified Shader，是顶点和像素处理分开的
一个顶点处理器包含一个Vertex shader ，vec4，支持FP32精度
一个像素处理器包含一个vec4的pixel shader，以及一个TMU， shader支持FP16精度

所以，一个Mali-400“单核”，400MHz下，计算能力为6.4GFLOPS
如果是MP4，266MHz，则为10.6GFLOPS
MP4， 400MHz，则为16GFLOPS

3.3.5 GeForce ULP
GeForce ULP的vertex shader和pixel shader都是scalar的，并非vec4
顶点支持FP32精度，像素部分支持FP20和FX10精度

所以，“8核”tegra 2, 300MHz,计算能力为4.8GFLOPS
“12核”Terga3， 600MHz，计算能力为14.4GFLOPS

之后说一下，GPU架构和纹理格式

4.1 架构，或者说是渲染模式

4.1.1 Imgtec，PowerVR系列，TBDR（TileBasedDeferred Rendering）
特点：分块，把画面分成小块，这样可以在片上的高速缓存里处理
HSR（Hidden Surface Removal），有专有的硬件单元，在筛掉图像中被遮挡的部分后，才进行光栅化，这样被遮挡的部分就不用被渲染了。节省了计算资源（shader）和带宽（纹理拾取）。
看着非常雕的样子，确实很牛x，imgtec认为能提供等效2.5X的能力（一般按照3的overdraw算到话。。。其实想想也是，场景中被遮挡的看不到的部分太多了。。）不过场景非常复杂时，就容易撑爆管线或者cache，就sb掉了，另外做alphatest的代价也很大（碰到一堆半透明的玩意就哭了，测试代价很大）
不过现在的PowerVR都太牛x了，貌似还没被撑爆过。。。（或者说高压力下会悲剧？谁拿个SGX530跑1080p Glbenchmark 2.5试试？）

4.1.2 Mali/ Adreno, Tiled Based Rendering
这俩也是分块渲染的，同样把画面切成小块，丢到片上高速存储里渲染，不同的是没有HSR功能
不过，还是支持些early-z的测试，减少overdraw（具体我就说不清了，自己还没吃透）

但区别是，Mali和SGX的“块”比较小，一般是16×16这样的

而Adreno的“块”很大。。。以256K为单位，确切的说，大部分的Adreno都带有256K的缓存，画面以这个大小为单位进行渲染

就像上下这两种区别：

不过，新一代的Adreno 3xx，除去tiled渲染，也开始支持传统的渲染方式（IMR，见下）

4.1.3 IMR，immediate mode rendering，或者说是传统的渲染方式
主要是Tegra的GeForce ULP和Vivante的GC系列了
桌面显卡也基本采用这种模式…… 大概就是抓的啥渲染啥了。。。orz……

不过还是会做Z-culling，不过和SGX的deffered rendering还是有区别的（具体。。太专业了）

貌似Adreno的这种大块渲染，比较脆弱，容易sb掉（到底是为什么我也不知道。。。传说的）
所以Adreno 3xx开始增加IMR模式的支持了。

5. 纹理格式
5.1 ETC1
OPENGL ES2.0的支持纹理格式，大家都得支持。但是这个不太给力，竟然不支持alpha通道，所以如果要有alpha通道的纹理，就要读取2次：第一次读rgb，第二次读alpha…… 这样带宽占用就2倍了去：
但偏偏Mali-400这货只支持ETC1，如果为了通用，让SGX/Adreno/GeForce跟着Mali一起读两次，可是大大吃亏了
Mali-400 MP4：反正哥有4个TMU，给哥充足的带宽，多读就多读吧！
Adreno 220：一堆shader+2个TMU的，压力巨大。。
SGX543：虽然2个TMU，不过哥有defferred rendering，看不到的地方可以不渲染不读纹理。。。

所以GL ES 3.0开始推ETC2了，支持alpha通道，貌似压缩比也牛b了不少

5.2 PVRTC（powerVR的） ATC（Adreno的），都支持alpha通道，读一次就够了，压缩比也不错。遇到自家格式，SGX和Adreno自然会很爽。

5.3 DXT（1/2/3/4/5），DirectX的纹理格式，GeForce ULP，Vivante GC,和ZMS 支持
也支持alpha通道。

--
不过实际上呢，对于纹理的处理，不同的GPU也不太一样
比如PvowerVR，对于一个tile里同样的纹理，只要读一次就可以了
而Mali就需要用几次读几次
这方面又会导致带宽消耗的差别

所以总的来说，不同的GPU有不同的侧重点
比如PowerVR，特别的TBDR架构，不渲染被遮挡的部分，有效节省计算资源和带宽
但是说在32bit计算精度下的绝对性能呢，其实并不高
如果跑FX10的低精度渲染，就很吃香

Adreno呢，shader资源丰富，计算能力强劲，但是只有2个可怜的TMU，纹理拾取的能力不够，而且架构上说是不是很健康。。。驱动也渣渣

Mali呢，不是统一渲染架构，计算能力也一般，但TMU多，4个，跟543MP2一样了，贴起图来应该嗷嗷的

最后呢，如果大量的shader计算，shader成为瓶颈的时候，adreno就突出了。而遇到大量贴图的时候，Mali可能吃香点。当然SGX什么的，各种情况下适应能力都挺强。。。要么来个复杂场景+强制FP32精度渲染。。。

典型的比如创新Zii的Mandelmark，就是完全利用pixel shader做计算，并且强制高精度（FP32）
这时候Adreno 225都能快接近543MP4了（FP32）
而不支持FP32精度的Tegra和Mali，就会出现图案不正确
目测这个测试 K3V2也会碉堡
而Ziilabs自家的ZMS-40，靠着12个Vec8的高频ALU，58GFLOPS的计算能力，得分足足是543MP4的2倍。。。但实际跑GLbenchmark 2.1，性能好像就540水平。。。。
所以shader的计算能力，跟实际的游戏表现，又是两回事了

最后呢，SGX，Adreno，Tegra，Mali，各家都有些优化工具，包括三角形的顶点按照什么顺序喂等等细节，都可以做优化……所以说到底还是靠“优化”啊

“神油”才是王道啊
http://tieba.baidu.com/p/1815909366?pn=1

http://tieba.baidu.com/p/1970934768?pn=1

iPad 4 GPU Performance Analyzed:PowerVR SGX 554MP4 Under the Hood

http://www.anandtech.com/show/6426/ipad-4-gpu-performance-analyzed-powervr-sgx-554mp4-under-the-hood