DrawCall优化

来源：互联网发布：java io流总结编辑：程序博客网时间：2024/06/05 16:01

[NGUI]减少NGUI 3的DrawCall数量

刚升级到NGUI3，这下不打紧，DrawCall数由5个增长到了十七八个，想想应该不会是NGUI的问题吧。后来整理了一下，发现有两点：
   1）对于同一Atlas，DrawCall数取决于Panel的数量（实际上是UIPanel这个脚本的数量）。比如说，我有两个Sprite，这两个Sprite属于同一Atlas，但是位于不同的Panel下，这时候DrawCall 数是2， NGUI 2中则是1。使用建议就是只使用一个Panel。
   2）对于不同Atlas，同一Panel下的Sprite，可通过Depth调节显示层级，Z值不管用，这点跟NGUI 2中刚好相反。还有就是不同Atlas的Sprite 的Depth值尽量不要来回穿插。比如Atlas A中有两个Sprite a 和 aa，Depth分别为1，3；Atlas B中有两个Sprite b 和 bb， Depth分别为2，4，则DrawCall 总数为4而不是2。（在NGUI 3中，你可以点击Panel ，在Inspector面板中看到每一个DrawCall的调用细节）

   简单的说就是DrawCall的数量不只跟Atlas的数量有关，还跟Atlas调用顺序有关，使用的时候最好只用一个Panel，不同Atlas的Sprite Depth尽量不穿插。

二、http://blog.csdn.net/monzart7an/article/details/25212561

NGUI 减少drawcall

前置说明一：

Unity中的drawcall定义：

每次引擎准备数据并通知GPU的过程称为一次Draw Call。

Unity（或者说基本所有图形引擎）生成一帧画面的处理过程大致可以这样简化描述：引擎首先经过简单的可见性测试，确定摄像机可以看到的物体，然后把这些物体的顶点（包括本地位置、法线、UV等），（顶点如何组成三角形），变换（就是物体的位置、旋转、缩放、以及摄像机位置等），相关光源，纹理，渲染方式（由材质/Shader决定）等数据准备好，然后通知图形API——或者就简单地看作是通知GPU——开始绘制，GPU基于这些数据，经过一系列运算，在屏幕上画出成千上万的三角形，最终构成一幅图像。

前置说明二：

NGUI中的UIWidget(窗口小部件)的显示顺序：

每一个UIWidget的显示顺序由depth值决定，跟z轴没关系，而这个depth值是由两部分组成的，一个是UIWidget所在的UIPanel的depth和UIwidget自身的depth值进行加权计算。

并且，UIPanel的权重非常大，可以认为，UIPanel的depth大的所有UIWidget比UIPanel的depth小的所有UIWidget比最后计算的depth一定大。举个例子：

UIPanel1 depth x UIPanel2 depth y

UIWidget1 depth m UIWidget2 depth n

只要 x > y，那么不管m和n的大小，UIWidget1最后的depth一定大于UIWidget2。

减少drawcall的规则：

1、同一个UIPanel下的texture（图，纹理，材质）和font（字体）尽量放在同一个altals下。也表达了另外一个意思，使用同一个altals（图集）的元素尽量放在同一个UIPanel下面。

2、如果一个UIPanel下面使用了多个altals，那么尽量让使用相同altals的元素连续，尽量避免altals交叉。

规则1的前半部分好理解。后半部分，参照前面显示顺序问题可以知道。如果使用同一个altals的元素在两个不同的UIPanel下面，这就必然导致它们的drawcall分离。所以即使调整它们的depth一致，也无法合并成一个drawcall.

规则2的意思，举个例子就明白了：

同一个UIPanel下有4个UIWidget，w1，w2，w3，w4。

其中 W1和W2引用altals1。

其中 W3和W4引用altals2。

如果它们的depth顺序为 w1 : 1，w2 ：2，w3 : 3，w4 : 4。

那么整个渲染需要2个drawcall，因为渲染顺序为 w1，w2，w3，w4。

而w1和w2公用一个altals，所以可以合并成一个drawcall，同理w3和w4可以合并成一个drawcall。

而如果它们的depth顺序为： w1 : 1，w2 ：3，w3 : 2，w4 : 4。

那么整个渲染需要4个drawcall，因为渲染顺序为 w1，w3，w2，w4。

因为w1和w3不是公用一个altals，所以只能分开渲染。同理w3和w2，w2和w4也只能分开渲染。

三、http://bbs.9ria.com/thread-282804-1-1.html

[GUI] 源码分析NGUI的DrawCall合并原理

楼主自学Unity不久，有纰漏的地方请大神指正。正文如下：

NGUI为了减少GPU状态切换的消耗（比如切换material），把相同material的widget合并，减少DrawCall的数量。下文描述了NGUI如何对widget归类，以及减少DrawCall需要注意的地方。

归类widget的代码在UIPanel中的FillAllDrawCalls()里，代码如下

void FillAllDrawCalls ()
{
for (int i = 0; i < drawCalls.size; ++i)
UIDrawCall.Destroy(drawCalls.buffer[i]);
drawCalls.Clear();
Material mat = null;
Texture tex = null;
Shader sdr = null;
UIDrawCall dc = null;
if (mSortWidgets) SortWidgets();
for (int i = 0; i < widgets.size; ++i)
{
UIWidget w = widgets.buffer[i];
if (w.isVisible && w.hasVertices)
{
Material mt = w.material;
Texture tx = w.mainTexture;
Shader sd = w.shader;
if (mat != mt || tex != tx || sdr != sd)
{
if (mVerts.size != 0)
{
SubmitDrawCall(dc);
dc = null;
}
mat = mt;
tex = tx;
sdr = sd;
}
if (mat != null || sdr != null || tex != null)
{
if (dc == null)
{
dc = UIDrawCall.Create(this, mat, tex, sdr);
dc.depthStart = w.depth;
dc.depthEnd = dc.depthStart;
dc.panel = this;
}
else
{
int rd = w.depth;
if (rd < dc.depthStart) dc.depthStart = rd;
if (rd > dc.depthEnd) dc.depthEnd = rd;
}
w.drawCall = dc;
if (generateNormals) w.WriteToBuffers(mVerts, mUvs, mCols, mNorms, mTans);
else w.WriteToBuffers(mVerts, mUvs, mCols, null, null);
}
}
else w.drawCall = null;
}
if (mVerts.size != 0) SubmitDrawCall(dc);
}

复制代码

算法描述如下

先把UIPanel中的Widget按depth从小到大排序，如果depth相同那按照material的ID来排序。然后遍历每个元素，把material相同的Widget归类到同一个drawCall。合并之后的结果如下图

最后生成了3个DrawCall，并按顺序提交GPU绘制。

为何要采用这个算法呢？因为NGUI的Material是透明材质，不会写入深度缓存（但是会进行深度测试，以保证与非透明物体的层次正确），我们可以看NGUI材质所使用的Unlit/Transparent Colored这个Shader，里面有一句ZWrite Off。所以widget的前后关系与z坐标是没有关系的，而是与DrawCall的绘制顺序有关。所以如果要按照上图的depth来显示widget，必然只能分成3个DrawCall，并且按顺序绘制。

Unity（或者说基本所有图形引擎）生成一帧画面的处理过程大致可以这样简化描述：引擎首先经过简单的可见性测试，确定摄像机可以看到的物体，然后把这些物体的顶点（包括本地位置、法线、UV等），索引（顶点如何组成三角形），变换（就是物体的位置、旋转、缩放、以及摄像机位置等），相关光源，纹理，渲染方式（由材质/Shader决定）等数据准备好，然后通知图形API——或者就简单地看作是通知GPU——开始绘制，GPU基于这些数据，经过一系列运算，在屏幕上画出成千上万的三角形，最终构成一幅图像。

在Unity中，每次引擎准备数据并通知GPU的过程称为一次Draw Call。这一过程是逐个物体进行的，对于每个物体，不只GPU的渲染，引擎重新设置材质/Shader也是一项非常耗时的操作。因此每帧的Draw Call次数是一项非常重要的性能指标，对于iOS来说应尽量控制在20次以内，这个值可以在编辑器的Statistic窗口看到。

Unity内置了Draw Call Batching技术，从名字就可以看出，它的主要目标就是在一次Draw Call中批量处理多个物体。只要物体的变换和材质相同，GPU就可以按完全相同的方式进行处理，即可以把它们放在一个Draw Call中。Draw Call Batching技术的核心就是在可见性测试之后，检查所有要绘制的物体的材质，把相同材质的分为一组（一个Batch），然后把它们组合成一个物体（统一变换），这样就可以在一个Draw Call中处理多个物体了（实际上是组合后的一个物体）。

但Draw Call Batching存在一个缺陷，就是它需要把一个Batch中的所有物体组合到一起，相当于创建了一个与这些物体加起来一样大的物体，与此同时就需要分配相应大小的内存。这不仅会消耗更多内存，还需要消耗CPU时间。特别是对于移动的物体，每一帧都得重新进行组合，这就需要进行一些权衡，否则得不偿失。但对于静止不动的物体来说，只需要进行一次组合，之后就可以一直使用，效率要高得多。

Unity提供了Dynamic Batching和Static Batching两种方式。Dynamic Batching是完全自动进行的，不需要也无法进行任何干预，对于顶点数在300以内的可移动物体，只要使用相同的材质，就会组成Batch。Static Batching则需要把静止的物体标记为Static，然后无论大小，都会组成Batch。如前文所说，Static Batching显然比Dynamic Batching要高效得多，于是，Static Batching功能是收费的……

要有效利用Draw Call Batching，首先是尽量减少场景中使用的材质数量，即尽量共享材质，对于仅纹理不同的材质可以把纹理组合到一张更大的纹理中（称为Texture Atlasing）。然后是把不会移动的物体标记为Static。此外还可以通过CombineChildren脚本（Standard Assets/Scripts/Unity Scripts/CombineChildren）手动把物体组合在一起，但这个脚本会影响可见性测试，因为组合在一起的物体始终会被看作一个物体，从而会增加GPU要处理的几何体数量，因此要小心使用。

对于复杂的静态场景，还可以考虑自行设计遮挡剔除算法，减少可见的物体数量同时也可以减少Draw Call。

总之，理解Draw Call和Draw Call Batching原理，根据场景特点设计相应的方案来尽量减少Draw Call次数才是王道，其它方面亦然。

U3D DrawCall优化手记

在最近，使用U3D开发的游戏核心部分功能即将完成，中间由于各种历史原因，导致项目存在比较大的问题，这些问题在最后，恐怕只能通过一次彻底的重构来解决

现在的游戏跑起来会有接近130-170个左右的DrawCall，游戏运行起来明显感觉到卡，而经过一天的优化，DrawCall成功缩减到30-70个，这个效果是非常显著的，并且这个优化并没有通过将现有的资源打包图集来实现，图集都是原有的图集，如果从全局的角度对图集再进行一次优化，那么DrawCall还可以再减少十几个

本次优化的重点包括：层级关系和特效

对于U3D，我是一个菜鸟，对于U3D的一些东西是一知半解，例如DrawCall，我得到的是一些并不完全正确的信息，例如将N个纹理打包成一个图集，这个图集就只会产生一个DrawCall，如果不打成图集，那么就会有N个DrawCall，这个观点在很多人的认识里都是正确的，因为可以通过简单的操作来验证，但严格来说，这个观点是错误的，因为它还受层级关系影响！

渲染顺序

U3D的渲染是有顺序的，U3D的渲染顺序是由我们控制的，控制好U3D的渲染顺序，你才能控制好DrawCall

一个DrawCall，表示U3D使用这个材质/纹理，来进行一次渲染，那么这次渲染假设有3个对象，那么当3个对象都使用这一个材质/纹理的时候，就会产生一次DrawCall，可以理解为一次将纹理输送到屏幕上的过程，（实际上引擎大多会使用如双缓冲，缓存这类的手段来优化这个过程，但在这里我们只需要这样子认识就可以了），假设3个对象使用不同的材质/纹理，那么无疑会产生3个DrawCall

接下来我们的3个对象使用2个材质，A和B使用材质1，C使用材质2，这时候来看，应该是有2个DrawCall，或者3个DrawCall。应该是2个DrawCall啊，为什么会有3个DrawCall？？？而且是有时候2个，有时候3个。我们按照上面的DrawCall分析流程来分析一下：

1.渲染A，使用材质1
2.渲染B，使用材质1
3.渲染C，使用材质2

在这种情况下是2个DrawCall，在下面这种情况下，则是3个DrawCall

1.渲染A，使用材质1
2.渲染C，使用材质2
3.渲染B，使用材质1

因为我们没有控制好渲染顺序（或者说没有去特意控制），所以导致了额外的DrawCall，因为A和B不是一次性渲染完的，而是被C打断了，所以导致材质1被分为两次渲染

那么是什么在控制这个渲染顺序呢？首先在多个相机的情况下，U3D会根据相机的深度顺序进行渲染，在每个相机中，它会根据你距离相机的距离，由远到近进行渲染，在UI相机中，还会根据你UI对象的深度进行渲染

那么我们要做的就是，对要渲染的对象进行一次规划，正确地排列好它们，规则是，按照Z轴或者深度，对空间进行划分，然后确定好每个对象的Z轴和深度，让使用同一个材质的东西，尽量保持在这个空间内，不要让其他材质的对象进入这个空间，否则就会打断这个空间的渲染顺序

在这个基础上，更细的规则有：

场景中的东西，我们使用Z轴来进行空间的划分，例如背景层，特效层1，人物层，特效层2
NGUI中的东西，我们统一使用Depth来进行空间的划分
人物模型，当人物模型只是用一个材质，DrawCall只有1，但是用了2个以上的材质，DrawCall就会暴增（或许对材质的RenderQueue进行规划也可以使DrawCall只有2个，但这个要拆分好才行），3D人物处于复杂3D场景中的时候，我们的空间规则难免被破坏，这只能在设计的时候尽量去避免这种情况了
使用了多个材质的特效，在动画的过程中，往往会引起DrawCall的波动，在视觉效果可以接受的范围内，可以将特效也进行空间划分，假设这个特效是2D显示，那么可以使用Z轴来划分空间

打包图集

每个材质/纹理的渲染一定是会产生DrawCall的，这个DrawCall只能通过打包图集来进行优化

制作图集一般遵循几个规则：

从功能角度进行划分，例如UI可以划分为公共部分，以及每个具体的界面，功能上，显示上密切相关的图片打包到一起
不要一股脑把所有东西打包到一个图集里，特别是那些不可能同时出现的东西，它们就不应该在一个图集里，这样的图集意义不大，减少不了DrawCall，并且一个你不需要显示的图片，会一直占用你的内存，这让我非常不爽
注意控制图集的大小，不要让图集太大，一个超级大图集的DrawCall消耗或许顶的上十几个小图集的消耗

字符图集，在使用BMFont或者其他工具生成图片字的时候，我们往往是直接导入一大串文字，然后直接生成图片，但实际上这上面的操作也有优化空间，例如BMFont生成的图片大小，是可以设置的，有两个规则，一个规则是导出的图片尽量小，另一个是导出的图片尽量少，默认的大小应该是512x512，假设你生成的图片256x256就可以容纳，那么多做一个操作你可以节省这么多空间，另外当你输入多几个字，就导致增加一张图片时，例如1024变成2048，那么你可以考虑使用3张512的图片，这样也会节省空间

经过精心划分的图集在加上精心规划的渲染顺序，DrawCall会有一个质的优化

特效清理

U3D提供了非常便捷的方法让我们很轻易地使用美术给过来的特效，懒惰的U3D程序猿会直接放入U3D，甚至不去看这是个什么特效，我们的特效一般都是一瞬间的事情，例如技能特效，或者其他什么特效，那么特效播放完，这个特效我们就看不到了，但假设这个特效在播放结束的时候，没有将自身的Active属性设置为false，那么它就会继续占用你的DrawCall，消耗你设备的计算能力，所以程序需要保证当一个特效播放完之后，能够被消耗，或者设置为非激活的状态，可以使用一些公共方法来完成特效播放完之后的清理工作（自己实现2个静态函数，一个播放完销毁，一个播放完设置未激活）

0 0