CUDA：低占用率下的更好性能（一）

来源：互联网发布：鳗鱼鳝鱼知乎编辑：程序博客网时间：2024/05/23 16:45

原文地址：http://blog.sina.com.cn/u/1885883434

这两天看到Vasily Volkov牛人的ppt，对如何更有效的使用GPU做通用计算提出了增加线程级并行以外的另一种方法---增加指令级并行，受益匪浅。刚好也没找到中文版本，就翻译过来与大家交流下，有错误请各位牛人指正，所有的实验结果和图片均出自原ppt。请参考《Better Performance at Lower Occupancy》后面两个案例有时间会放上来...

-------------------------------------------------------------------------------------------------

为提升GPU的效率，常用的方法是提升设备占用率(occupancy)，包括在每个流处理器上运行更多的线程和为每个线程块设定更多的线程。人们常常认为这是隐藏延迟的唯一方法，但我们的实验结果证明最大化占用率反而可能会降低性能：

大矩阵相乘，单精度浮点（SGEMM）

1024点复数到复数快速傅里叶变换（FFT），单精度浮点：

两个常见谬误：

1. 多线程是GPU上隐藏延迟的唯一方法

2. 共享内存和寄存器一样快

整个报告分成五部分：

1. 使用更少线程隐藏计算延迟

2. 使用更少线程隐藏内存访问延迟

3. 使用更少线程来加速

4. 案例研究：矩阵相乘

5. 案例研究：FFT

1. 使用更少线程隐藏计算延迟

计算的延迟

延迟：执行操作所需时间。一次计算操作需要约20个时钟周期，一次内存访问操作需要400+个时钟周期：

CUDA：低占用率下的更好性能（一）

以上代码中计算z时，由于z对x的依赖性，在计算x的延迟期内（约20cycle），该操作无法执行。但y的计算由于没有依赖性，因而可以与x的计算重叠（即在20cycle内执行）。

计算的吞吐量

延迟的概念常常与吞吐量的概念混淆，比如“计算比内存操作快100倍----每个warp（G80）只需花费4个时钟周期，而内存操作要花费400个时钟周期”这句话就是错误的，因为前者是比率，而后者是时间。

吞吐量：每个时钟周期完成多少条指令。

计算：1.3Tflop/s = 480 ops/cycle （指令每周期）（指令为乘加运算）

访问显存：177GB/s ≈ 32 ops/cycle (指令为32位装载)

隐藏延迟：在延迟等待时做其他的操作。这样可以运行更快，但上限为峰值。那么怎样达到峰值呢？

使用里特尔定律（Little’s law），即 所需并行度=延迟*吞吐量

CUDA：低占用率下的更好性能（一）

那么当前设备的并行度怎样呢？

CUDA：低占用率下的更好性能（一）

（延迟随指令的不同而变化）

由于指令的延迟固定，如果没有足够的并行度，就不可能达到100%的吞吐量，也就是说没有足够多的运行中指令，那么就存在空闲指令周期。

怎样得到足够的并行度？

线程级并行（TLP）：通常做法是使用足够的线程来提供需要的并行度，比如：在G80上每个SM执行192个线程。

CUDA：低占用率下的更好性能（一）

指令级并行（ILP）：但你同样可以在单个线程内利用指令间的并行性来达到足够的并行度。

CUDA：低占用率下的更好性能（一）

你可以在GPU上同时使用ILP和TLP

这个规则适用于所有可以运行CUDA的GPU。

比如在G80上，如果没有ILP，你可以通过25%的GPU占用率达到100%的峰值；或者，在每个线程中有三条指令可以同时进行的情况下，通过8%的GPU占用率达到峰值。

而在GF104上，如果要达到66%以上的峰值性能，你则必须应用IPL，因为：每个SM中有48个核，单条指令每次广播给16个核。而为了使每个核都有指令执行，单个时钟周期内必须分发3条指令，但事实上每个SM中只有2个warp调度器，无法分发3条指令。所以NV在这里提供了ILP，每个warp在同一指令周期内却可以分发两条以上的指令，这就给我们提供了使每个核都有指令执行的方法。

我们用实验来证明：

1.不用ILP来运行大量计算指令

CUDA：低占用率下的更好性能（一）