CUDA编程快速入门

来源：互联网发布：步步高9688软件下载编辑：程序博客网时间：2024/05/15 23:49

1.架构理解

1）.包括grid，block，(warp),thread这几个层次，

这就是我们所说的SM；

即：grid对应整个GPU，block数量代表SM数量，每个block的thread数量对应ALU数量

2.编写规范

1）核函数前缀__global__，而且必须是void类型。

2）<<<N,M>>>,N个block，每个block有M个线程。

3）GPU的核函数的执行与CPU的函数执行是异步的，即在核函数入口处调用后，不等运行结束，继续运行下一条命令。

4）block内部的线程可以通过share memory通信，效率近似于寄存器register，但是block之间则没有通信机制，即不同block之间的thread不能通信。

5）线程索引和快索引计算：

6）数据交互

Md和M，已经P和Pd的数据类型应该是一样的。

7）CUDA计时

de   >///测试时间de>
de   >    float elapsedTime = 0.0f;de>
de   >    cudaEvent_t start, stop;de>
de   >    cudaEventCreate(&start);de>
de   >    cudaEventCreate(&stop);de>
de   >    cudaEventRecord(start, 0); de>
de   >kernel<<<>>>()de>
de   > ///时间结束de>
de   >    cudaEventRecord(stop, 0);de>
de   >    cudaEventSynchronize(stop);    de>
de   >    cudaEventElapsedTime(&elapsedTime, start, stop);de>
de   >    printf("the time on gpu is %f\n ms", elapsedTime);de>

8)help_cuda.h

de   >C:\ProgramData\NVIDIA Corporation\CUDA Samples\v7.5\1_Utilities\deviceQuery\../../bin/win64/Debug/deviceQuery.exe Starting...de>
de   >de>
de   > CUDA Device Query (Runtime API) version (CUDART static linking)de>
de   >de>
de   >Detected 1 CUDA Capable device(s)de>
de   >de>
de   >Device 0: "GeForce GTX 960M"de>
de   >  CUDA Driver Version / Runtime Version          7.5 / 7.5de>
de   >  CUDA Capability Major/Minor version number:    5.0de>
de   >  Total amount of global memory:                 4096 MBytes (4294967296 bytes)de>
de   >  ( 5) Multiprocessors, (128) CUDA Cores/MP:     640 CUDA Coresde>
de   >  GPU Max Clock rate:                            1176 MHz (1.18 GHz)de>
de   >  Memory Clock rate:                             2505 Mhzde>
de   >  Memory Bus Width:                              128-bitde>
de   >  L2 Cache Size:                                 2097152 bytesde>
de   >  Maximum Texture Dimension Size (x,y,z)         1D=(65536), 2D=(65536, 65536), 3D=(4096, 4096, 4096)de>
de   >  Maximum Layered 1D Texture Size, (num) layers  1D=(16384), 2048 layersde>
de   >  Maximum Layered 2D Texture Size, (num) layers  2D=(16384, 16384), 2048 layersde>
de   >  Total amount of constant memory:               65536 bytesde>
de   >  Total amount of shared memory per block:       49152 bytesde>
de   >  Total number of registers available per block: 65536de>
de   >  Warp size:                                     32de>
de   >  Maximum number of threads per multiprocessor:  2048de>
de   >  Maximum number of threads per block:           1024de>
de   >  Max dimension size of a thread block (x,y,z): (1024, 1024, 64)de>
de   >  Max dimension size of a grid size    (x,y,z): (2147483647, 65535, 65535)de>
de   >  Maximum memory pitch:                          2147483647 bytesde>
de   >  Texture alignment:                             512 bytesde>
de   >  Concurrent copy and kernel execution:          Yes with 1 copy engine(s)de>
de   >  Run time limit on kernels:                     Yesde>
de   >  Integrated GPU sharing Host Memory:            Node>
de   >  Support host page-locked memory mapping:       Yesde>
de   >  Alignment requirement for Surfaces:            Yesde>
de   >  Device has ECC support:                        Disabledde>
de   >  CUDA Device Driver Mode (TCC or WDDM):         WDDM (Windows Display Driver Model)de>
de   >  Device supports Unified Addressing (UVA):      Yesde>
de   >  Device PCI Domain ID / Bus ID / location ID:   0 / 1 / 0de>
de   >  Compute Mode:de>
de   >     < Default (multiple host threads can use ::cudaSetDevice() with device simultaneously) >de>
de   >de>
de   >deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 7.5, CUDA Runtime Version = 7.5, NumDevs = 1, Device0 = GeForce GTX 960Mde>
de   >Result = PASSde>
de   >请按任意键继续. . .de>