CUDA与OpenCL编程框架的比较

来源：互联网发布：淘宝网天猫皮衣编辑：程序博客网时间：2024/04/27 21:24

一、CUDA

CUDA框架只能应用在N卡上

//全局变量声明

__host__ ,…, __device__... __global__, __constant__, __texture__

//函数原型声明

__global__ void kernelOne(…) //内核函数

float handyFunction(…) //普通函数

main(){

cudaMalloc(&d_GlblVarPtr, bytes ) //在设备上分配空间

cudaMemCpy(d_GlblVarPtr, h_Gl…) //从主机传输数据到设备执行内核函数时的配置

kernelOne<<<execution configuration>>>( args… ); //调用内核函数

cudaMemCpy(h_GlblVarPtr,…); //从设备传输结果到主机

}

__global__ void kernelOne(type args,…){ //内核函数

//局部变量声明

__local__, __shared__ //自动变量被默认分配到寄存器或本地存储器中

}

float handyFunction(int inVar…){ //普通函数

}

二、OpenCL

首先OpenCL对硬件没有要求nviDIA与AMD的显卡都可以。

这几天研究了一下OpenCL，阅读了nvidia中的例子，归纳OpenCL程序的一般结构如下：

int main(int argc, char* argv[])
{

        //获得platform
        clGetPlatformIDs(1, &cpPlatform, NULL);

        //获得GPU设备
        clGetDeviceIDs(cpPlatform, CL_DEVICE_TYPE_GPU, 1, &cdDevice, NULL);

        //创建上下文环境
        hContext = clCreateContext(0, 1, &cdDevice, NULL, NULL, &ciErr);

        //创建命令队列
        cqCommandQueue = clCreateCommandQueue(hContext, cdDevice, 0, &ciErr);

        //在设备端开辟存储区
        cmDevSrc = clCreateBuffer(hContext, CL_MEM_READ_ONLY, sizeof(cl_float) * WorkSize, NULL, &ciErr);

        //创建program
        cpProgram = clCreateProgramWithSource(hContext, 1, &sProgramSource, NULL, NULL);

        //构建program
        clBuildProgram(cpProgram, 0, NULL, NULL, NULL, NULL);

        //创建运行在设备端的Kernel
        ckKernel = clCreateKernel(cpProgram, "VectorAdd", &ciErr);

        //为Kernel设置参数
        clSetKernelArg(ckKernel, 0, sizeof(cl_mem), (void*)&cmDevSrc);

        //将host主存数据copy到device端
        ciErr = clEnqueueWriteBuffer(cqCommandQueue, cmDevSrc, CL_FALSE, 0, sizeof(cl_float) * WorkSize, src, 0,

        // 调用Kernel，执行
        clEnqueueNDRangeKernel(cqCommandQueue, ckKernel, 1, NULL, (size_t*)&LocalSize, (size_t*)&WorkSize, 0, NULL, NULL);

       //从device端读取计算结果到host端
       clEnqueueReadBuffer(cqCommandQueue, cmDevDst, CL_TRUE, 0, sizeof(cl_float) * WorkSize, dst, 0, NULL, NULL);

        return 0;
}

在运行过程中，可能会因为某些参数的设置出了问题，导致GPU端不能正确运行。这时候最好调试一下，究竟在哪里出了问题，没有得到想要的结果，这样才能够准确定位。我就在的搭配cpProgram的时候，没有进行clBuildProgram，导致后面出现问题：（。