cuda工程文件组织结构

来源：互联网发布：利用数据分析提高教学编辑：程序博客网时间：2024/05/16 10:36

一直在找cuda的文件组织结构帖子，但是，适合自己业务开发的感觉描述不清晰，下面是对自己的cuda工程的一个小结。语言组织框架是工程的一个良好结构，一个适合本业务开发的语言组织框架，对开发人员理解和阅读程序有着良好的帮助。了解到cuda是c的一个子集，用的是nvcc编译环境，针对某领域对cuda的应用，规范自己的程序框架。
开发环境:vs2008+cuda5.0
工程流程如下：
1 新建cuda项目
2 新建main.cpp作为程序入口，用的是c++编译器。
3 新建业务级别.h和.cpp，业务封装在.h文件的class中。
比如：
class A{
public:
fun();
}
4 新建计算级别的.h或.cuh和.cu，其实这里头文件可以不建立，而直接在.cu文件中定义，然后声明成extern，但是为了统一函数声明，都用了头文件。
比如：
////////////////calc.cuh
#ifndef _CU_H_
#define _CU_H_

calcfun();

#endif

////////////////calc.cu
#include "calc.cuh"
__device__ kernelsubcalc(){}
__global__ kernelcalc(){kernelsubcalc();}
calcfun()
{
kernelcalc<<<,>>>();
}
注意一个原则：与设备有关的关键字比如global和<<<>>>符号必须只能出现在.cu文件中。
5 封装设备操作函数
cuda的设备操作很多，为了编程的方便，通常封装自己常用的操作。
比如我封装的一个设备内存操作函数：
#ifndef _GUPMEM_
#define _GUPMEM_

#include "common.h"

// 分配设备内存
template
int GPUMalloc(T **t, size_t n)
{
HANDLE_ERROR( cudaMalloc( (void**)&*t, n * sizeof(T) ) );
printf("gpu malloc right!\n");
return 0;
}

// 释放设备内存
template
class GPUGuard
{
public:
GPUGuard(T *t):m_t(t){}
~GPUGuard(){
cudaFree(m_t);
printf("cuda mem free\n");

}
private:
T *m_t;
};

// 内存在设备与主机之间的拷贝
enum CopyModel{
HOST2DEV, // 主机->设备
DEV2HOST // 设备->主机
};
template
int MemCopy(T **dev_t, T **host_t, size_t n, CopyModel model)
{
if(model == HOST2DEV)
{
  printf("host to dev\n");
  HANDLE_ERROR( cudaMemcpy( *dev_t, *host_t, n * sizeof(T), cudaMemcpyHostToDevice ) );
}
else if (model == DEV2HOST)
{
  printf("dev to host\n");
  HANDLE_ERROR( cudaMemcpy( *host_t, *dev_t, n * sizeof(T), cudaMemcpyDeviceToHost ) );
}
else
{
  printf("copy model error!\n");
  return -1;
}
return 0;
};

#endif

设备操作函数的使用就很简单：
int *dev_a;
GPUGuardg1(dev_a);

if(GPUMalloc(&dev_a, N) < 0)
return -1;

if(MemCopy(&dev_a, &a, N, HOST2DEV) < 0)
return -1;

总结：
我需要的cuda工程文件有.cpp .h .cu，并行计算放在cu中，其他业务放在.cpp中。