cuda工程文件组织结构

来源:互联网 发布:利用数据分析提高教学 编辑:程序博客网 时间:2024/05/16 10:36

    一直在找cuda的文件组织结构帖子,但是,适合自己业务开发的感觉描述不清晰,下面是对自己的cuda工程的一个小结。语言组织框架是工程的一个良好结构,一个适合本业务开发的语言组织框架,对开发人员理解和阅读程序有着良好的帮助。了解到cuda是c的一个子集,用的是nvcc编译环境,针对某领域对cuda的应用,规范自己的程序框架。
开发环境:vs2008+cuda5.0
工程流程如下:
1 新建cuda项目
2 新建main.cpp作为程序入口,用的是c++编译器。
3 新建业务级别.h和.cpp,业务封装在.h文件的class中。
比如:
class A{
 public:
 fun();
}
4 新建计算级别的.h或.cuh和.cu,其实这里头文件可以不建立,而直接在.cu文件中定义,然后声明成extern,但是为了统一函数声明,都用了头文件。
比如:
////////////////calc.cuh
#ifndef _CU_H_
#define _CU_H_

calcfun();

#endif

////////////////calc.cu
#include "calc.cuh"
__device__ kernelsubcalc(){}
__global__ kernelcalc(){kernelsubcalc();}
calcfun()
{
 kernelcalc<<<,>>>();
}
注意一个原则:与设备有关的关键字比如global和<<<>>>符号必须只能出现在.cu文件中。
5 封装设备操作函数
cuda的设备操作很多,为了编程的方便,通常封装自己常用的操作。
比如我封装的一个设备内存操作函数:
#ifndef _GUPMEM_
#define _GUPMEM_

#include "common.h"

// 分配设备内存
template
int GPUMalloc(T **t, size_t n)
{
 HANDLE_ERROR( cudaMalloc( (void**)&*t, n * sizeof(T) ) );
 printf("gpu malloc right!\n");
 return 0;
}

// 释放设备内存
template
class GPUGuard
{
public:
 GPUGuard(T *t):m_t(t){}
 ~GPUGuard(){
   cudaFree(m_t);
   printf("cuda mem free\n");

 }
private:
 T *m_t;
};


// 内存在设备与主机之间的拷贝
enum CopyModel{
 HOST2DEV, // 主机->设备
 DEV2HOST // 设备->主机
};
template
int MemCopy(T **dev_t, T **host_t, size_t n, CopyModel model)
{
 if(model == HOST2DEV)
 {
  printf("host to dev\n");
  HANDLE_ERROR( cudaMemcpy( *dev_t, *host_t, n * sizeof(T), cudaMemcpyHostToDevice ) );
 }
 else if (model == DEV2HOST)
 {
  printf("dev to host\n");
  HANDLE_ERROR( cudaMemcpy( *host_t, *dev_t, n * sizeof(T), cudaMemcpyDeviceToHost ) );
 }
 else
 {
  printf("copy model error!\n");
  return -1;
 }
 return 0;
};


#endif

设备操作函数的使用就很简单:
int *dev_a;
GPUGuardg1(dev_a);

if(GPUMalloc(&dev_a, N) < 0)
 return -1;

if(MemCopy(&dev_a, &a, N, HOST2DEV) < 0)
 return -1;


总结:
我需要的cuda工程文件有.cpp .h .cu,并行计算放在cu中,其他业务放在.cpp中。