cudaMemcpyToSymbol 和cudaMemcpy

来源:互联网 发布:淘宝上传图片不清楚 编辑:程序博客网 时间:2024/05/19 13:44

这是今天在群里有人问了这么一个问题 
cudaMemcpyToSymbol可以将数据从host拷贝到global,cudaMemcpy也是从host到>global,这种情况下二个函数有什么区别吗?

和各位大佬讨论一下后,和大家分享一下~

首先,学到了cudaMemcpyToSymbol竟然还有将数据从host拷贝到global的功能,以前只用过这个函数拷贝到constant memory。拷贝方式的不同是由目的内存申请的方式决定的。

申请的是device内存,cudaMemcpyToSymbol拷贝就是从host拷贝到global memory

申请的是constant内存,cudaMemcpyToSymbol拷贝就是从host拷贝到constant memory。

__device__ float g_damp_x[MAX_DIM];
__constant__ float c_damp_y[MAX_DIM];

然后大家开始各种猜测,性能方面的问题、设计方面的问题以及兼容性方面问题等等。下面是我的一些见解,很荣幸得到了各位大佬的赞同,跟大家分享一下。

我是从GPU性能仿真器GPGPU-Sim(http://www.gpgpu-sim.org)入手的,通过看Sim中这个两个函数部分的代码,可以看到这个两个函数的执行过程。

cudaMemcpy函数的过程比较简单,只是做了一些安全判断后就像模拟global内存中根据“地址”将数据写到global内存中(GPGPU-Sim是通过物理内存来模拟GPU内的各种内存)。 
cudaMemcpyToSymbol函数的过程实现的比较复杂,具体在cuda-sim/cuda-sim.cc文件的1554行的gpgpu_ptx_sim_memcpy_symbol函数中,在这个函数中,在根据目标地址在global memory和constant memory中进行搜索。代码如下:

if( g_globals.find(hostVar) != g_globals.end() ) {    found_sym = true;    sym_name = hostVar;    mem_region = global_space;}if( g_constants.find(hostVar) != g_constants.end() ) {    found_sym = true;    sym_name = hostVar;    mem_region = const_space;}

然后再根据搜索结果将数据写到不同的内存中,所以根据以上观察的结果,cudaMemcpy在性能会更好一些。

PS:今天请教了实验室里的学长这个问题,问题大概是这样:

1.Sim的设计者是如何知道NVIDIA公司GPU产品的底层实现,这个技术细节不是商业机密么?

GPGPU-Sim是一个开放性的实验平台,它在仿真方面有很高的准确性,但是在具体细节方面,我们可以认为他是合理的,但不一定是绝对准确的。因为sim的设计中有NVIDIA的人,在文档中有提到过。而且Sim所能使用的cuda还是4.0,所以NVIDIA可能会通过这个公布一些老版本架构里的细节,用于科研研究。

2.如果手上没有GPU,可以装这个仿真器来代替GPU跑cuda程序吗?

这个仿真器确实可以很好模拟比较老的架构,但是因为是串行模拟并行,所以一个在真实GPU上几秒就跑完的程序,在性能模拟模式下,在Sim里大概需要几个小时甚至一天 。但是Sim的配置文件里有一个选项(pure functional simulation:-gpgpu_ptx_sim_mode),可以只功能模拟,不输出性能信息,那个还是比较快的。而且根据sim文档中描述的,在GT200架构上的准确率是98.37%,在Fermi上的准确率是97.35%,已经很高了。

3.准确率是指什么?计算结果的准确性还是性能模拟的吻合度?

IPC的准确率,应该是指性能模拟。计算结果准确性的话,在研究方面不突出……

0 0
原创粉丝点击