基于指令的移植方式的几个重要概念的理解(OpenHMPP, OpenACC)

来源:互联网 发布:js获取ip地址 编辑:程序博客网 时间:2024/06/14 05:48
分类: OpenACC HMPP 695人阅读 评论(0) 收藏 举报

引言:

    什么是基于指令的移植方式呢?首先我这里说的移植可以理解为把原先在CPU上跑的程序放到像GPU一样的协处理器上跑的这个过程。在英文里可以叫Porting。移植有两种方式:一种是使用CUDA或者OpenCL来重新设计代码,然后使用硬件厂商提供的编译器来编译;一种是使用OpenACC或者OpenHMPP提供的指令集添加到你想使用GPU计算的源代码中的某个位置,让编译器来编译出GPU上执行的代码。后一种方式就是基于指令的移植方式。   

     例如,下面一个简单的循环:

[cpp] view plaincopy
  1. for (i=0; i<n;i++)  
  2. {  
  3.     dosomething(i);  
  4. }  

如果你想把这个循环放到GPU上,让每个线程计算一次i的话,可以这样做:

#pragma acc kernels

[cpp] view plaincopy
  1. for (i=0; i<n;i++)  
  2. {  
  3.     dosomething(i);  
  4. }  


网格化(gridification):
    这样,编译器拿到加了OpenACC指令的那段代码后,就会把你的循环放到GPU或者其他硬件加速器(例如MIC)上。编译器分析了#pragma acc kernels下面的那个循环,就会根据循环的次数来分配线程数量,这个过程就叫网格化。为什么说是网格化呢?可以这样理解,因为GPU可以启动很多线程,这些线程就像一张渔网一样,可以认为一个网格代表一个线程,所以我就干脆叫这个过程为“网格化”了。

 内核(kernel)

    在OpenACC里可以这样理解内核:内核就是在协处理器(例如GPU)上被多个线程同时执行的一段代码。如果每个线程都做一个活,岂不是没意思了么?当然不是这样的,他们执行的代码是一样的,但是每个线程可以根据自己的ID号来针对不同的数据做同样的工作,这也就是数据并行的含义。

 

codelet

    使用CAPS的HMPP Workbench编译加了OpenACC指导语句的源代码时,编译器会告诉你codelet产生了。实际上产生了一个CUDA或者OpenCL的源文件,这个源文件中包含了根据你的指导语句生成的CUDA或者OpenCL的源代码。那什么是codelet呢?可以认为codelet就是数据管理+内核。一个codelet要干的事情包括两部分:申请和管理CPU和协处理器之间的存储,还有就是启动在协处理上执行的代码。

 

work-sharing

    这个词可以理解为名词“共享工作”。如果在协处理器上的线程们执行的工作时work-sharing的,那么每个线程可以根据自己的ID在不同的数据上干了相似的工作。这个词是在使用OpenACC或者OpenHMPP移植代码的时候遇到的,它描述的是CPU的串行代码中的状态,例如:

[cpp] view plaincopy
  1. for (i=0; i<n; i++)  
  2. {  
  3.     a[i] = i;  
  4. }  


在这段代码中,a[i]的计算与a[i]之外的a的元素没有依赖性,所以,每次循环的i可以使独立的完成的,像这样的状态就是work-sharing的。还有例如规约,

 

 

[cpp] view plaincopy
  1. s = 0;  
  2. for (i=0; i<n; i++)  
  3. {  
  4.    s+=a[i];  
  5. }  


 虽然s的计算与i相关,但是细想一下,加法在数学上市满足交换律的,s的每次加a[i]实际上不相关的,你不管以什么顺序加和a[i]到s,解结果总是一样的。所以规约也可以理解为是worksharing 的。就说这么多吧。如果大家有什么问题,欢迎给我留言奥。

0 0
原创粉丝点击