[CUDA]共享内存

来源：互联网发布：guwan.com域名交易编辑：程序博客网时间：2024/05/29 10:23

博客分类

于GPU上启动的每个线程块上的共享内存，CUDA C编译器都会创建该变量的一个副本。同一线程块的每个线程都共享这块内存，但是线程无法看到也不能修改其他线程块中的共享内存。这样做可以使得一个线程块中的多个线程能够在计算上通信和协作。

共享内存缓冲区驻留在物理GUP上，因此访问共享内存的延迟远远低于访问普通缓冲区的延迟。

共享内存的声明方式是在前面加上 __shared__

伦理片 http://www.dotdy.com/

为了保持进程同步，可以使用cuda的函数__syncthreads();。这个函数的作用是为了确保线程块的每个线程都执行完__syncthreads();之前的语句后，才会执行下面的语句。

出于易于理解，写了一个简单的程序，大致功能就是对于一列数，每四个数字进行逆转位置

1 2 3 4 5 6 7 8 ----》 4 3 2 1 8 7 6 5

Cpp代码  
#include<cuda_runtime.h>  
#include<windows.h>  
#include<iostream>  
using namespace std;  
const int nMax = 50;  
__global__ void exchangeKernel(float *aaa)  
{  
    int offset = threadIdx.x + blockDim.x * blockIdx.x;  
    int x = threadIdx.x;  
    __shared__ float tmp[4];  
    int a = offset / 4;  
    a = (a + 1) * 4 - (offset - a * 4) - 1; ///a为同一个block对应位置的offset  
    tmp[x] = aaa[a];  
  
    __syncthreads();  
    aaa[offset] = tmp[x];  
}  
  
int main(){  
    float a[nMax];  
    float *devA;  
    for (int i = 0; i < nMax; i++){  
        a[i] = i;  
    }  
    cudaMalloc((void**)&devA, nMax*sizeof(float));  
  
    cudaMemcpy(devA, a, nMax*sizeof(float), cudaMemcpyHostToDevice);  
  
    exchangeKernel << <10, 4 >> >(devA );  
  
    cudaMemcpy(a, devA, nMax*sizeof(float), cudaMemcpyDeviceToHost);  
  
  
    for (int i = 0; i < 40; i++){  
        cout << a[i] << " ";  
    }cout << endl;  
    cudaFree(devA);  
    cin >> a[0];  
    return 0;  
}  

影音先锋电影 http://www.iskdy.com/

0 0