会给你CUDA中4 * 4矩阵加法程序的插图。它可能会让你知道线程是如何启动和运行的。
int main()
{
int *a, *b, *c; //To store your matrix A & B in RAM. Result will be stored in matrix C
int *ad, *bd, *cd; // To store matrices into GPU's RAM.
int N =16;
//No of rows and columns.
size_t size=sizeof(float)* N * N;
a=(float*)malloc(size); //Allocate space of RAM for matrix A
b=(float*)malloc(size); //Allocate space of RAM for matrix B
//allocate memory on device
cudaMalloc(&ad,size);
cudaMalloc(&bd,size);
cudaMalloc(&cd,size);
//initialize host memory with its own indices
for(i=0;i<N;i++)
{
for(j=0;j<N;j++)
{
a[i * N + j]=(float)(i * N + j);
b[i * N + j]= -(float)(i * N + j);
}
}
//copy data from host memory to device memory
cudaMemcpy(ad, a, size, cudaMemcpyHostToDevice);
cudaMemcpy(bd, b, size, cudaMemcpyHostToDevice);
//calculate execution configuration
dim3 grid (1, 1, 1);
dim3 block (16, 1, 1);
//each block contains N * N threads, each thread calculates 1 data element
add_matrices<<<grid, block>>>(ad, bd, cd, N);
cudaMemcpy(c,cd,size,cudaMemcpyDeviceToHost);
printf("Matrix A was---\n");
for(i=0;i<N;i++)
{
for(j=0;j<N;j++)
printf("%f ",a[i*N+j]);
printf("\n");
}
printf("\nMatrix B was---\n");
for(i=0;i<N;i++)
{
for(j=0;j<N;j++)
printf("%f ",b[i*N+j]);
printf("\n");
}
printf("\nAddition of A and B gives C----\n");
for(i=0;i<N;i++)
{
for(j=0;j<N;j++)
printf("%f ",c[i*N+j]); //if correctly evaluated, all values will be 0
printf("\n");
}
//deallocate host and device memories
cudaFree(ad);
cudaFree(bd);
cudaFree (cd);
free(a);
free(b);
free(c);
getch();
return 1;
}
/////Kernel Part
__global__ void add_matrices(float *ad,float *bd,float *cd,int N)
{
int index;
index = blockIDx.x * blockDim.x + threadIDx.x
cd[index] = ad[index] + bd[index];
}
让我们有两个矩阵A和B添加16×16点的矩阵.. 的一个例子,其尺寸16 * 16 ..
所有你必须首先确定你的线程配置。 假设您将启动一个内核函数,它将执行矩阵加法的并行计算,这将在您的GPU设备上执行。
现在,一个网格启动时只有一个内核函数。 一个网格最多可以有65,535个块,它们可以以三维方式排列。 (65535 * 65535 * 65535)。
在网格中的每个块可以有最高1024不threads.Those线程也可以安排在3点维的方式(1024 * 1024 * 64)
现在我们的问题是,除了16×16点的矩阵..
A | 1 2 3 4 | B | 1 2 3 4 | C| 1 2 3 4 |
| 5 6 7 8 | + | 5 6 7 8 | = | 5 6 7 8 |
| 9 10 11 12 | | 9 10 11 12 | | 9 10 11 12 |
| 13 14 15 16| | 13 14 15 16| | 13 14 15 16|
我们需要16个线程来执行计算。
i.e. A(1,1) + B (1,1) = C(1,1)
A(1,2) + B (1,2) = C(1,2)
. . .
. . .
A(4,4) + B (4,4) = C(4,4)
所有这些线程将同时执行。 所以我们需要一个有16个线程的块。 为了方便起见,我们将在一个块中安排线程(16 * 1 * 1) 由于线程数不是16,所以我们只需要一个块来存储这16个线程。
这样,网格配置将是dim3 Grid(1,1,1)
即网格将仅具有一个块 和嵌段构型将是dim3 block(16,1,1)
即块将具有布置逐列16个线程。
以下程序会给你清晰的执行概念。 了解索引部分(即threadIDs,blockDim,blockID)是重要的部分。您需要阅读CUDA文献。一旦你对索引有了清晰的认识,你就会赢得一半的战斗。所以花一些时间与cuda书籍:-)
感谢您的答案。我了解有关启动大量线程的部分。 – mastercheif141
即将到来的第二部分我还没有得到如何添加其余的元素。因为只有64个线程被启动,所以在该块上仅存在两个warp。在添加了64个元素之后,将添加剩余的元素?如果是,那么通过哪些线程? – mastercheif141
@ mastercheif141我试图更好地解释你的第二个问题。见编辑的答案。 – JackOLantern