一般来说,对于GPU来说,哪种访问模式更快(从连续的全局内存块中读取数据)?关于全局内存访问方法
(1)for循环有螺纹,以从全局存储器读取的块数据的单个或非常小的数;
(2)让很多线程的,也许从不同的块,能够同时从全局存储器读取数据。
例如
if (threadIdx.x==0)
{
for (int i=0; i<1000; ++i)
buffer[i]=data[i];//data is stored in global memory
}
OR:
buffer[threadIdx.x]=data[threadIdx.x];//there are 1000 threads in this thread block
这可能取决于你下一步要做什么。 – 2013-03-16 21:19:44