我有以下内容(片段)。当它是静态的(甚至相同的大小)它非常快,但是当CurrentProbs是动态分配的(如上)时,性能很糟糕。CUDA内核内部的内存分配
这个问题说,我可以这样做一个内核中:CUDA allocate memory in __device__ function
这里有一个相关的问题:Efficiency of Malloc function in CUDA
是否有任何其他方法已经比在本文提出的一个解决了这个其他的我不知道? 在没有这种惩罚的情况下,在内核中不能malloc/free是很荒谬的。
'tmp'来自您的伪代码? – talonmies 2012-03-21 14:24:18
抱歉 - tmp = nComponents [0]; – 2012-03-21 14:25:36
因此,每个内核调用都是不变的?如果是这样,为什么还要费神地分配内存分配? – talonmies 2012-03-21 15:02:58