我正在研究一个需要时间效率的代码,因此使用Cufft来达到这个目的,但是当我尝试并行计算非常大的数据的fft时,它比cpu fftw慢,以及找到时间后找到的原因对于使用高精度时间码的每一行代码是cudamalloc需要大约0.983秒,而其余的代码行的时间大约为0.00xx秒,这是预期的...cudamalloc比cudamemcpy慢吗?
我已经经历了一些相关的职位,但根据他们
与GPU的主要延误是由于内存的传输不内存分配
而且也是它被写的帖子一个
的第一个调用的任何CUDA库函数启动一个初始化子程序
这是什么延迟的实际原因......或者在执行代码时有这种延迟是不正常的吗?
在此先感谢
你对进一步的调查是正确的,发现延迟只是在第一次调用任何cuda函数期间...而且由于我在VS 2008上工作,它很可能是由于PTX编译...将研究它详细...谢谢你的回复.. – snabbasi
+1在我的Linux机器上(不运行X),执行'nvidia-smi -pm 1'消除了运行CUDA程序时的启动延迟。谢谢! –