我一直在写我的特斯拉K20m,内核,当我编译-Xptas = -v软件我得到如下结果:改变CUDA拱的论点让我用更多的寄存器
ptxas info : 0 bytes gmem
ptxas info : Compiling entry function '_Z9searchKMPPciPhiPiS1_' for 'sm_10'
ptxas info : Used 8 registers, 80 bytes smem, 8 bytes cmem[1]
为你可以看到,只有8个寄存器使用,但是,如果我提到的论点-arch = sm_35我的内核执行时间显着提高和太习惯寄存器的数量,我想知道为什么
nvcc mysoftware.cu -Xptxas=-v -arch=sm_35
ptxas info : 0 bytes gmem
ptxas info : Compiling entry function '_Z9searchKMPPciPhiPiS1_' for 'sm_35'
ptxas info : Function properties for _Z9searchKMPPciPhiPiS1_
0 bytes stack frame, 0 bytes spill stores, 0 bytes spill loads
ptxas info : Used 21 registers, 16 bytes smem, 368 bytes cmem[0]
自有人提到多本书,使用正确的架构为卡为了提高性能,我想知道为什么我的显着减少。
谢谢。
编辑: 类似的问题和答案:Registers and shared memory depending on compiling compute capability?
它看起来像编译器正在做出不同的优化决策。你能提供一个你可以看到的简短的可编辑复制器吗?我对资源使用方面的变化没有那么感兴趣,因为我正处于您所报告的急剧放缓阶段。 – 2013-02-24 15:42:31
所以基本上,当我使用'sm_10'代码需要2.000235毫秒来执行,但是当使用'sm_35'代码需要2.538336到3.xxxxxx毫秒,这在这个内核的情况下是令人印象深刻的 – Anoracx 2013-02-24 15:45:15
我实际上不能给这个代码现在使用了一部分代码,它不是我的。 – Anoracx 2013-02-24 15:54:41