2014-05-12 21 views
4

从线程调度和内存带宽的角度来看,这两个块大小(1024x1与32x32)是如何执行的?这两种块尺寸的性能有任何预期的差异?请注意,每个块都使用1024个线程。CUDA blocksize 1024x1 vs 32x32会有任何性能差异吗?

+1

与索引关联的ALU操作的数量可能会影响性能,但它通常占执行的全部指令的次要百分比。用两种方式编写代码并区分程序集。 –

回答

3

线程块维度,特别是当我们谈论每个块的线程数相同时,不要单独影响性能。

线程仍然是grouped for execution into warps。线程块尺寸的唯一直接影响是改变内置变量,例如threadIdx.xblockIdx.x等传递给每个线程,这不是性能问题。

+0

这是有道理的。感谢您的洞察! – FundamentalAxiom

相关问题