我对cuda的调度系统有几个疑问。CUDA如何安排线程
答:当我使用例如foo < < < 255,255 >>()函数,卡内实际发生了什么?我知道每个SM从上级接收一个要安排的块,并且每个SM负责安排其传入的BLOCK,但是哪一部分执行?例如,如果我有8个SM,每个SM包含8个小CPU,则上级负责安排剩余的255 * 255 - (8 * 8)个线程?
B.什么是可以定义的最大线程的限制?我的意思是foo<<<X, Y>>>();
x,y =?
C.关于最后一个例子,一个块内可以有多少个线程?我们可以说,我们有更多的块/线程,执行速度会更快吗?
感谢您的帮助