2012-06-12 83 views
1

我正在使用粒子模拟器,并且遇到了一点瓶颈,使用无人机写入RWStructured单浮点缓冲区大约有10倍太慢。从实验来看,似乎没有带宽的短缺,但只是访问时间本身就让它减少了。由于外发数据需要按照特定顺序进行追加写入,所以不存在问题。这是在DX10/SM4硬件上,所以这里有几个问题:是否有任何方法来加快速度(除了写入更大的数据块以来,因为着色器的输出不连续)?如果不是那么DX11级别的硬件更快无人机?DirectCompute写入缓冲区速度

回答

0

第一件事(如果您还没有完成),配置您的着色器代码,是将GPU查询添加到您的系统。这里是一个链接来解释它:

http://mynameismjp.wordpress.com/2011/10/13/profiling-in-dx11-with-queries/

它在DX11,但特点是在DX10太多,所以它应该是非常简单的端口上。

经过计算有不同的方面,但首先一个会玩:

[numthreads(TGX, 1, 1)] 

尝试值像8,16,32,64,并试图找到甜蜜点(不要忘了除你的派遣)。