DirectCompute写入缓冲区速度

我正在使用粒子模拟器，并且遇到了一点瓶颈，使用无人机写入RWStructured单浮点缓冲区大约有10倍太慢。从实验来看，似乎没有带宽的短缺，但只是访问时间本身就让它减少了。由于外发数据需要按照特定顺序进行追加写入，所以不存在问题。这是在DX10/SM4硬件上，所以这里有几个问题：是否有任何方法来加快速度（除了写入更大的数据块以来，因为着色器的输出不连续）？如果不是那么DX11级别的硬件更快无人机？DirectCompute写入缓冲区速度

来源

2012-06-12 Jake Freelander