CUDA固定内存并合并

在计算能力2.x设备上如何确保在使用映射固定内存时gpu使用合并内存访问，并假定通常在使用全局内存时2D数据需要填充？CUDA固定内存并合并

我似乎无法在任何地方找到有关此信息，也许我应该看起来更好，或者我失去了一些东西。在正确的方向的任何指针，欢迎...

2013-09-30 Aktaeon

的凝聚方法应该使用零拷贝内存时应用。引述CUDA C的最佳做法指南：

由于数据未在GPU缓存，映射固定内存应该读取或写入一次，和全球负载和存储读取和写入宜内存合并。

由S.库克引述“CUDA编程”一书中，

如果你想想可以访问全局内存发生，整个高速缓存行从内存带来的计算2.X硬件。即使在计算1.x硬件上，也会从全局内存中获取相同的128个字节，可能会减少到64或32个字节。 NVIDIA不会公布其使用的PCI-E传输大小，或者有关如何实现零复制的详细信息。但是，用于全局内存的合并方法可以用于PCI-E传输。如果有足够的算术密度来隐藏PCI-E传输的延迟，则warp内存延迟隐藏模型同样可以应用于PCI-E传输。

来源

2013-09-30 20:11:46 JackOLantern

CUDA固定内存并合并

回答

相关问题