1
在计算能力2.x设备上如何确保在使用映射固定内存时gpu使用合并内存访问,并假定通常在使用全局内存时2D数据需要填充?CUDA固定内存并合并
我似乎无法在任何地方找到有关此信息,也许我应该看起来更好,或者我失去了一些东西。在正确的方向的任何指针,欢迎...
在计算能力2.x设备上如何确保在使用映射固定内存时gpu使用合并内存访问,并假定通常在使用全局内存时2D数据需要填充?CUDA固定内存并合并
我似乎无法在任何地方找到有关此信息,也许我应该看起来更好,或者我失去了一些东西。在正确的方向的任何指针,欢迎...
的凝聚方法应该使用零拷贝内存时应用。引述CUDA C的最佳做法指南:
由于数据未在GPU缓存,映射 固定内存应该读取或写入一次,和全球负载和存储 读取和写入宜内存合并。
由S.库克引述“CUDA编程”一书中,
如果你想想可以访问全局内存发生,整个高速缓存行从内存带来的计算2.X硬件。即使在计算1.x硬件上,也会从全局内存中获取相同的128个字节,可能会减少到64或32个字节。 NVIDIA不会公布其使用的PCI-E传输大小,或者有关如何实现零复制的详细信息。但是,用于全局内存的合并方法可以用于PCI-E传输。如果有足够的算术密度来隐藏PCI-E传输的延迟,则warp内存延迟隐藏模型同样可以应用于PCI-E传输。