0
CUDA允许使用cuMemcpy异步函数和流重叠计算和数据传输。但是NPP(Performance Primitives)有可能吗?NPP:重叠计算和数据传输
有点背景。我试图利用GPU使用NPP图像调整大小功能(在我们的例子中,它是nppiResize_8u_C3R)。我使用固定内存并使用cuMemcpy2DAsync_v2和每个线程流成功地将数据传输到GPU。问题是nppiResize_8u_C3R和所有其他计算功能不接受流。
当我运行Nvidia的视觉探查我看到了未来:
- 固定的内存可以让我更快的传输数据 - 〜6.524 GB /秒。
- memcpy与compute并行执行的时间百分比为0%。
使用* nppSetStream *可以获得性能提升吗?我试过了,但没有成功。我有一种感觉,NPP并非针对并发或重叠场景而设计的,而要利用GPU,我需要直接使用CUDA驱动程序API。 –