我试图利用常量内存,但我很难搞清楚如何嵌套数组。我拥有的是一系列数据,这些数据可以用于内部数据,但每个条目的数据都不相同。所以基于以下简化代码,我有两个问题。首先,我不知道如何分配数据结构成员指向的数据。其次,由于我不能将cudaGetSymbolAddress用于常量内存,我不确定是否可以传递全局指针(无法用普通的__device__内存)。
struct __align(16)__ data
我正在研究C#库,它使用NVIDIA的CUDA将某些工作任务卸载到GPU。这样的一个例子是添加一起使用的扩展方法的两个阵列: float[] a = new float[]{ ... }
float[] b = new float[]{ ... }
float[] c = a.Add(b);
在此代码的工作是在GPU上完成的。但是,我希望它是异步完成的,只有当需要结果时才会在CPU模块上运