我想在我的GPU上设置一个大矩阵来解决带有CULA的方程式系统。 为你一些数字,来理解这个问题: big matrix: 400x400
small matrices: 200x200
现在我想小矩阵的每个季度(100x100)复制到第二个矩阵的特定部分。 我发现了两个可能的但明显很慢的例子:cublasSetMatrix和cublasGetMatrix支持主要维度的规范,所以我可以把这些
例如, cublasStatus_t cublasSgemm(cublasHandle_t handle,
cublasOperation_t transa, cublasOperation_t transb,
int m, int n, int k,
const float *alpha,
const float
所以我有一个执行矩阵乘法的代码,但问题是当我使用库-lcublas和编译器nvcc时,它只返回零值;然而,当我使用编译器时,代码运行良好,只需对函数名进行一些调整,g ++与库-lblas即可。 您可以使用-lcublas库从不在GPU上的内存执行矩阵乘法吗? 下面是返回0的代码: extern "C" //external reference to function so the code co