cublas

0热度

2回答

如何使用cublas库

我是cuda的新手。我想在cuda程序中使用cublas功能，并希望知道如何使用它的过程。由于我的程序发出错误，即*“cublas_v2.h文件不存在”*当我尝试在GPU上运行时。

2热度

3回答

在CUDA中转换矩阵的最有效方法是什么？

我有一个M*N主机内存矩阵，并在复制到设备内存时，我需要它被转置为N*M矩阵。有没有任何cuda（cuBLAS ...）API这样做？我正在使用CUDA 4.谢谢！

0热度

1回答

我可以导入“cublas”的版本4，而同时导入版本-5的“cudart”库吗？

这听起来很奇怪，但情况是，在将CUDA4升级到CUDA5后，我发现自己的内核运行得更快，但cublas函数（例如cublasDgemm）变慢。此外，cublasDgemm似乎在版本5中调用了一些岩浆东西。所以，我想知道我是否可以导入版本4的“cublas”，而导入版本-5的“cudart”库。作为一个简单的试用，我有一个代码（mycode.cc）： #include <iostream> #i

0热度

2回答

在调用cublasSgemm/clAmdBlasSgemm例程时如何将线程/块映射到GPU上？

我有兴趣了解在计算矩阵乘法（C = A * B）时如何将cublasSgemm/clAmdBlasSgemm例程映射到GPU上。假设输入矩阵的维数为：A_rows = 6144; A_cols = 12288; B_rows = 12288; B_cols = 15360; 和结果矩阵的维数:: C_rows = 6144; C_cols = 15360; 假设我已经初始化主机上的输入矩阵，并将

1热度

2回答

对CUDA

测量有效带宽所以我想知道如何计算总内存有效带宽： cublasSdot(handle, M, devPtrA, 1, devPtrB, 1, &curesult); 如该功能初级讲座，以cublas_v2.h 该函数在0.46毫秒运行，矢量是10000 * sizeof(float) 我有((10000 * 4)/10^9)/0.00046 = 0.086 GB/s？我想知道它是因为我不知

0热度

1回答

在cuBLAS中，如何从主机获取或设置矩阵元素？

嗨，我正在使用cuBLAS做一些矩阵操作。偶尔，我需要获取或设置单个矩阵元素。按CUBLAS文档，矩阵分配是这样的： cudaMalloc((void**)&pArrayDev,sizeof(float)*numRows*numCols); cublasSetMatrix(numRows,numCols,sizeof(float),pArray,numRows,pArrayDev

4热度

2回答

减少CUDA中的矩阵行或列

我正在使用CUDA和cuBLAS来执行矩阵操作。我需要总结矩阵的行（或列）。目前我正在通过将矩阵乘以一个矢量来实现，但这看起来效率不高。有没有更好的方法？在cuBLAS找不到任何东西。谢谢。

1热度

2回答

用CUDA解决带状稀疏矩阵线性等式

我的问题：我有尺寸约5000x5000的5维对角单精度矩阵（所以有〜25000个非零元素），并且必须求解线性方程组。使用“\”运算符时，MATLAB使其达到〜1 ms。我试着用CUDA实现它，并遇到以下问题。首先，CUBLAS不能求解非三角形的线性方程组，并且没有任何因式分解函数（getrfBatched（），受32x32维度限制）。好的，我使用了CULA库的免费版本，计算时间太慢，因为这个版本没

1热度

1回答

cuda-kernel中的cuDoubleComplex的操作

我对我的cuda内核的实现有个疑问。我生成了一个cude内核，我想添加cuDoubleComplex变量的元素。后来我还想对元素进行一些乘法运算。我尝试了几种方法，但找不到解决方案。我的功能是： __global__ void process(double *fieldRange, double *fieldAzimut, double **recPosition, double **tra

3热度

1回答

CUDA 5.0：CUBIN和CUBLAS_device，计算能力3.5

我试图编译一个使用动态并行性来运行CUBLAS到一个cubin文件的内核。当我尝试使用命令 nvcc -cubin -m64 -lcudadevrt -lcublas_device -gencode arch=compute_35,code=sm_35 -o test.cubin -c test.cu 我得到ptxas fatal : Unresolved extern function '