cublas

    0热度

    2回答

    我是cuda的新手。我想在cuda程序中使用cublas功能,并希望知道如何使用它的过程。由于我的程序发出错误,即*“cublas_v2.h文件不存在”*当我尝试在GPU上运行时。

    2热度

    3回答

    我有一个M*N主机内存矩阵,并在复制到设备内存时,我需要它被转置为N*M矩阵。有没有任何cuda(cuBLAS ...)API这样做?我正在使用CUDA 4.谢谢!

    0热度

    1回答

    这听起来很奇怪,但情况是,在将CUDA4升级到CUDA5后,我发现自己的内核运行得更快,但cublas函数(例如cublasDgemm)变慢。此外,cublasDgemm似乎在版本5中调用了一些岩浆东西。 所以,我想知道我是否可以导入版本4的“cublas”,而导入版本-5的“cudart”库。作为一个简单的试用,我有一个代码(mycode.cc): #include <iostream> #i

    0热度

    2回答

    我有兴趣了解在计算矩阵乘法(C = A * B)时如何将cublasSgemm/clAmdBlasSgemm例程映射到GPU上。 假设输入矩阵的维数为:A_rows = 6144; A_cols = 12288; B_rows = 12288; B_cols = 15360; 和结果矩阵的维数:: C_rows = 6144; C_cols = 15360; 假设我已经初始化主机上的输入矩阵,并将

    1热度

    2回答

    测量有效带宽 所以我想知道如何计算总内存有效带宽: cublasSdot(handle, M, devPtrA, 1, devPtrB, 1, &curesult); 如该功能初级讲座,以cublas_v2.h 该函数在0.46毫秒运行,矢量是10000 * sizeof(float) 我有((10000 * 4)/10^9)/0.00046 = 0.086 GB/s? 我想知道它是因为我不知

    0热度

    1回答

    嗨,我正在使用cuBLAS做一些矩阵操作。 偶尔,我需要获取或设置单个矩阵元素。 按CUBLAS文档,矩阵分配是这样的: cudaMalloc((void**)&pArrayDev,sizeof(float)*numRows*numCols); cublasSetMatrix(numRows,numCols,sizeof(float),pArray,numRows,pArrayDev

    4热度

    2回答

    我正在使用CUDA和cuBLAS来执行矩阵操作。 我需要总结矩阵的行(或列)。目前我正在通过将矩阵乘以一个矢量来实现,但这看起来效率不高。 有没有更好的方法?在cuBLAS找不到任何东西。 谢谢。

    1热度

    2回答

    我的问题:我有尺寸约5000x5000的5维对角单精度矩阵(所以有〜25000个非零元素),并且必须求解线性方程组。使用“\”运算符时,MATLAB使其达到〜1 ms。我试着用CUDA实现它,并遇到以下问题。首先,CUBLAS不能求解非三角形的线性方程组,并且没有任何因式分解函数(getrfBatched(),受32x32维度限制)。好的,我使用了CULA库的免费版本,计算时间太慢,因为这个版本没

    1热度

    1回答

    我对我的cuda内核的实现有个疑问。 我生成了一个cude内核,我想添加cuDoubleComplex变量的元素。后来我还想对元素进行一些乘法运算。 我尝试了几种方法,但找不到解决方案。 我的功能是: __global__ void process(double *fieldRange, double *fieldAzimut, double **recPosition, double **tra

    3热度

    1回答

    我试图编译一个使用动态并行性来运行CUBLAS到一个cubin文件的内核。 当我尝试使用命令 nvcc -cubin -m64 -lcudadevrt -lcublas_device -gencode arch=compute_35,code=sm_35 -o test.cubin -c test.cu 我得到ptxas fatal : Unresolved extern function '