cublas

-1热度

1回答

我想用cublasDgemm（）来计算矩阵的乘积的乘积。输入矩阵和输出我从我的代码期待有以下几种（A和C分别）： | 1 4 7 | | 66 78 | A = | 2 5 8 | C = | 78 93 | 不过我得到奇怪的结果，这是一个有点困难我理解维度CUBLAS/CUDA用途（专栏）。任何提示将不胜感激！ #include <stdio.h> #include <stdlib.h

1热度

1回答

第一个tf.session.run（）与以后的运行有很大不同。为什么？

这里是为了澄清我的意思是一个例子：首先session.run（）： First run of a TensorFlow session 后来session.run（）： Later runs of a TensorFlow session 我明白TensorFlow在这里做一些初始化，但我想知道这在源代码中的位置。这发生在CPU和GPU上，但在GPU上效果更加突出。例如，在明确的Conv2D操作

0热度

1回答

在alea GPU上使用cuBLAS的矩阵乘法

我想在Alea GPU上使用Gemm进行矩阵乘法，但是，这段代码给出了错误的结果。 Gpu gpu = Gpu.Default; Blas blas = new Blas(gpu); int m=2,n=3; //in dimension and out dimension (output will be mxn matrix) int k=4; //column major flo

2热度

2回答

原因：没有找到图片tensorflow GPU

我已经安装了tensorflow GPU与NVIDIA CUDA在Mac书临2012mid（英伟达GT 650M）但是当我运行简单的程序tensorflow发生image not found错误。我搜索了一下，发现这个错误与cuda安装有关。 [[[我已经检查都是]]] libcudart.8,0.dylib在这里 /usr/local/cuda/lib/libcudart.8.0.dylib

0热度

1回答

使用GPU的cublasDgbmv的系数矩阵

我是GPU的新手，我想用GPU解决大型矩阵矢量乘法。我试图用“cublasDgbmv”解决它，因为矩阵是带状矩阵。我试图用一个简单的例子来实现这个命令。这是我写的代码： /* system of equations sol=A*b: A=[1 2 3 0 0 0 2 -1 4 1 0 0 3 4 5 -1 7 0 0 1 -1 3 8 9 0 0

0热度

1回答

使用来自Thrust的复数的cuBLAS

在我的代码中，我使用了来自推力库的复数数组，并且我想使用cublasZgeam（）来转置数组。使用cuComplex.h中的复数不是一个可取的选择，因为我在数组上做了很多算术运算，cuComplex没有定义运算符，如* + =。我这是怎么定义的数组，我要转 thrust::complex<float> u[xmax][xmax]; 我发现这个https://github.com/jtrav

18热度

1回答

cuBLAS（numba）中的非正方形C顺序矩阵

我正尝试在Anaconda的Numba软件包中使用cuBLAS函数并出现问题。我需要输入矩阵按照C顺序。输出可以使用Fortran顺序。我可以运行该软件包提供的示例脚本，here。该脚本有两个功能，gemm_v1和gemm_v2。在gemm_v1中，用户必须按照Fortran顺序创建输入矩阵。在gemm_v2中，它们可以传递给GEMM的cuda实现并转换到设备上。我可以用这些例子来处理矩阵。但是

1热度

1回答

如何将稠密矢量转换为CUDA中的稀疏矢量？

我在GPU存储器大的致密的载体（未矩阵）： [1,3,0,0,4,0,0] ，并希望将其转换成稀疏格式： values = [1,3,4];指数= [0,1,4] 我知道可以在cuSPARSE调用cusparse<t>dense2csc()，但是这设计为矩阵，并且可能不是高效的矢量。有没有其他方法可以做到这一点？或者也许是一个CUDA内核。由于

1热度

1回答

CUDA matrixMultiplyCUBLAS示例错误：CUBLAS_STATUS_NOT_INITIALIZED

你好我已经安装了cuda 8.0，并且我已经编译了cuda示例。我试图运行matrixMulCUBLAS示例，但出现以下错误。 ./matrixMulCUBLAS [Matrix Multiply CUBLAS] - Starting... GPU Device 0: "GeForce GTX 1080 Ti" with compute capability 6.1 MatrixA(64

0热度

1回答

CuSparse/CUBLAS K40 VS GTX泰坦X（麦克斯韦）

我使用既特斯拉K40和GTX泰坦X和予有Cuda的8.0 ，我使用是CUBLAS和CuSparse库函数的功能： cusparseDcsrsv2_solve（）; cusparseDcsrmv（）; cublasDdot（）; 为什么GTX Titan X比K40快？我正在编译nvcc标志，所有计算能力从3.0到6.0 和我的程序处理9 GB/12 GB RAM。关于我库函数不使用双精度，因为