cublas

    0热度

    1回答

    的cubin我有个CUDA核心,看起来像下面这样: #include <cublas_v2.h> #include <math_constants.h> #include <stdio.h> extern "C" { __device__ float ONE = 1.0f; __device__ float M_ONE = -1.0f; __device_

    1热度

    1回答

    目前我只是试图在基于curabas和CUDA的矩阵形式中实现简单的线性回归算法。矩阵乘法和换位与cublasSgemm函数一起工作良好。 问题从矩阵求逆开始,基于cublas<t>getrfBatched()和cublas<t>getriBatched()函数(请参见here)。 可以看出,这些函数的输入参数 - 指向矩阵的指针数组。想象一下,我已经在GPU上分配的内存(A^T * A)矩阵先前计

    1热度

    2回答

    我想在mex文件中使用cublasSgemmBatched从matlab中乘以多个矩阵。 我MATLAB代码非常简单: gpuDevice(1); a = single(rand(400,10,1500,'gpuArray')); b = single(rand(10,12,1500,'gpuArray')); c = MatCuda(a,b) 我得到以下错误:使用gpuArray /的

    1热度

    1回答

    CUBLAS库是否存在cublasDgetrfBatched()的最大批量限制?我正在做一个比较CPU和GPU之间时序的基准问题。对于1000的批量处理,我正在让GPU时序大于CPU时序。但是,对于100的批量处理,我正在通过CPU获得一些加速。 我在下面发布了用于基准测试的代码。 1. main.cpp /*main.cpp goes below*/ #include<stdio.h> #i

    -1热度

    1回答

    编辑2:包括更完整的程序 编辑1:包括完整的程序 我试图计算使用CUBLAS向量的L2范数。我的代码如下 void GPU_Print_Matrix(real_t *A, int nrows, int ncols) { real_t *hostA = (real_t*)malloc(nrows*ncols * sizeof(real_t)); CUDA_SAFE_CALL(cu

    0热度

    2回答

    我有大小10x20的输入矩阵的置换,我想如下来排列其列: p=[1 4 2 3 5 11 7 13 6 12 8 14 17 9 15 18 10 16 19 20] ;%rearrange the columns of A A=A(:,p); 为此,我构造对应于该置换矢量p我的置换矩阵并且可以通过执行以下乘法来获得排列A: A=A*I 我在Matlab中测试了排列,一切正常。现

    0热度

    1回答

    我想用cublasDgemm()替换对“cblas_dgemm()”的调用。下面是从鲨鱼机器学习库中的原始包装: inline void gemm( CBLAS_ORDER const Order, CBLAS_TRANSPOSE TransA, CBLAS_TRANSPOSE TransB, int M, int N, int K, double alpha, dou

    0热度

    1回答

    当试图执行使用cublasSgemm程序的张量矩阵的产品,地址越界发生错误,它的一个例子提供如下: - ========= Invalid __global__ read of size 4 ========= at 0x000019f8 in sgemm_sm35_ldg_nn_64x16x64x16x16 ========= by thread (6,3,0) in block (6,

    0热度

    1回答

    我正在构建一个内核,其中使用Magma函数magma_dgeqrf2_gpu执行QR分解。此输出上三角矩阵R到GPU设备上的常规基质D_A。 不转移D_A回主机(因为我需要进一步操作GPU),有只减少或提取D_A到装置上的上三角矩阵R一个lib方式吗?

    1热度

    1回答

    cubs如何处理NaNs?无论何时操作对NaN使用IEEE 754定义的行为,cublas函数是否总是处理NaN?我特别感兴趣的是他们如何处理他们的gemm和批量gemm例程中的NaNs,就我测试的结果而言,NaNs的结果符合标准,但是在cuda文档中没有提到这个,所以我有点有点不确定,正确处理NaN对我的代码的正确性至关重要。