cublas

0热度

1回答

的cubin我有个CUDA核心，看起来像下面这样： #include <cublas_v2.h> #include <math_constants.h> #include <stdio.h> extern "C" { __device__ float ONE = 1.0f; __device__ float M_ONE = -1.0f; __device_

1热度

1回答

通过引用CUDA指针进行CUDA矩阵反转

目前我只是试图在基于curabas和CUDA的矩阵形式中实现简单的线性回归算法。矩阵乘法和换位与cublasSgemm函数一起工作良好。问题从矩阵求逆开始，基于cublas<t>getrfBatched()和cublas<t>getriBatched()函数（请参见here）。可以看出，这些函数的输入参数 - 指向矩阵的指针数组。想象一下，我已经在GPU上分配的内存（A^T * A）矩阵先前计

1热度

2回答

错误在mex中使用cublasSgemmBatched

我想在mex文件中使用cublasSgemmBatched从matlab中乘以多个矩阵。我MATLAB代码非常简单： gpuDevice(1); a = single(rand(400,10,1500,'gpuArray')); b = single(rand(10,12,1500,'gpuArray')); c = MatCuda(a,b) 我得到以下错误：使用gpuArray /的

1热度

1回答

CUBLAS Library允许的cublasDgetrfBatched（）允许的最大批量大小

CUBLAS库是否存在cublasDgetrfBatched()的最大批量限制？我正在做一个比较CPU和GPU之间时序的基准问题。对于1000的批量处理，我正在让GPU时序大于CPU时序。但是，对于100的批量处理，我正在通过CPU获得一些加速。我在下面发布了用于基准测试的代码。 1. main.cpp /*main.cpp goes below*/ #include<stdio.h> #i

-1热度

1回答

为什么使用cuBLAS计算L2规范会导致错误？

编辑2：包括更完整的程序编辑1：包括完整的程序我试图计算使用CUBLAS向量的L2范数。我的代码如下 void GPU_Print_Matrix(real_t *A, int nrows, int ncols) { real_t *hostA = (real_t*)malloc(nrows*ncols * sizeof(real_t)); CUDA_SAFE_CALL(cu

0热度

2回答

矩阵列与CUBLAS

我有大小10x20的输入矩阵的置换，我想如下来排列其列： p=[1 4 2 3 5 11 7 13 6 12 8 14 17 9 15 18 10 16 19 20] ;%rearrange the columns of A A=A(:,p); 为此，我构造对应于该置换矢量p我的置换矩阵并且可以通过执行以下乘法来获得排列A： A=A*I 我在Matlab中测试了排列，一切正常。现

0热度

1回答

在OpenAcc中使用cuBLAS

我想用cublasDgemm（）替换对“cblas_dgemm（）”的调用。下面是从鲨鱼机器学习库中的原始包装： inline void gemm( CBLAS_ORDER const Order, CBLAS_TRANSPOSE TransA, CBLAS_TRANSPOSE TransB, int M, int N, int K, double alpha, dou

0热度

1回答

cublasSgemm无效__global__读

当试图执行使用cublasSgemm程序的张量矩阵的产品，地址越界发生错误，它的一个例子提供如下： - ========= Invalid __global__ read of size 4 ========= at 0x000019f8 in sgemm_sm35_ldg_nn_64x16x64x16x16 ========= by thread (6,3,0) in block (6,

0热度

1回答

从“magma_dgeqrf2_gpu”（这是一个通用矩阵）的结果中提取上三角矩阵而不转移到主机

我正在构建一个内核，其中使用Magma函数magma_dgeqrf2_gpu执行QR分解。此输出上三角矩阵R到GPU设备上的常规基质D_A。不转移D_A回主机（因为我需要进一步操作GPU），有只减少或提取D_A到装置上的上三角矩阵R一个lib方式吗？

1热度

1回答

Cublas和NaN？

cubs如何处理NaNs？无论何时操作对NaN使用IEEE 754定义的行为，cublas函数是否总是处理NaN？我特别感兴趣的是他们如何处理他们的gemm和批量gemm例程中的NaNs，就我测试的结果而言，NaNs的结果符合标准，但是在cuda文档中没有提到这个，所以我有点有点不确定，正确处理NaN对我的代码的正确性至关重要。