cuda

    3热度

    1回答

    我想通过CUDA代码将现有项目的某些部分移植到GPU。我知道cmake有选项(find_cuda ...)来单独处理.cu文件,但我仍在试图弄清楚这个生态系统如何在现有项目中使用。 我的问题是以下。假设我有一个带有cmake配置文件(CMakeLists)的现有C++项目。目前的做法是什么(如果可能的话)包括CUDA内核? CMakeLists可以以某种方式构建,.cu文件仅在GPU存在时编译?

    -4热度

    1回答

    我希望了解为什么在将内核初始化之后从设备到主机复制bools阵列d_unique时,为什么会出现下列程序崩溃。 我的GPU是Quadro K1000M(移动计算能力3.0)。我与CUDA版本的工作8. #include <iostream> // nvcc -ccbin g++ -g -m64 -gencode arch=compute_30,code=sm_30 -o Bug Bug.cu

    2热度

    2回答

    我意识到这已经被问了很多,但我一直在试图调试这一天,并且我还没有找到解决方案,这将解决我的问题。 所以,我有一个makefile: if(GPU) # set(CUDA_HOST_COMPILER /usr/bin/gcc-4.8) find_package(CUDA QUIET) if(CUDA_FOUND) include_directories(${CUD

    0热度

    1回答

    我有兴趣获得并发cuda内核的内存性能计数器。我试图使用几个nvprof选项,如--metrics all和--print-gpu-trace。输出似乎表明内核不再是并发的。每个内核的并发性能指标与单独运行每个内核的指标几乎完全相同。我认为这些并发内核按顺序运行。我怎么能得到并发内核的内存性能指标计数器,例如L2缓存?

    0热度

    1回答

    如果我运行以下命令: c++ -c --std=c++11 $(includes) -o src/main.o src/main.cpp nvcc -c -m64 -arch=sm_30 --std=c++11 $(includes) -o src/kernels/add.o src/kernels/add.cu ar qc src/kernels/libkernels.a src/kerne

    -1热度

    1回答

    我有一个序列长度不同的数组,每个序列以'>'结尾。 seq = [a,b,f,g,c,d,>,b,g,d,> ....]。我计算了每个序列的长度并将其存储在一个名为seq_length = [6,3,5,...]的不同数组中。然后,我使用排他扫描来计算偏移量并将其存储在一个名为offset = [0,6,9,...]的数组中。 我想要的是让每个块通过使用偏移值从数组seq []中读取一个序列。例如

    0热度

    1回答

    我想我的C++只项目CUDA代码在GPU上运行的转换。 我是新来的CUDA编程,我不知道如何处理这种情况下做的: 如果我有一个非常复杂的类定义,现在我想一个类实例传递给设备并执行它的一些成员函数在设备上,然后我应该重写我的整个.cpp文件。我是否只需要将设备上运行的这些功能转换为__host__ __device__或者是否应该重写所有功能? 我认为没有功能类型限定为__host__nvcc治疗功

    2热度

    1回答

    我正在尝试使用CMake和Visual Studio 2017编译CUDA项目, 但构建失败,详情如下。 系统: 的Windows 10 Pro的64 Visual Studio企业版2017年15.3.2 CUDA 9 RC(版本9.0.103) 的CMake 3.9.1(发电机:Visual Studio的2017年15 Win64中) 虚设项目: 的CMakeLists.txt cmake_

    3热度

    2回答

    我目前正在尝试使用CUDA 9.0RC编译OpenCV 3.3,但无法完成所有工作。 (在Windows上编译,用CMake 3.9和Visual Studio 2017,用于x64 Windows) 首先,如果我尝试在没有CUDA的情况下编译OpenCV,那么一切正常。 在那之后,我加入C进行“WITH CUDA”选项,与所有正确的路径,和Visual Studio给我这个错误: 9>-----

    1热度

    1回答

    我有一个二进制图像作为输入。二进制图像包含前景中的几个不相交区域。 对于不在某个区域的每个像素,我想知道距离最近区域边界的距离。这是一个标准的图像处理算法?如果是这样,那叫什么?它看起来与距离变换算法不同。 我想出的bruteforce解决方案是使用Sobel边缘检测区域边界。然后,对于不在某个区域中的每个像素,计算与所有边界像素的距离并取最小值。 我将在CUDA中实现它,所以我在考虑将边界像素放