cuda

    3热度

    4回答

    我在争论是否学习GP-GPU的东西,比如CUDA,或者是否推迟。我的问题领域(生物信息学)是这样的,它可能是很好的知道,因为我们的许多问题确实有大量的并行性,但大多数领域的人肯定不知道它。我的问题是,在实践中使用CUDA和其他GP-GPU技术的API有多困难?它是非常痛苦的,还是大部分复杂的封装?它是否感觉像“正常”编程,还是在图形卡上运行代码的复杂性的抽象性泄漏到不存在?

    18热度

    3回答

    如何在Cuda的设备内存中分配和传输(与主机)二维数组?

    3热度

    1回答

    在CUDA内核,我具有类似于下面的代码。我试图计算每个线程一个分子,并在分块上累积分子以计算分母,然后返回比率。然而,CUDA被设置为任何值的块计算NUMER由线程拥有最大threadIdx.x,而不是在块穿过的所有线程计算的NUMER值的总和DENOM的价值。有谁知道发生了什么事? extern __shared__ float s_shared[]; float numer = //cal

    3热度

    6回答

    通常,当我使用Visual Studio进行构建时,会看到输出窗格中显示的警告和错误,例如, 1>------ Build started: Project: pdcuda, Configuration: Release x64 ------ Compiling... foo.cpp Linking... foo.obj : error LNK2001: unresolved extern

    33热度

    4回答

    在编写CUDA应用程序,您可以在驱动程序级别或在运行时级别在这个图像上所示的工作(该库是CUFFT和CUBLAS的高等数学): 我认为两者之间的权衡是降低低级API的性能,但代价是代码复杂度增加。具体的区别是什么?有没有什么重要的事情你不能用高级API来做? 我使用CUDA.net与C#进行互操作,并将它构建为驱动程序API的副本。这鼓励在C#中编写大量相当复杂的代码,而使用运行时API可以使C+

    5热度

    4回答

    我试图利用常量内存,但我很难搞清楚如何嵌套数组。我拥有的是一系列数据,这些数据可以用于内部数据,但每个条目的数据都不相同。所以基于以下简化代码,我有两个问题。首先,我不知道如何分配数据结构成员指向的数据。其次,由于我不能将cudaGetSymbolAddress用于常量内存,我不确定是否可以传递全局指针(无法用普通的__device__内存)。 struct __align(16)__ data

    1热度

    2回答

    我如何开始使用Ubuntu 9.04上的CUDA开发?有没有预先编译的二进制文件?默认加速驱动程序是否足够? 我的想法是实际上使用OpenCL,但现在似乎很难做到,所以我认为我会先从CUDA开始,然后将应用程序移植到OpenCL,当它更容易获得时。

    44热度

    6回答

    有谁知道采用了NVIDIA的CUDA library它实现标准的压缩方法(如邮编,GZIP,也可选择bzip2,LZMA,...)的一个项目? 我在想,如果算法,它可以利用大量的并行任务(如压缩),会不会更快的图形卡上比双核或四核CPU上运行。 您如何看待这种方法的优点和缺点?

    12热度

    2回答

    是否有我可以使用的CUDA的#define编译器(nvcc)宏? (像_WIN32 for Windows等)。 我需要这个头文件代码,这将是常见的nvcc和VC++编译器。我知道我可以继续并定义自己的身份,并将它作为参数传递给nvcc编译器(-D),但如果已经定义了一个参数,它会很好。

    2热度

    4回答

    我正在研究C#库,它使用NVIDIA的CUDA将某些工作任务卸载到GPU。这样的一个例子是添加一起使用的扩展方法的两个阵列: float[] a = new float[]{ ... } float[] b = new float[]{ ... } float[] c = a.Add(b); 在此代码的工作是在GPU上完成的。但是,我希望它是异步完成的,只有当需要结果时才会在CPU模块上运