cuda

3热度

4回答

我在争论是否学习GP-GPU的东西，比如CUDA，或者是否推迟。我的问题领域（生物信息学）是这样的，它可能是很好的知道，因为我们的许多问题确实有大量的并行性，但大多数领域的人肯定不知道它。我的问题是，在实践中使用CUDA和其他GP-GPU技术的API有多困难？它是非常痛苦的，还是大部分复杂的封装？它是否感觉像“正常”编程，还是在图形卡上运行代码的复杂性的抽象性泄漏到不存在？

18热度

3回答

在CUDA的设备内存上分配二维数组

如何在Cuda的设备内存中分配和传输（与主机）二维数组？

3热度

1回答

CUDA共享存储器阵列 - 古怪行为

在CUDA内核，我具有类似于下面的代码。我试图计算每个线程一个分子，并在分块上累积分子以计算分母，然后返回比率。然而，CUDA被设置为任何值的块计算NUMER由线程拥有最大threadIdx.x，而不是在块穿过的所有线程计算的NUMER值的总和DENOM的价值。有谁知道发生了什么事？ extern __shared__ float s_shared[]; float numer = //cal

3热度

6回答

CUDA + Visual Studio =抑制输出窗口

通常，当我使用Visual Studio进行构建时，会看到输出窗格中显示的警告和错误，例如， 1>------ Build started: Project: pdcuda, Configuration: Release x64 ------ Compiling... foo.cpp Linking... foo.obj : error LNK2001: unresolved extern

33热度

4回答

CUDA驱动程序API对CUDA运行时

在编写CUDA应用程序，您可以在驱动程序级别或在运行时级别在这个图像上所示的工作（该库是CUFFT和CUBLAS的高等数学）：我认为两者之间的权衡是降低低级API的性能，但代价是代码复杂度增加。具体的区别是什么？有没有什么重要的事情你不能用高级API来做？我使用CUDA.net与C＃进行互操作，并将它构建为驱动程序API的副本。这鼓励在C＃中编写大量相当复杂的代码，而使用运行时API可以使C+

5热度

4回答

CUDA中的常量内存动态分配

我试图利用常量内存，但我很难搞清楚如何嵌套数组。我拥有的是一系列数据，这些数据可以用于内部数据，但每个条目的数据都不相同。所以基于以下简化代码，我有两个问题。首先，我不知道如何分配数据结构成员指向的数据。其次，由于我不能将cudaGetSymbolAddress用于常量内存，我不确定是否可以传递全局指针（无法用普通的__device__内存）。 struct __align(16)__ data

1热度

2回答

如何开始使用UBUNTU 9.04的CUDA开发？

我如何开始使用Ubuntu 9.04上的CUDA开发？有没有预先编译的二进制文件？默认加速驱动程序是否足够？我的想法是实际上使用OpenCL，但现在似乎很难做到，所以我认为我会先从CUDA开始，然后将应用程序移植到OpenCL，当它更容易获得时。

44热度

6回答

压缩库使用Nvidia的CUDA

有谁知道采用了NVIDIA的CUDA library它实现标准的压缩方法（如邮编，GZIP，也可选择bzip2，LZMA，...）的一个项目？我在想，如果算法，它可以利用大量的并行任务（如压缩），会不会更快的图形卡上比双核或四核CPU上运行。您如何看待这种方法的优点和缺点？

12热度

2回答

CUDA编译器（nvcc）宏

是否有我可以使用的CUDA的#define编译器（nvcc）宏？（像_WIN32 for Windows等）。我需要这个头文件代码，这将是常见的nvcc和VC++编译器。我知道我可以继续并定义自己的身份，并将它作为参数传递给nvcc编译器（-D），但如果已经定义了一个参数，它会很好。

2热度

4回答

如何阻塞，直到异步作业完成

我正在研究C＃库，它使用NVIDIA的CUDA将某些工作任务卸载到GPU。这样的一个例子是添加一起使用的扩展方法的两个阵列： float[] a = new float[]{ ... } float[] b = new float[]{ ... } float[] c = a.Add(b); 在此代码的工作是在GPU上完成的。但是，我希望它是异步完成的，只有当需要结果时才会在CPU模块上运