dynamic-parallelism

2热度

1回答

我正在尝试编译和链接动态内核，并在GK110上与CUDA驱动程序API一起使用。我编译在Visual Studio中与重定位装置代码标记和compute_35，sm_35的.CU源文件到PTX文件，然后的CUDA接头增加了cudadevrt.lib（至少它试图根据链接器调用）。当我在ptx .obj上做一个cuModuleLoad时，它说不支持的设备代码。还有一个.device-link.obj

0热度

1回答

并行化来自CUDA设备函数/内核的方法

我已经有一个已经并行化的CUDA内核，它执行一些需要频繁插值的任务。所以这是一个内核 __global__ void complexStuff(...) 它调用一次或多次该插补设备功能： __device__ void interpolate(...) 插值算法做了WENO插在连续三个维度。这是一个高度可并行化的任务，我迫切希望并行化！很明显，通过使用<<<...>>>语法从主机代码调

1热度

1回答

CUDA - 如何使线程在内核中等待它的孩子

我想实现一个非常简单的合并排序使用CUDA递归（对于cm> 35）技术，但我找不到方法来告诉父线程以因为cudaEventSynchronize（）和cudaStreamSynchronize（）仅是主机，所以同时启动它的子项并等待其子项计算。 __syncthread（）不会归档所需的效果，因为父项的下一行只应在子项完成所有计算后才执行。 __global__ void simple_merge

0热度

2回答

CMake生成一个针对较新设备的MSVC CUDA项目

我的电脑有一个GTX 580（计算能力2.0）。我想编译一个使用动态并行性的CUDA源代码，这是计算能力3.5中引入的一项功能。我知道我将无法在我的GPU上运行该程序，但是，应该可以在我的机器上编译此代码。我假设这是因为我可以毫无问题地编译使用3.5功能的CUDA示例。这些示例带有“手动生成”的Visual Studio项目（我猜）。我相信我的问题是CMake。我使用CMake生成一个Vis

0热度

1回答

Nvidia Jetson TK1开发板 - Cuda计算能力

我对这个部署套件印象非常深刻。这张卡似乎不是购买新的CUDA卡，而是需要新的主板等。它的规格说它具有CUDA计算能力3.2。 AFAIK动态并行性和更多附带cm_35，cuda计算能力3.5。此卡是否支持开普勒架构的动态并行性和HyperQ功能？

2热度

3回答

开普勒CUDA动态并行和线程发散

开普勒的dynamic parallelism很少有关于这项新技术的描述，这是否意味着在同一个warp中线程控制流散度问题得到了解决？它允许recursion和从设备代码执行内核，这是否意味着可以同时执行不同线程中的控制路径？

0热度

1回答

动态并行 - 启动许多小内核很慢

我正在尝试使用动态并行来改进我在CUDA中的算法。在我最初的CUDA解决方案中，每个线程计算每个块通用的数字。我想要做的是首先启动一个粗略的（或低分辨率）内核，其中线程只计算一次公共值（就像每个线程代表一个块一样）。然后每个线程创建一个1块（16x16线程）的小网格，并为其传递公共值启动一个子内核。从理论上讲，它应该更快，因为它可以节省许多冗余操作。但实际上，解决方案的工作非常缓慢，我不知道为什么