dynamic-parallelism

    2热度

    1回答

    我正在尝试编译和链接动态内核,并在GK110上与CUDA驱动程序API一起使用。 我编译在Visual Studio中与重定位装置代码标记和compute_35,sm_35的.CU源文件到PTX文件,然后的CUDA接头增加了cudadevrt.lib(至少它试图根据链接器调用)。当我在ptx .obj上做一个cuModuleLoad时,它说不支持的设备代码。还有一个.device-link.obj

    0热度

    1回答

    我已经有一个已经并行化的CUDA内核,它执行一些需要频繁插值的任务。 所以这是一个内核 __global__ void complexStuff(...) 它调用一次或多次该插补设备功能: __device__ void interpolate(...) 插值算法做了WENO插在连续三个维度。这是一个高度可并行化的任务,我迫切希望并行化! 很明显,通过使用<<<...>>>语法从主机代码调

    1热度

    1回答

    我想实现一个非常简单的合并排序使用CUDA递归(对于cm> 35)技术,但我找不到方法来告诉父线程以因为cudaEventSynchronize()和cudaStreamSynchronize()仅是主机,所以同时启动它的子项并等待其子项计算。 __syncthread()不会归档所需的效果,因为父项的下一行只应在子项完成所有计算后才执行。 __global__ void simple_merge

    0热度

    2回答

    我的电脑有一个GTX 580(计算能力2.0)。 我想编译一个使用动态并行性的CUDA源代码,这是计算能力3.5中引入的一项功能。 我知道我将无法在我的GPU上运行该程序,但是,应该可以在我的机器上编译此代码。我假设这是因为我可以毫无问题地编译使用3.5功能的CUDA示例。这些示例带有“手动生成”的Visual Studio项目(我猜)。 我相信我的问题是CMake。我使用CMake生成一个Vis

    0热度

    1回答

    我对这个部署套件印象非常深刻。这张卡似乎不是购买新的CUDA卡,而是需要新的主板等。 它的规格说它具有CUDA计算能力3.2。 AFAIK动态并行性和更多附带cm_35,cuda计算能力3.5。此卡是否支持开普勒架构的动态并行性和HyperQ功能?

    2热度

    3回答

    开普勒的dynamic parallelism很少有关于这项新技术的描述,这是否意味着在同一个warp中线程控制流散度问题得到了解决? 它允许recursion和从设备代码执行内核,这是否意味着可以同时执行不同线程中的控制路径?

    0热度

    1回答

    我正在尝试使用动态并行来改进我在CUDA中的算法。在我最初的CUDA解决方案中,每个线程计算每个块通用的数字。我想要做的是首先启动一个粗略的(或低分辨率)内核,其中线程只计算一次公共值(就像每个线程代表一个块一样)。然后每个线程创建一个1块(16x16线程)的小网格,并为其传递公共值启动一个子内核。从理论上讲,它应该更快,因为它可以节省许多冗余操作。但实际上,解决方案的工作非常缓慢,我不知道为什么