ptxas

    2热度

    1回答

    仅查看CUDA生成的代码类型,除了目标文件之外,我还想编译为ptx。由于我的一些循环展开可能需要相当长一段时间,我想能够编译*.cu→*.ptx→*.o,而不是浪费时间与两个*.cu→*.ptx和*.cu→*.o,这我目前这样做。 只需将-ptx添加到nvcc *.cu行即可获得所需的ptx输出。 使用ptxas -c来编译*.ptx到*.o工程,但导致我的可执行文件链接错误:Relocation

    14热度

    1回答

    我想了解手写内核的每个CUDA线程的资源使用情况。 我编译kernel.cu文件到kernel.o文件,nvcc -arch=sm_20 -ptxas-options=-v ,我得到了下面的输出 ptxas info : Compiling entry function '_Z12searchkernel6octreePidiPdS1_S1_' for 'sm_20' ptxas info :

    1热度

    1回答

    我从来没有使用CUDA或C++之前,但我试图从(http://www.maisondelasimulation.fr/projects/RAMSES-GPU/html/download.html运行。 由于在我使用的autogen.sh错误./。配置和得到这个一个工作 因此产生的makefile文件包含以下NVCC标志 NVCCFLAGS = -gencode=arch=compute_10,co

    1热度

    1回答

    NVIDIA CUDA的PTX优化汇编,ptxas,有以下几个选项: --abi-compile <yes|no> (-abi) Enable/Disable the compiling of functions using ABI. Default value: 'yes'. ABI那是什么?当你禁用它会发生什么?它似乎导致更少的寄存器使用,嗯

    2热度

    1回答

    我试图让使用NVCC选项 --ptxas-options=v我CUDA内核有关的寄存器使用情况的信息,并同时与全球功能一切正常,我有一些困难由于 ptxas info : Used N registers 线设备那些缺少在输出中。我试图使用noinline关键字,并将它们保存在另一个文件中,与调用全局函数有关,因为我认为NVCC报告了全局函数的全部注册使用情况,包括内联后的被调用设备的全局函数,但

    1热度

    1回答

    我正在将PTX作为单独文件转换为联机PTX。在单独的PTX文件,我被限定在ISA和目标如下: .version 1.2 .target sm_13 在由编译器生成的PTX文件,在已经内联的PTX,编译器已经指定ISA和目标如下: .version 3.0 .target sm_20 .address_size 64 的.address_size 64对我来说是有问题的,因为这意味着我

    1热度

    1回答

    我想拦截NVIDIA GPU上的opencl程序的PTX级别。 我想象例程可能看起来像这样。首先,我编写一个opencl程序(主机和设备代码),使用NVIDIA编译器生成相应的ptx代码。然后,我通过修改PTX代码来编写我想要做的事情(请不要问我为什么不在设备C代码上这么做 - 我有一些原因)。但问题是,在修改后,如何将这个PTX代码编译为二进制代码?

    1热度

    1回答

    在并行Nsight中逐步串联PTX时是否可以查看PTX寄存器? 我可以在内联PTX上设置断点并逐步通过它,但悬停在PTX寄存器上并不显示它们的值。我可以打开SASS,悬停在这些寄存器上显示它们的值,但很难跟踪PTX寄存器和SASS寄存器之间的关系。

    4热度

    2回答

    我想CUDA来实现这个原子功能: __device__ float lowest; // global var __device__ int lowIdx; // global var float realNum; // thread reg var int index; // thread reg var if(realNum < lowest) { lowest= realNum

    1热度

    1回答

    我正在研究一个大的cuda内核,我发现内核每个线程使用43个寄存器。为了了解发生了什么,我编写了一个较小的程序来计算注册使用情况。我注意到,无论何时使用if,注册使用率都会增加。小代码如下: #include <limits.h> #include <stdio.h> #include <fstream> #include <iostream> #include <cstdlib> #i