ptxas

2热度

1回答

仅查看CUDA生成的代码类型，除了目标文件之外，我还想编译为ptx。由于我的一些循环展开可能需要相当长一段时间，我想能够编译*.cu→*.ptx→*.o，而不是浪费时间与两个*.cu→*.ptx和*.cu→*.o，这我目前这样做。只需将-ptx添加到nvcc *.cu行即可获得所需的ptx输出。使用ptxas -c来编译*.ptx到*.o工程，但导致我的可执行文件链接错误：Relocation

14热度

1回答

解释--ptxas选项的输出= -v

我想了解手写内核的每个CUDA线程的资源使用情况。我编译kernel.cu文件到kernel.o文件，nvcc -arch=sm_20 -ptxas-options=-v ，我得到了下面的输出 ptxas info : Compiling entry function '_Z12searchkernel6octreePidiPdS1_S1_' for 'sm_20' ptxas info :

1热度

1回答

CUDA ptxas错误“功能使用太多的共享数据”

我从来没有使用CUDA或C++之前，但我试图从（http://www.maisondelasimulation.fr/projects/RAMSES-GPU/html/download.html运行。由于在我使用的autogen.sh错误./。配置和得到这个一个工作因此产生的makefile文件包含以下NVCC标志 NVCCFLAGS = -gencode=arch=compute_10,co

1热度

1回答

CUDA ptxas的--abi-compile = yes选项是什么（需要花费注册表）？

NVIDIA CUDA的PTX优化汇编，ptxas，有以下几个选项： --abi-compile <yes|no> (-abi) Enable/Disable the compiling of functions using ABI. Default value: 'yes'. ABI那是什么？当你禁用它会发生什么？它似乎导致更少的寄存器使用，嗯

2热度

1回答

NVCC寄存器使用情况报告

我试图让使用NVCC选项 --ptxas-options=v我CUDA内核有关的寄存器使用情况的信息，并同时与全球功能一切正常，我有一些困难由于 ptxas info : Used N registers 线设备那些缺少在输出中。我试图使用noinline关键字，并将它们保存在另一个文件中，与调用全局函数有关，因为我认为NVCC报告了全局函数的全部注册使用情况，包括内联后的被调用设备的全局函数，但

1热度

1回答

设置联机PTX中的32位地址大小

我正在将PTX作为单独文件转换为联机PTX。在单独的PTX文件，我被限定在ISA和目标如下： .version 1.2 .target sm_13 在由编译器生成的PTX文件，在已经内联的PTX，编译器已经指定ISA和目标如下： .version 3.0 .target sm_20 .address_size 64 的.address_size 64对我来说是有问题的，因为这意味着我

1热度

1回答

在NVIDIA GPU上编译ptx代码？

我想拦截NVIDIA GPU上的opencl程序的PTX级别。我想象例程可能看起来像这样。首先，我编写一个opencl程序（主机和设备代码），使用NVIDIA编译器生成相应的ptx代码。然后，我通过修改PTX代码来编写我想要做的事情（请不要问我为什么不在设备C代码上这么做 - 我有一些原因）。但问题是，在修改后，如何将这个PTX代码编译为二进制代码？

1热度

1回答

在并行Nsight中调试串联PTX

在并行Nsight中逐步串联PTX时是否可以查看PTX寄存器？我可以在内联PTX上设置断点并逐步通过它，但悬停在PTX寄存器上并不显示它们的值。我可以打开SASS，悬停在这些寄存器上显示它们的值，但很难跟踪PTX寄存器和SASS寄存器之间的关系。

4热度

2回答

如何实现一个涉及多个变量的自定义原子函数？

我想CUDA来实现这个原子功能： __device__ float lowest; // global var __device__ int lowIdx; // global var float realNum; // thread reg var int index; // thread reg var if(realNum < lowest) { lowest= realNum

1热度

1回答

额外的寄存器用法if if

我正在研究一个大的cuda内核，我发现内核每个线程使用43个寄存器。为了了解发生了什么，我编写了一个较小的程序来计算注册使用情况。我注意到，无论何时使用if，注册使用率都会增加。小代码如下： #include <limits.h> #include <stdio.h> #include <fstream> #include <iostream> #include <cstdlib> #i