nvvp

0热度

1回答

Whenenevr我启动了两个应用程序，它们在出现启动画面后崩溃。出现一个小对话框，并显示消息an error has occurred. see the log file null（我不知道在哪里可以找到空文件）。 nsight控制台错误消息 Java HotSpot(TM) 64-Bit Server VM warning: Ignoring option MaxPermSize; suppo

1热度

1回答

将CUDA nvprof输出导出到Visual Profiler

我想从我的GPU应用程序中提取数据以检查其限制。我必须使用nvprof，因为应用程序在远程服务器上运行，所以我应该创建一个文件以在本地导入Visual Profiler。我尝试使用nvprof -o file_name <app> <params>和nvprof --analysis-metrics --output-profile file_name <app> <params>创建文件，但是当

0热度

1回答

为什么连续推力排序和减少命令之间没有GPU活动？

请参阅下面显示的我CUDA代码Nvidia的视觉探查会话两个快照：从nvprof会话快照显示推力::排序和推力::减少调用执行时间表强调了排序，并降低呼叫显示拍摄的时间和其执行之间的差距你可以看到大约7差距0 us之间的两个thrust::sort()通话，然后第一个thrust::reduce()和第二个thrust::sort()通话之间有很大差距。总之，在快照中可见大约300个这样的间

0热度

2回答

我可以在C源代码级别上剖析OpenACC内核吗？

我想用openacc和PGI 15.7编译器加速我的代码。我想在C源代码级别上剖析我的代码。我使用的是CUDA 7.0中的'nvvp'分析器。当我运行nvvp时，我可以使用'分析点击'并获得哪个延迟是我的代码变慢的原因。（数据依赖性，条件分支和带宽等）但是，我无法获得基于行的分析，只能进行'内核'级分析。（例如main_300_gpu内核使用10s）。所以我有一些麻烦知道我必须在哪里修

1热度

1回答

CUDA内核不重叠

我有一个简单的向量乘法内核，我正在执行2个流。但是当我在NVVP中进行配置时，内核似乎不会重叠。是否因为每个内核执行利用GPU的％100，如果不是，原因可能是什么？的源代码： #include "common.h" #include <cstdlib> #include <stdio.h> #include <math.h> #include "cuda_runtime.h" #inc

1热度

1回答

如何从nvprof或NVidia Visual Profiler的输出中获取定时值？

我使用nvprof来分析一些东西（包括CPU工作和GPU工作，即我使用nvprof标记等），并且我得到nvprof生成的二进制文件。我可以将它们导入到NVVP（NVidia Visual Profiler; Linux版本）中，并且稍加努力就可以将其保存到XML中。但是 ... XML不包含有关我的各种CPU何时执行的计时数据。它提到了它们的存在，但没有更多。另外，XML的末尾在PDM标签中包含

1热度

1回答

配置文件调试或释放cuda代码？

我一直在分析nvprof and nvvp (5.5)的应用程序以优化它。不过，我得到像inst_replay_overhead，ipc或branch_efficiency，当我剖析调试（-G）等一些指标/事件完全不同的结果，并发布代码的版本。所以我的问题是：哪个版本我应该个人资料？发行版或调试版？或者选择取决于我在找什么？我发现CUDA - Visual Profiler and Contr

1热度

1回答

内核中的CUDA分析

是否有任何选项可用于分析CUDA内核？不是整体，而是其中的一部分。我有一些设备功能调用，我想测量他们的时间。是否有可以设置的标志/事件/说明，然后在NVIDIA Visual Profiler中可以看到？或者我需要手动插入cudaEventCreate和类似的功能。

0热度

1回答

nvvp和nsight的分析器给出了不同的结果？

我想尝试gst_inst_128bit指令。在同一个程序中，nvvp会执行很多gst_inst_128bit命令。在nsight的分析器中，获取4次gst_inst_32bit指令。他们应该是一个相同的程序。这种情况怎么会发生？该实验试图在Linux，CUDA 5.0，GTX 580 该方案是仅来自一个阵列中的核函数将数据复制到另一：在主： cudaMalloc((void**)&dev

1热度

1回答

DtoD和PtoP内存拷贝有什么区别？

使用nvprof分析应用程序时，我发现了PtoP和DtoD memcpy。我不确定这两者之间的区别。