nvvp

    0热度

    1回答

    Whenenevr我启动了两个应用程序,它们在出现启动画面后崩溃。出现一个小对话框,并显示消息an error has occurred. see the log file null(我不知道在哪里可以找到空文件)。 nsight控制台错误消息 Java HotSpot(TM) 64-Bit Server VM warning: Ignoring option MaxPermSize; suppo

    1热度

    1回答

    我想从我的GPU应用程序中提取数据以检查其限制。我必须使用nvprof,因为应用程序在远程服务器上运行,所以我应该创建一个文件以在本地导入Visual Profiler。我尝试使用nvprof -o file_name <app> <params>和nvprof --analysis-metrics --output-profile file_name <app> <params>创建文件,但是当

    0热度

    1回答

    请参阅下面显示的我CUDA代码Nvidia的视觉探查会话两个快照: 从nvprof会话快照显示推力::排序和推力::减少调用执行时间表 强调了排序,并降低呼叫显示拍摄的时间和其执行之间的差距 你可以看到大约7差距0 us之间的两个thrust::sort()通话,然后第一个thrust::reduce()和第二个thrust::sort()通话之间有很大差距。总之,在快照中可见大约300个这样的间

    0热度

    2回答

    我想用openacc和PGI 15.7编译器加速我的代码。 我想在C源代码级别上剖析我的代码。 我使用的是CUDA 7.0中的'nvvp'分析器。当我运行nvvp时,我可以使用'分析点击'并获得哪个延迟是我的代码变慢的原因。 (数据依赖性,条件分支和带宽等) 但是,我无法获得基于行的分析,只能进行'内核'级分析。 (例如main_300_gpu内核使用10s)。 所以我有一些麻烦知道我必须在哪里修

    1热度

    1回答

    我有一个简单的向量乘法内核,我正在执行2个流。但是当我在NVVP中进行配置时,内核似乎不会重叠。是否因为每个内核执行利用GPU的%100,如果不是,原因可能是什么? 的源代码: #include "common.h" #include <cstdlib> #include <stdio.h> #include <math.h> #include "cuda_runtime.h" #inc

    1热度

    1回答

    我使用nvprof来分析一些东西(包括CPU工作和GPU工作,即我使用nvprof标记等),并且我得到nvprof生成的二进制文件。我可以将它们导入到NVVP(NVidia Visual Profiler; Linux版本)中,并且稍加努力就可以将其保存到XML中。 但是 ... XML不包含有关我的各种CPU何时执行的计时数据。它提到了它们的存在,但没有更多。另外,XML的末尾在PDM标签中包含

    1热度

    1回答

    我一直在分析nvprof and nvvp (5.5)的应用程序以优化它。不过,我得到像inst_replay_overhead,ipc或branch_efficiency,当我剖析调试(-G)等一些指标/事件完全不同的结果,并发布代码的版本。 所以我的问题是:哪个版本我应该个人资料?发行版或调试版?或者选择取决于我在找什么? 我发现CUDA - Visual Profiler and Contr

    1热度

    1回答

    是否有任何选项可用于分析CUDA内核?不是整体,而是其中的一部分。我有一些设备功能调用,我想测量他们的时间。是否有可以设置的标志/事件/说明,然后在NVIDIA Visual Profiler中可以看到?或者我需要手动插入cudaEventCreate和类似的功能。

    0热度

    1回答

    我想尝试gst_inst_128bit指令。 在同一个程序中,nvvp会执行很多gst_inst_128bit命令。 在nsight的分析器中,获取4次gst_inst_32bit指令。 他们应该是一个相同的程序。这种情况怎么会发生? 该实验试图在Linux,CUDA 5.0,GTX 580 该方案是仅来自一个阵列中的核函数将数据复制到另一: 在主: cudaMalloc((void**)&dev

    1热度

    1回答

    使用nvprof分析应用程序时,我发现了PtoP和DtoD memcpy。我不确定这两者之间的区别。