cuda

17热度

4回答

我目前正在GPU上编写一个矩阵乘法，并希望调试我的代码，但由于我无法在设备函数中使用printf，是否还有其他方法可以用来查看要执行的操作在那个函数里面。这我目前的功能： __global__ void MatrixMulKernel(Matrix Ad, Matrix Bd, Matrix Xd){ int tx = threadIdx.x; int ty = thread

0热度

1回答

screensaver伤害CUDA性能？

我发现我的CUDA内核的运行时间几乎增加了两倍的时刻屏保踢。出现这种情况，即使它是空白屏幕保护程序。奇怪的是，这似乎与电源设置无关。当我禁用屏幕保护程序并关闭屏幕时，性能保持不变。当我将“关闭显示器”设置为“从不”，并让屏幕保护程序启动时，就会发生。为什么会发生这种情况？有没有办法来抵消这种现象？有没有办法告诉Windows不要踢屏幕保护程序？（如何做媒体播放器做呢？）我的工作XP SP

9热度

1回答

如何在CUDA应用程序中构建数据以获得最佳速度

我正在尝试编写一个利用CUDA来执行粒子位置更新的简单粒子系统。现在我正在定义一个粒子，其中一个对象的位置由三个浮点值定义，而一个速度也由三个浮点值定义。当更新粒子时，我将为速度的Y分量添加一个常数值来模拟重力，然后将速度添加到当前位置以提供新位置。在内存管理方面，最好是维护两个单独的浮点数组来存储数据或以面向对象的方式进行构造。是这样的： struct Vector { float

6热度

5回答

学习Nvidia CUDA

我是开发图像和视频算法的C++程序员，我应该学习Nvidia CUDA吗？或者这些技术将会消失？

16热度

2回答

帮我理解cuda

我在使用cuda的NVIDIA gpu架构中有一些麻烦。请有人澄清这些信息： 8800 gpu有16个SM，每个8个SP。所以我们有128个SP。我正在查看stanford的视频演示文稿，它说每个SP都能够正常运行96个线程。这是否意味着它（SP）可以同时运行96/32 = 3个经纱？此外，由于每个SP可以运行96个线程，并且每个SM中有8个SP。这是否意味着每个SM可以同时运行96 * 8

-2热度

3回答

nvidia cuda使用机器的所有核心

嗨，我在一台拥有四核CPU的机器上运行cuda程序，如何更改cuda c程序以使用所有四核和所有gpu？我的意思是我的程序也在主机端做事情，然后在gpus上计算'... 谢谢！

20热度

5回答

在VMware上的cuda程序

我写了一个cuda程序，我在Ubuntu上测试它作为虚拟机。原因是我有Windows 7，我不想安装Ubuntu作为辅助操作系统，我需要使用Linux操作系统进行测试。我的问题是：虚拟机会限制gpu资源吗？那么，如果我在我的主操作系统下运行它，而不是在虚拟机上运行它，我的cuda代码会更快吗？

10热度

5回答

减少CUDA内核中使用的寄存器的数量

我有一个使用17个寄存器的内核，将其减少到16会带给我100％的占用率。我的问题是：是否有方法可用于减少使用的数量或寄存器，不包括以不同方式完全重写我的算法。我总是认为编译器比我聪明得多，所以为了清晰起见，我经常使用额外的变量。这个想法我错了吗？请注意：我不知道有关--max_registers（或任何语法）标志，但使用的本地内存会比降低了25％的入住更不利（我应该测试这个）

12热度

5回答

从cmake测试存在cuda GPU的最简单方法是什么？

我们有一些夜间制造机器，它们安装了cuda libraries，但没有安装支持cuda的GPU。这些机器能够构建启用cuda的程序，但它们无法运行这些程序。在我们的夜间自动生成过程中，我们的CMake的脚本中使用的cmake命令 find_package(CUDA) ，以确定是否已安装CUDA软件。这会在安装了cuda软件的平台上设置cmake变量CUDA_FOUND。这是伟大的，它完美的作品。

0热度

3回答

如何优化cuda程序以获得更好的性能？

我写的生成密钥的matlab程序（cuda）。如何优化cuda程序以获得更好的性能？