nvidia

1热度

1回答

我不知道这是否是合适的论坛。无论如何，这是问题。在我们的应用程序中，我们显示医学图像，并在其上面生成一些算法生成的位图。真正的位图是一个16位灰度位图。由此，我们基于查找表，如 (0-100)->green (100-200)->blue (200>above)->red 显示与小图片256x256的运作良好，良好的色彩位图。但是当显示区域变大的时候，1024x1024灰阶到彩色位图的转换

0热度

2回答

.Net Lib \ Wrapper能够清楚ATI和Nvidea API之间的区别，以计算GPU吗？

我想使用GPU进行计数。如果没有找到GPU，并且为我提供统一的API，我需要将它安装到CPU上。（感兴趣的任何.NET例如№4）

1热度

1回答

为什么OpenCL向量添加Nvidia SDK示例使用异步写入？

，矢量的例子有这样的代码： // Asynchronous write of data to GPU device ciErr1 = clEnqueueWriteBuffer(cqCommandQueue, cmDevSrcA, CL_FALSE, 0, sizeof(cl_float) * szGlobalWorkSize, srcA, 0, NULL, NULL); ciErr1 |= c

5热度

4回答

CL_OUT_OF_RESOURCES为200万浮点与1GB VRAM？

看起来像200万的浮点数应该没什么大不了的，只有8MB的1GB GPU内存。我能够有时分配那么多，有时甚至比没有麻烦的分配更多。当我做一个clEnqueueReadBuffer时，我得到了CL_OUT_OF_RESOURCES，这看起来很奇怪。我能嗅出麻烦真正开始的地方吗？ OpenCL不应该像clEnqueueReadBuffer这样失败吧？我应该在什么时候分配数据？有没有办法获得更多的细节，而

1热度

1回答

使用Cg渲染到屏幕外帧缓冲区对象的示例

我希望看到一个使用nVidia Cg渲染屏幕外帧缓冲区对象的示例。我有权访问的计算机有图形卡，但没有显示器（或X服务器）。所以我想呈现我的东西，并将它们输出为磁盘上的图像。显卡是GTX285。

7热度

3回答

对于大型矩阵，CUDA矩阵乘法中断

我使用CUDA 3.2和VS 2008实现了以下矩阵乘法代码。我在Windows Server 2008 R2企业版上运行。我正在运行Nvidia GTX 480.以下代码可以很好地处理“宽度”（矩阵宽度）值高达2500左右的值。 int size = Width*Width*sizeof(float); float* Md, *Nd, *Pd; cudaError_t err = cudaS

5热度

2回答

OpenCL/CUDA中每个内存访问类型有多少内存延迟周期？

我翻阅了编程指南和最佳实践指南，它提到全局内存访问需要400-600个周期。我没有看到像纹理缓存，常量缓存，共享内存等其他内存类型。寄存器有0个内存延迟。我认为如果所有线程在常量缓存中使用相同的地址，常量缓存与寄存器相同。最坏的情况我不太确定。只要没有银行冲突，共享内存与寄存器是相同的？如果有，那么延迟如何展开？纹理缓存怎么样？

2热度

3回答

我应该创建多个OpenCL内核以避免条件语句吗？

在OpenCL中，我有一个内核需要对复杂和真实的数据进行操作。我可以在条件语句中调用正确的代码来处理这个问题，或者我可以调用两个内核，并将条件语句推送给我的调用代码。这显然不利于可维护性，但对性能有重要意义吗？

1热度

1回答

如何让Windows Phone 7模拟器使用硬件加速？

我在旧版MacBook Pro上运行Windows Phone 7开发工具，使用带有256MB内存的NVIDIA GeForce 9400M图形卡（不知道它是否共享），并且在动画中出现大量结尾仿真器，甚至简单的，所以我假设它没有使用我的图形硬件。帧率计数器总是像002或003（和红色）。据this后在Windows Phone上的论坛，这些都是要求： “的DirectX 10能够卡与WDDM拿在

1热度

1回答

关于我的OpenCL内核（DSP窗口函数）分析结果的困惑

我在OpenCL中完成了Window Function内核。基本上，窗口函数只是将一组系数应用于另一组数字（维基百科更好地解释它）。在大多数情况下，我能够将窗口系数浮点数组填充到常量缓存中。我预计Compute Prof的结果表明，主机到设备和设备到主机的内存传输将花费超过95％的处理时间。几乎所有的情况下，只有80％的处理时间。我正在写和读一个420万浮点阵列，并写出另一个浮点数组，通常保持在