nvidia

    1热度

    1回答

    我不知道这是否是合适的论坛。无论如何,这是问题。在我们的应用程序中,我们显示医学图像,并在其上面生成一些算法生成的位图。真正的位图是一个16位灰度位图。由此,我们基于查找表,如 (0-100)->green (100-200)->blue (200>above)->red 显示与小图片256x256的运作良好,良好的色彩位图。但是当显示区域变大的时候,1024x1024灰阶到彩色位图的转换

    0热度

    2回答

    我想使用GPU进行计数。如果没有找到GPU,并且为我提供统一的API,我需要将它安装到CPU上。 (感兴趣的任何.NET例如№4)

    1热度

    1回答

    ,矢量的例子有这样的代码: // Asynchronous write of data to GPU device ciErr1 = clEnqueueWriteBuffer(cqCommandQueue, cmDevSrcA, CL_FALSE, 0, sizeof(cl_float) * szGlobalWorkSize, srcA, 0, NULL, NULL); ciErr1 |= c

    5热度

    4回答

    看起来像200万的浮点数应该没什么大不了的,只有8MB的1GB GPU内存。我能够有时分配那么多,有时甚至比没有麻烦的分配更多。当我做一个clEnqueueReadBuffer时,我得到了CL_OUT_OF_RESOURCES,这看起来很奇怪。我能嗅出麻烦真正开始的地方吗? OpenCL不应该像clEnqueueReadBuffer这样失败吧?我应该在什么时候分配数据?有没有办法获得更多的细节,而

    1热度

    1回答

    我希望看到一个使用nVidia Cg渲染屏幕外帧缓冲区对象的示例。 我有权访问的计算机有图形卡,但没有显示器(或X服务器)。所以我想呈现我的东西,并将它们输出为磁盘上的图像。显卡是GTX285。

    7热度

    3回答

    我使用CUDA 3.2和VS 2008实现了以下矩阵乘法代码。我在Windows Server 2008 R2企业版上运行。我正在运行Nvidia GTX 480.以下代码可以很好地处理“宽度”(矩阵宽度)值高达2500左右的值。 int size = Width*Width*sizeof(float); float* Md, *Nd, *Pd; cudaError_t err = cudaS

    5热度

    2回答

    我翻阅了编程指南和最佳实践指南,它提到全局内存访问需要400-600个周期。我没有看到像纹理缓存,常量缓存,共享内存等其他内存类型。寄存器有0个内存延迟。 我认为如果所有线程在常量缓存中使用相同的地址,常量缓存与寄存器相同。最坏的情况我不太确定。 只要没有银行冲突,共享内存与寄存器是相同的?如果有,那么延迟如何展开? 纹理缓存怎么样?

    2热度

    3回答

    在OpenCL中,我有一个内核需要对复杂和真实的数据进行操作。我可以在条件语句中调用正确的代码来处理这个问题,或者我可以调用两个内核,并将条件语句推送给我的调用代码。 这显然不利于可维护性,但对性能有重要意义吗?

    1热度

    1回答

    我在旧版MacBook Pro上运行Windows Phone 7开发工具,使用带有256MB内存的NVIDIA GeForce 9400M图形卡(不知道它是否共享),并且在动画中出现大量结尾仿真器,甚至简单的,所以我假设它没有使用我的图形硬件。帧率计数器总是像002或003(和红色)。 据this后在Windows Phone上的论坛,这些都是要求: “的DirectX 10能够卡与WDDM拿在

    1热度

    1回答

    我在OpenCL中完成了Window Function内核。基本上,窗口函数只是将一组系数应用于另一组数字(维基百科更好地解释它)。在大多数情况下,我能够将窗口系数浮点数组填充到常量缓存中。 我预计Compute Prof的结果表明,主机到设备和设备到主机的内存传输将花费超过95%的处理时间。几乎所有的情况下,只有80%的处理时间。我正在写和读一个420万浮点阵列,并写出另一个浮点数组,通常保持在