我是一个OpenCl的新手。双重减少opencl教程
我需要在一维双精度数组上运算一个约化(和运算符)。
我一直在网上游荡,但我发现的例子很混乱。 任何人都可以发布一个容易阅读(也可能是高效的)教程实施?
附加信息: - 我可以访问一个GPU设备; - 我使用C为内核代码
我是一个OpenCl的新手。双重减少opencl教程
我需要在一维双精度数组上运算一个约化(和运算符)。
我一直在网上游荡,但我发现的例子很混乱。 任何人都可以发布一个容易阅读(也可能是高效的)教程实施?
附加信息: - 我可以访问一个GPU设备; - 我使用C为内核代码
您提到您的问题涉及60k双打,这将不适合您的设备的本地内存。我把一个内核放在一起,将你的矢量减少到10-30个左右的值,你可以将它与你的主机程序相加。我在我的机器上遇到双打问题,但是如果您启用双打并将“浮动”更改为“双倍”,则此内核应该可以正常工作。我将调试我遇到的双重问题,并发布更新。
PARAMS:
用法:
潜在的优化:
使inVectorSize(和矢量)为(工作组大小)*(工作组数)的最高倍数。只用这些数据调用内核。内核均匀地分割数据。在等待回调期间计算主机上任何剩余数据的总和(或者,为CPU设备构建相同的内核并仅传递剩余数据)。在上面的步骤#5中添加outVector时,从这个总和开始。这种优化应该保持工作组在整个计算过程中均匀饱和。
__kernel void floatSum(__global float* inVector, __global float* outVector, const int inVectorSize, __local float* resultScratch){
int gid = get_global_id(0);
int wid = get_local_id(0);
int wsize = get_local_size(0);
int grid = get_group_id(0);
int grcount = get_num_groups(0);
int i;
int workAmount = inVectorSize/grcount;
int startOffest = workAmount * grid + wid;
int maxOffest = workAmount * (grid + 1);
if(maxOffset > inVectorSize){
maxOffset = inVectorSize;
}
resultScratch[wid] = 0.0;
for(i=startOffest;i<maxOffest;i+=wsize){
resultScratch[wid] += inVector[i];
}
barrier(CLK_LOCAL_MEM_FENCE);
if(gid == 0){
for(i=1;i<wsize;i++){
resultScratch[0] += resultScratch[i];
}
outVector[grid] = resultScratch[0];
}
}
此外,启用双打:
#ifdef cl_khr_fp64
#pragma OPENCL EXTENSION cl_khr_fp64 : enable
#else
#ifdef cl_amd_fp64
#pragma OPENCL EXTENSION cl_amd_fp64 : enable
#endif
#endif
更新:AMD APP KernelAnalyzer得到了一个更新(V12),它的显示,这个内核的双精度版本实际上,ALU绑定在5870和6970卡上。
做maxOffset = select(maxOffset,inVectorSize,maxOffset> inVectorSize);而不是分支。 – 2013-03-13 18:51:17
AMD的例子非常简单。 http://developer.amd.com/documentation/articles/Pages/OpenCL-Optimization-Case-Study-Simple-Reductions.aspx – mfa 2012-04-13 13:32:02
@mfa确实。它适用于小尺寸输入,但不幸的是我的向量是60000个元素,因此它不适合本地内存。 我实现了它,但发现太迟关于本地内存限制。 – 2012-04-13 16:35:29