2012-07-12 27 views
0

使用蛮力匹配我已经存储在字符数组a [正文长度],和图案中的文本的数组b [patternLength]模式中的OpenCL

cl_char *a = (cl_char *) malloc(textLength*sizeof(cl_char)); 

for(int i =0; i<textLength;i++) 
{ 
    a[i]=text[i]; 
    } 

// A buffer object is a handle to a region of memory 
cl_mem a_buffer = clCreateBuffer(context, 
           CL_MEM_READ_ONLY | // buffer object read only for kernel 
           CL_MEM_COPY_HOST_PTR, // copy data from memory referenced 
           // by host pointer 
           textLength*sizeof(cl_char), // size in bytes of buffer object 
           a, // host pointer 
           NULL); // no error code returned 

// for text and pattern kernal arguments 
cl_char *b = (cl_char *) malloc(patternLength*sizeof(cl_char)); 

for(int i =0; i<patternLength;i++) 
{ 
    b[i]=pattern[i]; 
} 

// A buffer object is a handle to a region of memory 
/*cl_mem b_buffer = clCreateBuffer(context, 
           CL_MEM_READ_ONLY | // buffer object read only for kernel 
           CL_MEM_COPY_HOST_PTR, // copy data from memory referenced 
           // by host pointer 
           patternLength*sizeof(cl_char), // size in bytes of buffer object 
           b, // host pointer 
           NULL); // no error code returned */ 
cl_mem b_buffer = NULL; 


    clSetKernelArg(kernel, 0, sizeof(a_buffer), (void*) &a_buffer); 
clSetKernelArg(kernel, 1, sizeof(cl_mem), NULL); 
clSetKernelArg(kernel, n, sizeof(cl_mem), &b_buffer); 
    size_t global_work_size = numberofWorkItem; 
    cl_int error= clEnqueueNDRangeKernel(queue, kernel, 
         1, NULL, // global work items dimensions and offset 
         &global_work_size, // number of global work items 
         &patternLength, // number of local work items 
         0, NULL, // don't wait on any events to complete 
         &timeEvent); // no event object returned 

I have read that in clSetKernelArg, for __local indentifiers, the arg_value should be NULL. I have done that by doing b_buffer=NULL; 

但是这样做将防止b_buffer从存储值b [](pattern) 我该怎么做?

另外, 如果我没有错,local_work_size不能大于CL_DEVICE_MAX_WORK_ITEM_SIZES给出的值。因为local_work_size受底层设备/硬件的约束。另一方面,global_work_size可以像任何人想要的那样大。 是否必须是local_work_size的倍数? 如果是,为什么?

回答

0

你的错误是在clSetKernelArg行:内核执行后

//incorrect 
clSetKernelArg(kernel, n, sizeof(cl_mem), &b_buffer); 

//correct 
clSetKernelArg(kernel, n, sizeof(cl_char)*patternLength, NULL); 

本地内存将被清除,所以你不能用你的方法来获得b_buffer的副本。另外,本地内存不是由主机分配的。您需要从全局参数中复制到LDS中。

要获取本地数据复制,您需要传入全局cl_mem以及本地参数。拷贝可以在内核结束时完成,并使用clEnqueueReadBuffer红回到主机。

更新

这里有一个如何使用动态本地缓冲区,并为其分配一个全局缓冲区的内容的具体例子。

__kernel void copyBufferExample(__global int* srcBuff, __local int* localBuff, const int copyCount) 
{ 
    int lid = get_local_id(0); 
    int ls = get_local_size(0); 
    int i; 

    for(i=lid; i<copyCount; i+=ls){ 
     localBuff[i] = srcBuff[i]; 
    } 

    //use localBuff here 
    //copy result back to global memory if needed 
} 
+0

非常感谢你回答:) cl_mem b_buffer = NULL; clSetKernelArg(kernel,0,sizeof(a_buffer),(void *)&a_buffer); clSetKernelArg(kernel,1,sizeof(cl_mem),NULL); clSetKernelArg(kernel,n,sizeof(cl_mem),&b_buffer); 以上几行错了? 你能解释一下如何分配本地内存吗?如果它没有被主机分配? – Remy 2012-07-12 19:58:04

+0

您需要将数据作为全局数据以及未初始化的本地缓冲区传递,并让内核复制+使用数据。我发布了上面显示的内核代码的更新。 – mfa 2012-07-13 04:04:32

+0

谢谢.. :) 它清除了我的疑惑。谢谢! – Remy 2012-07-13 06:03:48

0

上面的代码没有做并行副本...

这样做......

_ 内核无效copyBufferExample( _global INT * srcBuff,__local INT * localBuff ,const int的copyCount) {

int i = get_local_id(0); 

如果(ⅰ< copyCount) localBuff [i] = srcBuff [i]; //每个线程复制1个int。没有for循环需要

barrier(CLK_LOCAL_MEM_FENCE); // synchronize all threads before using the local memory 


//use localBuff here 
//copy result back to global memory if needed 

}

+0

它是否必须是(我 Remy 2012-07-17 05:37:10

+0

如果您的x维度中的GWG大小> copyCount,则可以使用!为什么?因为你比copyCount启动更多的线程(内核)。每个线程复制1个int。所有这些线程并行运行 – 2012-07-17 15:05:59

+0

谢谢Tim! 我明白了.. :) – Remy 2012-07-17 15:26:17