2011-10-18 45 views
2

我的下面的代码出现错误,当它运行时,一些图的权重被覆盖,但是这不应该发生在Xa数组中(它保持已经访问过的数组) __syncthreads()函数...可能有人帮忙吗?错误:在CUDA同步上的BFS

struct Node 
{ 
    int begin;  // begining of the substring 
    int num; // size of the sub-string 
}; 

__global__ void BFS (Node *Va, int *Ea, bool *Fa, bool *Xa, int *Ca, bool *parada) 
{ 
    int tid = threadIdx.x; 

    if (Fa[tid] == true && Xa[tid] == false) 
    { 
     Fa[tid] = false; 
     __syncthreads(); 

     // Va begin is where it's edges' subarray begins, Va is it's 
     // number of elements 
     for (int i = Va[tid].begin; i < (Va[tid].begin + Va[tid].num); i++) 
     {   
      int nid = Ea[i]; 

      if (Xa[nid] == false) 
      { 
       Ca[nid] = Ca[tid] + 1; 
       Fa[nid] = true; 
       *parada = true; 
      } 
     }  
     Xa[tid] = true;    
    } 
} 

// The BFS frontier corresponds to all the nodes being processed 
// at the current level. 
int main() 
{ 

    //descrição do grafo 
    struct Node node[4]; 
    node[0].begin=0; 
    node[0].num=2; 
    node[1].begin=1; 
    node[1].num=0; 
    node[2].begin=2; 
    node[2].num=2; 
    node[3].begin=1; 
    node[3].num=0; 
    int edges[]={1,2,3,1}; 

    bool frontier[4]={false}; 
    bool visited[4]={false}; 
    int custo[4]={0}; 

    int source=0; 
    frontier[source]=true; 

    Node* Va; 
    cudaMalloc((void**)&Va,sizeof(Node)*4); 
    cudaMemcpy(Va,node,sizeof(Node)*4,cudaMemcpyHostToDevice); 

    int* Ea; 
    cudaMalloc((void**)&Ea,sizeof(Node)*4); 
    cudaMemcpy(Ea,edges,sizeof(Node)*4,cudaMemcpyHostToDevice); 

    bool* Fa; 
    cudaMalloc((void**)&Fa,sizeof(bool)*4); 
    cudaMemcpy(Fa,frontier,sizeof(bool)*4,cudaMemcpyHostToDevice); 

    bool* Xa; 
    cudaMalloc((void**)&Xa,sizeof(bool)*4); 
    cudaMemcpy(Xa,visited,sizeof(bool)*4,cudaMemcpyHostToDevice); 

    int* Ca; 
    cudaMalloc((void**)&Ca,sizeof(int)*4); 
    cudaMemcpy(Ca,custo,sizeof(int)*4,cudaMemcpyHostToDevice); 

    dim3 threads(4,1,1); 

    bool para; 
    bool* parada; 
    cudaMalloc((void**)&parada,sizeof(bool)); 
    printf("\n"); 
    int n=1; 
    do{ 
     para=false; 
     cudaMemcpy(parada,&para,sizeof(bool),cudaMemcpyHostToDevice);  
     BFS <<<1,threads>>>(Va,Ea,Fa,Xa,Ca,parada);  
     CUT_CHECK_ERROR("kernel1 execution failed"); 
     cudaMemcpy(&para,parada,sizeof(bool),cudaMemcpyDeviceToHost); 



     printf("Run number: %d >> ",n); 
     cudaMemcpy(custo,Ca,sizeof(int)*4,cudaMemcpyDeviceToHost); 
     for(int i=0;i<4;i++) 
      printf("%d ",custo[i]); 
     printf("\n"); 
     n++; 

    }while(para); 


    printf("\nFinal:\n"); 
    cudaMemcpy(custo,Ca,sizeof(int)*4,cudaMemcpyDeviceToHost); 

    for(int i=0;i<4;i++) 
     printf("%d ",custo[i]); 
    printf("\n"); 

} 

回答

5

该设备代码中存在许多相当主要的缺陷。首先,你在XaCa上都有记忆比赛。其次,你有一个有条件执行的调用,这是非法的,如果执行的线程变形可能发生任何分支分歧,就可能导致内核挂起。

即使您使用原子内存访问函数来消除代码中发布的最差pf读后写入竞争,您正在使用的算法的结构可能在CUDA上也不会正确。使用原子内存访问将有效地将代码串行化,并且成本很高。

在CUDA上广度优先搜索不是一个未解决的问题。如果你关心搜索它们,有许多关于实现的很好的论文。如果你还没有看过,我会推荐High Performance and Scalable GPU Graph Traversal。这些作者的实施代码也可从here下载。

+0

谢谢,这帮了我很多。 – Imperian