编译cuda代码时出现“device-function-maxrregcount”消息

我正在尝试编写一个在内核中执行多个向量点积的代码。我正在使用cublasSdot功能从cublas库执行矢量点产品。这是我的代码：编译cuda代码时出现“device-function-maxrregcount”消息

using namespace std; 
__global__ void ker(float * a, float * c,long long result_size,int n, int m) 
{ 
float *sum; 
int id = blockIdx.x*blockDim.x+threadIdx.x; 
float *out1,*out2; 
int k; 

if(id<result_size) 
     { 
       cublasHandle_t handle; 
       cublasCreate(&handle); 
       out1 = a + id*m; 
       for(k=0;k<n;k++) 
       { 
         out2 =a + k*m; 
         cublasSdot(handle, m,out1,1,out2,1,sum); 
         c[id*n + k]= *sum; 
       } 
     } 
} 
int main() 
{ 
int n=70000,m=100; 
long result_size=n; 
result_size*=n; 
float * dev_data,*dev_result; 
float * data = new float [n*m]; 
float * result = new float [result_size]; 
for (int i = 0; i< n; i++) 
     for(int j = 0; j <m;j++) 
     { 
      data[i*m+j]=rand(); 
     } 

cudaMalloc ((void**)&dev_data,sizeof(float)*m*n); 
cudaMalloc ((void**)&dev_result,sizeof(float)*result_size); 
cudaMemcpy(dev_data, data, sizeof(float) * m* n, cudaMemcpyHostToDevice); 
int block_size=1024; 
int grid_size=ceil((float)result_size/(float)block_size); 
ker<<<grid_size,block_size>>>(dev_data,dev_result,result_size,n,m); 
cudaDeviceSynchronize(); 
cudaMemcpy(result, dev_result, sizeof(float)*(result_size), cudaMemcpyDeviceToHost); 
return 0; 
}

我已经包括cublas_v2库，并使用下面的命令来编译代码：

nvcc -lcublas_device -arch=sm_35 -rdc=true askstack.cu -o askstack

，但我得到了以下信息：

ptxas info : 'device-function-maxrregcount' is a BETA feature

任何人都可以请让我知道我应该如何处理此消息？

来源

2016-11-30 starrr

什么。它只是信息AFAIK – talonmies

此消息是信息性的，如talonmies所述。

NVCC的此maxregcount选项用于指定可以由内核使用，并且所有它使用的设备的功能的寄存器的一个限制：

如果内核被限制为具有特定数目的寄存器launch_bounds属性或--maxrregcount选项，那么内核调用的所有函数都不得使用超过该数量的寄存器;如果他们超过了限制，那么会给出链接错误。

参见：NVCC Doc : 6.5.1. Object Compatibility

看来，设备功能maxregcount被用于覆盖仅设备的功能此值。因此，您可以在内核和设备功能上拥有不同的最大寄存器数量。

对于设备函数，此选项将覆盖由--maxregcount指定的值。

来源：The CUDA Handbook

来源

2016-12-01 13:54:38 Taro

编译cuda代码时出现“device-function-maxrregcount”消息

回答

相关问题