2011-03-08 40 views
1

也许这个问题有点过于笼统,但也许有人遇到同样的问题。Cuda性能问题

我有一个使用推力的小型cuda程序,一切都很好。它按预期工作。

但是,当我将同一个程序移植到另一台机器时,整个程序的性能比原始机器慢大约10到100倍。第二台机器的硬件应该更快(GTX480,而不是GTX265),所以我想这个问题在第二台机器上。有没有人有一个想法可能会出错?

+0

我想我找到了解决方案。必须在GTX480器件上使用--arch = sm_20进行编译。我用--arch = sm_13。 – headmyshoulder 2011-03-08 17:50:43

回答