2011-08-06 43 views
4

在NVIDIA®(英伟达™)Fermi架构(cuda文档文件夹中的文件Compute_profiler.txt)中查看性能计数器的名称时,我注意到对于L2缓存未命中,有两个性能计数器:l2_subp0_read_sector_misses和l2_subp1_read_sector_misses。他们说这些是为了两片L2。NVIDIA®(英伟达™)Fermi中的L2缓存

为什么他们有两片L2?与流式多处理器架构有任何关系吗?这个部门对表演的影响是什么?

谢谢

回答

1

我不认为与流式多处理器有任何直接关系。

我只是认为这个片相当于银行存储器。

只需将两者的值相加即可获得“总计”L2读数未命中。

1

CUDA C编程指南介绍了多处理器的体系结构。该文件指出,每个费米多处理器有两个warp调度器。我假设二级缓存被分割以允许并发缓存。

我还没有看过开普勒架构的L2读取未命中,但开普勒多处理器有四个经编处理器。所以,如果Kepler编译报告有四个性能计数器,则可以验证这个假设。

+0

我喜欢这个主意。如果这一点得到证实,我会继续寻找。 – Zk1001

相关问题