cpu-cache

0热度

3回答

我的问题是有关了解Linux perf工具度量标准。我做了一个优化与我的代码中的预取/缓存未命中相关，现在速度更快。但是，perf并没有告诉我（或者更确定地说，我不明白perf显示了我）。回到它开始的地方。我做了一个调查，以便speed up random memory access using prefetch。这里是我的程序做：它同样采用了尺寸的两个int缓冲区它读取一个接一个的第一缓

2热度

3回答

为什么这个C++代码不是更快？

全部：我有两段代码。第一个是： #include <iostream> using namespace std; static constexpr long long n = 1000000000; int main() { int sum = 0; int* a = new int[n]; int* b = new int[n]; for

2热度

1回答

循环跨步和缓存行

我正在学习缓存行，以及循环跨步对缓存的影响。我遇到了this页面，其中显示了循环与循环步幅的执行时间。根据基准，增加循环跨度会减少执行时间，这对我来说非常困惑。据我了解，如果缓存行是64字节，并假设如果在第一种情况下循环步长是1，这意味着循环顺序遍历数组元素，那么应该有最少的执行时间，因为16个整数（4byte x 16 = 64字节）被加载到缓存中。由于所有16个元素都被加载到同一个缓存行中，因

3热度

1回答

方案时软件预取手动指令是合理的

我读过关于在x86和x86-64英特尔gcc提供了特殊的预取指令： #include <xmmintrin.h> enum _mm_hint { _MM_HINT_T0 = 3, _MM_HINT_T1 = 2, _MM_HINT_T2 = 1, _MM_HINT_NTA = 0 }; void _mm_prefetch(void *p, enum _mm_hint h); 程

1热度

1回答

缓存不友好的循环超过缓存友好循环的2d阵列

为什么在使用MSVC++编译时版本1比版本2更快？版本1： for (int i = 0; i < N; ++i) for (int j = 0; j < N; ++j) for (int k = 0; k < N; ++k) res1[i][j] += mat1[i][k] * mat2[k][j]; 版本2：（N = 1000; RES1，MA

0热度

2回答

如何确定通过虚拟到物理地址转换发生的缓存未命中的最大数量？

下面的问题显示如下：假设CPU为指令发出读取操作，并且读取操作不会导致生成页面错误。假设MMU使用TLB来执行地址转换并且存在单个页表，那么在将虚拟地址转换为物理地址并检索指令的整个过程中可能发生的最大缓存未命中数量是多少？（假设，DRAM只有一级缓存）。我明白TLB是用来减少从内存中获取的巨大间接成本，但我不明白虚拟内存足以满足能够回答这个问题 - 我也知道TLB的缺失是很少见的。无论

0热度

1回答

高速缓存中的直写方案

引用Henessey和Patterson的话，“写操作的另一个关键方面是发生在写操作中，我们首先从内存中获取块的字符，在块被提取并放入我们可以覆盖导致错过的字进入缓存块，我们还用使用完整地址将字写入主存储器。“ 我似乎没有理解上述说法。如果我们覆盖缓存中的单词，这意味着之前的地址索引是匹配的，但标签值不同。因此，处理器停止并命令从内存中读取并写入缓存。这显然会取代该块的前一个内容（以1块包含1

0热度

1回答

当直接映射缓存中存在偏移量时，如何将内存地址映射到块？

首先，第一个缓存有16个单字块。作为一个例子，我将使用0x03内存引用。索引有4位（0011）。很明显，位等于3mod16（0011 = 0x03 = 3）。不过，我正在使用这个mod方程式来弄糊涂，以确定具有偏移位的缓存中的块位置。第二个高速缓存的总大小为八个双字块。这意味着有1个偏移位。由于现在有8个块，所以只有3个索引位。作为一个例子，我将采用与0x03相同的内存引用。但是现在我无法使用之

2热度

1回答

缓存对齐英特尔CPU上的内存分配

最近我遇到了英特尔TBB可扩展分配器的问题。基本使用模式是作为以下，大小N * sizeof(double)的几个矢量分配生成一个随机整数M使得M >= N/2 && M <= N。访问每个向量的第一个M元素。重复第2步1000次。我将M设为随机，因为我不想将基准性能定为固定长度。相反，我想获得一系列矢量长度的平均性能。对于不同的值N，程序性能差别很大。这并不罕见，因为我测试的功能旨在

0热度

4回答

使用预取加速随机内存访问

我想通过使用预取来加速单个程序。我的程序的目的只是为了测试。这里是做什么的：它同样采用了尺寸的两个int缓冲区它读取一个接一个的第一缓冲器的所有值它的索引读取值在第二缓冲它总结从第一缓冲它所有越做越大前面的步骤最后，我打印自愿和非自愿CP的数量所采取的所有数值U 在第一次，第一次缓冲区中的值包含其索引的值（参见图1）。功能createIndexBuffer在下面的代码中）。这将是我的