访问5字节的结构比8字节慢很多

我有一个代码，它根据另一个小数组中的值更新数组。访问5字节的结构比8字节慢很多

for (var i = 0; i < result.Length; i++) 
    { 
    var c = cards[i]; 
    result[i] -= one[c.C0] + one[c.C1]; 
    }

c哪里是一个结构是一对从一甲板表示卡的字节。 one是52的阵列大小（对于每个的52张牌的条目从甲板）

我写一个基准来分析此代码：

private void TestCards2(int testRepetitions, float[] result, float[] one, Cards[] cards) 
{ 
    for (var r = 0; r < testRepetitions; r++) 
    for (var i = 0; i < result.Length; i++) 
    { 
     var c = cards[i]; 
     result[i] -= one[c.C0] + one[c.C1]; 
    } 
}

设置testRepetitions = 25万，而使用的阵列256个元素（result.Length = 256），它在我的机器上运行约8.5秒。

这里是Cards结构：

struct Cards 
{ 
    public byte C0; 
    public byte C1; 

    public Cards(byte c0, byte c1) 
    { 
    C0 = c0; 
    C1 = c1; 
    } 
}

当我修改结构，以容纳5张（5个字节），同样基准现在只需13秒〜。为什么会发生？计算结果相同，其余3张卡未使用，所有阵列都足够小以适应L1缓存。

甚至更奇怪的是，如果我进一步改变卡现在持有8个字节，基准现在更快，需要约10秒。

我的设置：

VS 2015 Update 3. 
.NET 4.6.2 
Release Build x64 
CPU: Haswell i7-5820K CPU @ 3.30GHz

这里是我得到确切时机：

Test With 2 Cards. Time = 8582 ms 
Test With 5 Cards. Time = 12910 ms 
Test With 8 Cards. Time = 10180 ms

这到底是怎么回事？

基准代码：

class TestAdjustment 
    { 
    public void Test() 
    { 
     using (Process p = Process.GetCurrentProcess()) 
     p.PriorityClass = ProcessPriorityClass.High; 

     var size = 256; 

     float[] one = ArrayUtils.CreateRandomFloatArray(size:52); 
     int[] card0 = ArrayUtils.RandomIntArray(size, minValue:0, maxValueInclusive:51); 
     int[] card1 = ArrayUtils.RandomIntArray(size, minValue: 0, maxValueInclusive: 51); 

     Cards[] cards = CreateCardsArray(card0, card1); 
     Cards5[] cards5 = CreateCards5Array(card0, card1); 
     Cards8[] cards8 = CreateCards8Array(card0, card1); 

     float[] result = ArrayUtils.CreateRandomFloatArray(size); 
     float[] resultClone = result.ToArray(); 


     var testRepetitions = 25*1000*1000; 

     var sw = Stopwatch.StartNew(); 


     TestCards2(testRepetitions, result, one, cards); 
     WriteLine($"Test With 2 Cards. Time = {sw.ElapsedMilliseconds} ms"); 
     result = resultClone.ToArray(); //restore original array from the clone, so that next method works on the same data 
     sw.Restart(); 


     TestCards5(testRepetitions, result, one, cards5); 
     WriteLine($"Test With 5 Cards. Time = {sw.ElapsedMilliseconds} ms"); 
     result = resultClone.ToArray(); 
     sw.Restart(); 


     TestCards8(testRepetitions, result, one, cards8); 
     WriteLine($"Test With 8 Cards. Time = {sw.ElapsedMilliseconds} ms"); 


    } 



    private void TestCards2(int testRepetitions, float[] result, float[] one, Cards[] cards) 
    { 
     for (var r = 0; r < testRepetitions; r++) 
     for (var i = 0; i < result.Length; i++) 
     { 
      var c = cards[i]; 
      result[i] -= one[c.C0] + one[c.C1]; 
     } 
    } 

    private void TestCards5(int testRepetitions, float[] result, float[] one, Cards5[] cards) 
    { 
     for (var r = 0; r < testRepetitions; r++) 
     for (var i = 0; i < result.Length; i++) 
     { 
      var c = cards[i]; 
      result[i] -= one[c.C0] + one[c.C1]; 
     } 
    } 


    private void TestCards8(int testRepetitions, float[] result, float[] one, Cards8[] cards) 
    { 
     for (var r = 0; r < testRepetitions; r++) 
     for (var i = 0; i < result.Length; i++) 
     { 
      var c = cards[i]; 
      result[i] -= one[c.C0] + one[c.C1]; 
     } 
    } 


    private Cards[] CreateCardsArray(int[] c0, int[] c1) 
    { 
     var result = new Cards[c0.Length]; 
     for (var i = 0; i < result.Length; i++) 
     result[i] = new Cards((byte)c0[i], (byte)c1[i]); 

     return result; 
    } 

    private Cards5[] CreateCards5Array(int[] c0, int[] c1) 
    { 
     var result = new Cards5[c0.Length]; 
     for (var i = 0; i < result.Length; i++) 
     result[i] = new Cards5((byte)c0[i], (byte)c1[i]); 

     return result; 
    } 

    private Cards8[] CreateCards8Array(int[] c0, int[] c1) 
    { 
     var result = new Cards8[c0.Length]; 
     for (var i = 0; i < result.Length; i++) 
     result[i] = new Cards8((byte)c0[i], (byte)c1[i]); 

     return result; 
    } 
    } 


    struct Cards 
    { 
    public byte C0; 
    public byte C1; 

    public Cards(byte c0, byte c1) 
    { 
     C0 = c0; 
     C1 = c1; 
    } 
    } 

    struct Cards5 
    { 
    public byte C0, C1, C2, C3, C4; 

    public Cards5(byte c0, byte c1) 
    { 
     C0 = c0; 
     C1 = c1; 
     C2 = C3 = C4 = 0; 
    } 
    } 

    struct Cards8 
    { 
    public byte C0, C1, C2, C3, C4, C5, C6, C7; 


    public Cards8(byte c0, byte c1) 
    { 
     C0 = c0; 
     C1 = c1; 
     C2 = C3 = C4 = C5 = C6 = C7 = 0; 
    } 
    }

编辑我再次运行基准，以100百万次迭代。下面是结果：

Test With 5 Cards. Time = 52245 ms 
Test With 8 Cards. Time = 40531 ms

而在相反的顺序：

Test With 8 Cards. Time = 41041 ms 
Test With 5 Cards. Time = 52034 ms

上运行它表面临4（SKYLAKE微架构i7-6650U涡轮增压至3.4GHz的〜）：

Test With 8 Cards. Time = 47913 ms 
Test With 5 Cards. Time = 55182 ms

所以差异依然存在，不依赖于订单。

我也使用英特尔VTune运行分析，它显示“5卡”版本的0.3和“8卡”的0.27的CPI。

编辑2增加了用于创建初始随机数组的ArrayUtils类。

public static class ArrayUtils 
    { 
    static Random rand = new Random(137); 

    public static float[] CreateRandomFloatArray(int size) 
    { 
     var result = new float[size]; 
     for (int i = 0; i < size; i++) 
     result[i] = (float) rand.NextDouble(); 

     return result; 
    } 

    public static int[] RandomIntArray(int size, int minValue, int maxValueInclusive) 
    { 
     var result = new int[size]; 
     for (int i = 0; i < size; i++) 
     result[i] = rand.Next(minValue, maxValueInclusive + 1); 

     return result; 

    } 
    }

来源

2016-08-15 Michal

我无法重现此问题。使用2张卡进行测试需要最多的时间才能完成，而使用8张卡进行测试的速度最快。我甚至不知道如何解释这:)可能你的情况与这一行中的浅拷贝相关：var c = cards [i];'。浅拷贝具有8个属性的结构比具有5或2个字节的属性要花费更多的时间。 –

@Yeldar在我的基准测试中，5字节的结构比8字节慢，而2字节是最快的。 – Michal

这样的*非常*快代码的基准过于困难。 2和8测试之间的差异仅为每个任务0.25纳秒，甚至不是时钟速度的好几倍。只需重新排序测试以获得任意不同的结果。你真正*测试的是你的机器保持处理器冷却的能力。看起来，打开粉丝有点慢，这并不罕见。如果你想要一个更加一致的结果，那么不要把热量变得太大，2500万不会让它变得更好。打开箱子，吸出灰尘兔子。 –

这都是对齐的内存访问。未对齐的内存就绪延迟大于对齐的内存读取延迟。为了完成实验，我们添加结构Cards3,Cards4等等。让我们看看相应的数组是如何在内存中表示的。

接下来，让我们提高您的基准。

我们将使用BenchmarkDotNet（这个工具会做很多日常标杆像迭代量，统计计算等的预热，自动选择）。
我们将尽我们的基准所有Cards2 ... Cards8阵列，不只是他们的3。
同时，我们会检查所有为完整的.NET框架（LegacyJIT-86，LegacyJIT-64，RyuJIT-64）和Mono的JIT编译。

这里是我的环境：

Host Process Environment Information: 
BenchmarkDotNet.Core=v0.9.9.0 
OS=Microsoft Windows NT 6.2.9200.0 
Processor=Intel(R) Core(TM) i7-4810MQ CPU 2.80GHz, ProcessorCount=8 
Frequency=2728068 ticks, Resolution=366.5598 ns, Timer=TSC 
CLR1=MS.NET 4.0.30319.42000, Arch=64-bit RELEASE [RyuJIT] 
CLR2=Mono JIT compiler version 4.4.0, Arch=32-bit 
GC=Concurrent Workstation 
JitModules=clrjit-v4.6.1080.0

而且我的结果：

Method | Platform |  Jit | Toolchain | Runtime | Median | StdDev | 
------- |--------- |---------- |---------- |-------- |---------- |---------- | 
    C2 |  Host |  Host |  Mono | Mono | 3.9230 ns | 0.0532 ns | 
    C3 |  Host |  Host |  Mono | Mono | 4.8223 ns | 0.0920 ns | 
    C4 |  Host |  Host |  Mono | Mono | 5.9149 ns | 0.1207 ns | 
    C5 |  Host |  Host |  Mono | Mono | 6.3981 ns | 0.0913 ns | 
    C6 |  Host |  Host |  Mono | Mono | 7.1179 ns | 0.1222 ns | 
    C7 |  Host |  Host |  Mono | Mono | 7.6318 ns | 0.1269 ns | 
    C8 |  Host |  Host |  Mono | Mono | 8.4650 ns | 0.1497 ns | 
    C2 |  X64 | LegacyJit |  Host | Host | 2.3515 ns | 0.0150 ns | 
    C3 |  X64 | LegacyJit |  Host | Host | 4.2553 ns | 0.0700 ns | 
    C4 |  X64 | LegacyJit |  Host | Host | 1.4366 ns | 0.0385 ns | 
    C5 |  X64 | LegacyJit |  Host | Host | 2.3688 ns | 0.0359 ns | 
    C6 |  X64 | LegacyJit |  Host | Host | 2.3684 ns | 0.0404 ns | 
    C7 |  X64 | LegacyJit |  Host | Host | 3.0404 ns | 0.0664 ns | 
    C8 |  X64 | LegacyJit |  Host | Host | 1.4510 ns | 0.0333 ns | 
    C2 |  X64 | RyuJit |  Host | Host | 1.9281 ns | 0.0306 ns | 
    C3 |  X64 | RyuJit |  Host | Host | 2.1183 ns | 0.0348 ns | 
    C4 |  X64 | RyuJit |  Host | Host | 1.9395 ns | 0.0397 ns | 
    C5 |  X64 | RyuJit |  Host | Host | 2.7706 ns | 0.0387 ns | 
    C6 |  X64 | RyuJit |  Host | Host | 2.6471 ns | 0.0513 ns | 
    C7 |  X64 | RyuJit |  Host | Host | 2.9743 ns | 0.0541 ns | 
    C8 |  X64 | RyuJit |  Host | Host | 2.6280 ns | 0.1526 ns | 
    C2 |  X86 | LegacyJit |  Host | Host | 3.0854 ns | 0.2172 ns | 
    C3 |  X86 | LegacyJit |  Host | Host | 3.1627 ns | 0.1126 ns | 
    C4 |  X86 | LegacyJit |  Host | Host | 3.0577 ns | 0.0929 ns | 
    C5 |  X86 | LegacyJit |  Host | Host | 5.0957 ns | 0.1601 ns | 
    C6 |  X86 | LegacyJit |  Host | Host | 6.1723 ns | 0.1177 ns | 
    C7 |  X86 | LegacyJit |  Host | Host | 7.1155 ns | 0.0803 ns | 
    C8 |  X86 | LegacyJit |  Host | Host | 3.7703 ns | 0.1276 ns |

完整的源代码：

using System; 
using System.Linq; 
using BenchmarkDotNet.Attributes; 
using BenchmarkDotNet.Attributes.Exporters; 
using BenchmarkDotNet.Attributes.Jobs; 
using BenchmarkDotNet.Running; 

[LegacyJitX86Job, LegacyJitX64Job, RyuJitX64Job, MonoJob] 
[RPlotExporter] 
public class CardBenchmarks 
{ 
    public const int Size = 256; 

    private float[] result, one; 
    private Cards2[] cards2; 
    private Cards3[] cards3; 
    private Cards4[] cards4; 
    private Cards5[] cards5; 
    private Cards6[] cards6; 
    private Cards7[] cards7; 
    private Cards8[] cards8; 

    [Setup] 
    public void Setup() 
    { 
    result = ArrayUtils.CreateRandomFloatArray(Size); 
    one = ArrayUtils.CreateRandomFloatArray(size: 52); 
    var c0 = ArrayUtils.RandomByteArray(Size, minValue: 0, maxValueInclusive: 51); 
    var c1 = ArrayUtils.RandomByteArray(Size, minValue: 0, maxValueInclusive: 51); 

    cards2 = CardUtls.Create2(c0, c1); 
    cards3 = CardUtls.Create3(c0, c1); 
    cards4 = CardUtls.Create4(c0, c1); 
    cards5 = CardUtls.Create5(c0, c1); 
    cards6 = CardUtls.Create6(c0, c1); 
    cards7 = CardUtls.Create7(c0, c1); 
    cards8 = CardUtls.Create8(c0, c1); 
    } 

    [Benchmark(OperationsPerInvoke = Size)] 
    public void C2() 
    { 
    for (var i = 0; i < result.Length; i++) 
    { 
     var c = cards2[i]; 
     result[i] -= one[c.C0] + one[c.C1]; 
    } 
    } 

    [Benchmark(OperationsPerInvoke = Size)] 
    public void C3() 
    { 
    for (var i = 0; i < result.Length; i++) 
    { 
     var c = cards3[i]; 
     result[i] -= one[c.C0] + one[c.C1]; 
    } 
    } 

    [Benchmark(OperationsPerInvoke = Size)] 
    public void C4() 
    { 
    for (var i = 0; i < result.Length; i++) 
    { 
     var c = cards4[i]; 
     result[i] -= one[c.C0] + one[c.C1]; 
    } 
    } 

    [Benchmark(OperationsPerInvoke = Size)] 
    public void C5() 
    { 
    for (var i = 0; i < result.Length; i++) 
    { 
     var c = cards5[i]; 
     result[i] -= one[c.C0] + one[c.C1]; 
    } 
    } 

    [Benchmark(OperationsPerInvoke = Size)] 
    public void C6() 
    { 
    for (var i = 0; i < result.Length; i++) 
    { 
     var c = cards6[i]; 
     result[i] -= one[c.C0] + one[c.C1]; 
    } 
    } 

    [Benchmark(OperationsPerInvoke = Size)] 
    public void C7() 
    { 
    for (var i = 0; i < result.Length; i++) 
    { 
     var c = cards7[i]; 
     result[i] -= one[c.C0] + one[c.C1]; 
    } 
    } 

    [Benchmark(OperationsPerInvoke = Size)] 
    public void C8() 
    { 
    for (var i = 0; i < result.Length; i++) 
    { 
     var c = cards8[i]; 
     result[i] -= one[c.C0] + one[c.C1]; 
    } 
    } 
} 

public static class ArrayUtils 
{ 
    private static readonly Random Rand = new Random(137); 

    public static float[] CreateRandomFloatArray(int size) 
    { 
    var result = new float[size]; 
    for (int i = 0; i < size; i++) 
     result[i] = (float) Rand.NextDouble(); 
    return result; 
    } 

    public static byte[] RandomByteArray(int size, int minValue, int maxValueInclusive) 
    { 
    var result = new byte[size]; 
    for (int i = 0; i < size; i++) 
     result[i] = (byte) Rand.Next(minValue, maxValueInclusive + 1); 
    return result; 
    } 
} 

public static class CardUtls 
{ 
    private static T[] Create<T>(int length, Func<int, T> create) => Enumerable.Range(0, length).Select(create).ToArray(); 

    public static Cards2[] Create2(byte[] c0, byte[] c1) => Create(c0.Length, i => new Cards2 {C0 = c0[i], C1 = c1[i]}); 
    public static Cards3[] Create3(byte[] c0, byte[] c1) => Create(c0.Length, i => new Cards3 {C0 = c0[i], C1 = c1[i]}); 
    public static Cards4[] Create4(byte[] c0, byte[] c1) => Create(c0.Length, i => new Cards4 {C0 = c0[i], C1 = c1[i]}); 
    public static Cards5[] Create5(byte[] c0, byte[] c1) => Create(c0.Length, i => new Cards5 {C0 = c0[i], C1 = c1[i]}); 
    public static Cards6[] Create6(byte[] c0, byte[] c1) => Create(c0.Length, i => new Cards6 {C0 = c0[i], C1 = c1[i]}); 
    public static Cards7[] Create7(byte[] c0, byte[] c1) => Create(c0.Length, i => new Cards7 {C0 = c0[i], C1 = c1[i]}); 
    public static Cards8[] Create8(byte[] c0, byte[] c1) => Create(c0.Length, i => new Cards8 {C0 = c0[i], C1 = c1[i]}); 
} 

public struct Cards2 
{ 
    public byte C0, C1; 
} 

public struct Cards3 
{ 
    public byte C0, C1, C2; 
} 

public struct Cards4 
{ 
    public byte C0, C1, C2, C3; 
} 

public struct Cards5 
{ 
    public byte C0, C1, C2, C3, C4; 
} 

public struct Cards6 
{ 
    public byte C0, C1, C2, C3, C4, C5; 
} 

public struct Cards7 
{ 
    public byte C0, C1, C2, C3, C4, C5, C6; 
} 

public struct Cards8 
{ 
    public byte C0, C1, C2, C3, C4, C5, C6, C7; 
} 


class Program 
{ 
    static void Main() 
    { 
    BenchmarkRunner.Run<CardBenchmarks>(); 
    } 
}

回答

正如你所看到的，你的标杆是一个很难，有很多的影响你的表现不同的因素。最重要的事情之一是您的运行时如何布置数据。例如，您不会观察Mono上描述的行为，因为Mono和Full Framework具有不同的布局算法（在Mono中，我们有Marshal.SizeOf(typeof(Card2)) == 8）。

在Full Framework上我们有Time(Card5) > Time(Card8)，因为Card5会产生很多与Card8（见第一张图片）不一致的读取。

更新

问题从the comment：

任何想法，为什么3个字节的性能比你的RyuJIT64基准8字节的更好吗？

让我们看看汇编代码：

; RyuJIT-x64, C3 
       var c = cards3[i]; 
00007FFEDF0CADCE mov   r10,r9 
00007FFEDF0CADD1 mov   r11d,dword ptr [r10+8] 
00007FFEDF0CADD5 cmp   eax,r11d 
00007FFEDF0CADD8 jae   00007FFEDF0CAE44 
00007FFEDF0CADDA movsxd  r11,eax 
00007FFEDF0CADDD imul  r11,r11,3 
00007FFEDF0CADE1 lea   r10,[r10+r11+10h] 
00007FFEDF0CADE6 movzx  r11d,byte ptr [r10]   ; !!! 
00007FFEDF0CADEA movzx  r10d,byte ptr [r10+1]  ; !!! 

; RyuJIT-x64, C8 
       var c = cards8[i]; 
00007FFEDF0CAE8C mov   rdx,qword ptr [rcx+48h] 
00007FFEDF0CAE90 mov   r8d,dword ptr [rdx+8] 
00007FFEDF0CAE94 cmp   eax,r8d 
00007FFEDF0CAE97 jae   00007FFEDF0CAF0C 
00007FFEDF0CAE99 movsxd  r8,eax 
00007FFEDF0CAE9C mov   rdx,qword ptr [rdx+r8*8+10h] ; !!! 
00007FFEDF0CAEA1 mov   qword ptr [rsp+28h],rdx  ; !!!

在C3情况下，RyuJIT保持在r11d，r10d寄存器中的目标字节;在C8的情况下，RyuJIT将它们保存在堆栈中（qword ptr [rsp+28h]）。解释：当前版本的RyuJIT（在我的情况下是v4.6.1080.0）对不超过4个字段的结构进行标量替换（请参阅coreclr#6839）。因此，RyuJIT性能为C5,C6,,和C8比C2,C3,C4的性能差。请注意：这种行为可能会在RyuJIT的未来版本中发生变化。

来源

2016-08-22 08:07:39 AndreyAkinshin

谢谢你的详细解答。由于8字节与5字节的对比，我怀疑内存对齐。任何想法为什么RyuJIT64基准测试中3字节的性能好于8字节？ – Michal

@Michal，看我的更新。 – AndreyAkinshin

@Michal，这里是相应的coreclr问题：https://github.com/dotnet/coreclr/issues/6839 – AndreyAkinshin

我的假设是这与内存对齐有关。

技术信息：

一些架构，例如MIPS架构，实际上不能在内存中的时间只修改一个字节。他们必须将一个数据字加载到一个寄存器中，掩盖不相关的位并执行计算。

你实际上可能通过正常的INT的，而不是字节，因为它完全避免了这个问题，遇到加快。

来源

2016-08-15 05:12:52 DeftlyHacked

访问5字节的结构比8字节慢很多

回答

回答

更新

相关问题