编程ARM11MP VFPU,我看过了的文档,并很担心,做了4组分点产品时(如4x4矩阵乘法的一部分)以下ARM指令集是否会生成暂停?
fmuls s0, s0, s4
fmacs s0, s1, s5
fmacs s0, s2, s6
fmacs s0, s3, s7
是否accumuate下面将严重停滞在这里产生摊位?如果是这样,我将不得不真的改变一些东西,因为我只有32个单独的寄存器可以工作,然后就是9个。另外,我可以在1条指令中设置向量寄存器来完成此操作,但是我想知道3个指令周期是否值得,因为除非我溢出到ARM寄存器,否则我几乎不得不立即将其存储回存储器。在这里没有我真正的SO帐户在这里发布...
你担心s1`和`s5`的乘法不能开始,直到先前加到`s0`完成为止? – Gabe 2010-12-05 20:10:41
更正,或s2,s6与s0 accumulate或... – 2010-12-05 23:05:26