我想超级优化一些代码,并且我想加快的地方是以下内容。我可以将存储在_m128 SSE寄存器中的浮点数直接移动到正常寄存器吗?
我想采取一个_m128的点积操作(_mm_dp_ps)的答案,并将答案直接保存到寄存器中。但是,使用_mm_store,这意味着我不得不写一个完整的128位数组,然后加载该数组的第一个条目。
调用我的_m128变量“vector”。
我可以做float ans = *((float *)& vector)吗?
如果这有效,是否它仍然有帮助的问题依然存在。是否会被加载到一个寄存器中,或者我将不得不从L1加载它?
谢谢!!!
现在......你试过了吗? –