我有一些代码在一个循环SSE SIMD优化For循环
for(int i = 0; i < n; i++)
{
u[i] = c * u[i] + s * b[i];
}
所以,u和b是相同的长度的矢量,并且c和s是标量。这个代码是否适合与SSE一起使用以加速矢量化?
UPDATE
我学到矢量(原来,这并不难,如果您使用内联函数),并实现我的SSE循环。但是,在VC++编译器中设置SSE2标志时,我获得的性能与我自己的SSE代码大致相同。另一方面,英特尔编译器比我的SSE代码或VC++编译器快得多。
这里是我写的参考
double *u = (double*) _aligned_malloc(n * sizeof(double), 16);
for(int i = 0; i < n; i++)
{
u[i] = 0;
}
int j = 0;
__m128d *uSSE = (__m128d*) u;
__m128d cStore = _mm_set1_pd(c);
__m128d sStore = _mm_set1_pd(s);
for (j = 0; j <= i - 2; j+=2)
{
__m128d uStore = _mm_set_pd(u[j+1], u[j]);
__m128d cu = _mm_mul_pd(cStore, uStore);
__m128d so = _mm_mul_pd(sStore, omegaStore);
uSSE[j/2] = _mm_add_pd(cu, so);
}
for(; j <= i; ++j)
{
u[j] = c * u[j] + s * omegaCache[j];
}
[注VC11现在在它的优化使用SIMD(http://blogs.microsoft.co.il/blogs/sasha/archive/2011/10/17/simd-optimized-c-code-in -visual-studio-11.aspx) – bobobobo 2012-10-13 17:30:00