2011-02-10 47 views
1

我有一个简单的图像处理相关算法。 简言之,图像(平均值)在浮子是由一个8位的图像 结果中减去,然后保存到一个浮动图像(目标)用TBB优化几条指令的循环(SSE2,SSE4)

此功能主要是通过写入内部函数。

我试图用TBB,par parallel_for, 来优化这个函数,但是我没有收到速度上的增益,但是没有受到惩罚。

我该怎么办?我是否应该使用更多的低层次方案,如TBB任务 来优化代码?

float   *m, **m_data, 
       *o, **o_data; 
unsigned char *p, **src_data; 
register unsigned long len, i; 
unsigned long nr, 
       nc; 

src_data = src->UByteData; // 2d array 
m_data  = mean->FloatData; // 2d array 
o_data  = dest->FloatData; // 2d array 
nr   = src->Rows; 
nc   = src->Cols; 

__m128i xmm0; 

for(i=0; i<nr; i++) 
{ 
    m = m_data[i]; 
    o = o_data[i]; 
    p = src_data[i]; 
    len = nc; 
    do 
    { 
     _mm_prefetch((const char *)(p + 16), _MM_HINT_NTA); 
     _mm_prefetch((const char *)(m + 16), _MM_HINT_NTA); 

     xmm0 = _mm_load_si128((__m128i *) (p)); 

     _mm_stream_ps(
         o, 
         _mm_sub_ps(
            _mm_cvtepi32_ps(_mm_cvtepu8_epi32(_mm_srli_si128(xmm0, 0))), 
            _mm_load_ps(m + offset) 
           ) 
        ); 
     _mm_stream_ps(
         o + 4, 
         _mm_sub_ps(
            _mm_cvtepi32_ps(_mm_cvtepu8_epi32(_mm_srli_si128(xmm0, 4))), 
            _mm_load_ps(m + offset + 4) 
           ) 
        ); 
     _mm_stream_ps(
         o + 8, 
         _mm_sub_ps(
            _mm_cvtepi32_ps(_mm_cvtepu8_epi32(_mm_srli_si128(xmm0, 8))), 
            _mm_load_ps(m + offset + 8) 
           ) 
        ); 
     _mm_stream_ps(
         o + 12, 
         _mm_sub_ps(
            _mm_cvtepi32_ps(_mm_cvtepu8_epi32(_mm_srli_si128(xmm0, 12))), 
            _mm_load_ps(m + offset + 12) 
           ) 
        ); 

     p += 16; 
     m += 16; 
     o += 16; 
     len -= 16; 
    } 
    while(len); 
} 
+1

如果IPP已经有这个功能,我不会感到惊讶。 – 2011-02-10 03:05:37

+2

如果您使用的是英特尔编译器,那么为什么不直接编写一个该函数的天真版本,并查看编译器是否可以自行进行矢量化?在这方面我不了解GCC。 – 2011-02-10 03:16:13

回答

1

相对于加载和存储的数量,您在这里几乎不做任何计算,所以很可能您受限于内存带宽而不是计算。这可以解释为什么在优化计算时没有发现吞吐量有任何改进。

虽然我会摆脱_mm_prefetch指示 - 他们在这里几乎肯定没有帮助,甚至可能会伤害到性能。

如果可能的话,您应该将此循环与您在此之前/之后执行的任何其他操作结合起来 - 这样您可以通过更多计算来分摊内存I/O的成本。