使用SIMD，我如何将8位掩码扩展为16位掩码？

我想使用SIMD重写这段代码：使用SIMD，我如何将8位掩码扩展为16位掩码？

int16_t v; 
int32_t a[16]; 
int8_t b[32]; 
... 
((int16_t *)a[i])[0] = b[i]==1? -v:v; 
((int16_t *)a[i])[1] = b[i]==1? -v:v;

我想用_mm256_cmpeq_epi8生成一个掩码矢量，在那之后我可以用_mm256_and_si256和_mm256_andnot_si256进行价值选择的。
问题是b [i]是8位整数，而v是16位。
如果掩码向量与{0xff, 0x00, 0xff, 0x00...}相似，则需要将其扩展为{0xffff, 0x0000, 0xffff, 0x0000...}以执行16位值选择。
我该怎么做？（对不起，我的英文版）

编辑：
我找到了灵感来自this question的解决方案。
_mm256_shuffle_epi256只能在128位通道内执行。因此，我打破_mm256i掩码到2 _mm128i寄存器。然后用_mm256_broadcastsi128_si256和_mm256_shuffle_epi256我得到了结果。

来源

2017-02-21 shiro

有一个解决方案：

int16_t v; 
int32_t a[16]; 
int8_t b[32]; 

//((int16_t *)a[i])[0] = b[i]==1? -v:v; 
//((int16_t *)a[i])[1] = b[i]==1? -v:v; 

__m256i _1 = _mm256_set1_epi8(1); 
__m256i _b = _mm256_loadu_si256((__m256i*)b); 

__m256i mask8i = _mm256_cmpeq_epi8(_b, _1); // 8-bit compare mask 

__m256i permutedMask8i = _mm256_permute4x64_epi64(mask8i, 0xD8); 
__m256i mask16iLo = _mm256_unpacklo_epi8(permutedMask8i, permutedMask8i); // low part of 16-bit compare mask 
__m256i mask16iHi = _mm256_unpackhi_epi8(permutedMask8i, permutedMask8i); // high part of 16-bit compare mask 

__m256i positiveV = _mm256_set1_epi16(-v); //positive mask condition 
__m256i negativeV = _mm256_set1_epi16(v); //negative mask condition 

__m256i _aLo = _mm256_blendv_epi8(negativeV, positiveV, mask16iLo); 
__m256i _aHi = _mm256_blendv_epi8(negativeV, positiveV, mask16iHi); 

_mm256_storeu_si256((__m256i*)a + 0, _aLo); 
_mm256_storeu_si256((__m256i*)a + 1, _aHi);

来源

2017-02-21 06:28:59 ErmIg

使用SIMD，我如何将8位掩码扩展为16位掩码？

回答

相关问题