我正在寻找一种可以处理8位真实复杂变换(尺寸为65K)的FFT引擎。对此的需求是加速实时信号处理引擎。它目前受限于8位 - > FP32和FP32 - > 8位转换,以及实际的FFT被内存带宽限制(我们目前使用的是FFTW)。CPU体系结构的8位FFT?
我认为螺旋项目可能会做到这一点http://spiral.net,但他们的网页上似乎可用的唯一代码是单或双变换。
任何人都知道任何可以做到这一点的C或C++库?
我正在寻找一种可以处理8位真实复杂变换(尺寸为65K)的FFT引擎。对此的需求是加速实时信号处理引擎。它目前受限于8位 - > FP32和FP32 - > 8位转换,以及实际的FFT被内存带宽限制(我们目前使用的是FFTW)。CPU体系结构的8位FFT?
我认为螺旋项目可能会做到这一点http://spiral.net,但他们的网页上似乎可用的唯一代码是单或双变换。
任何人都知道任何可以做到这一点的C或C++库?
有时候以前我遇到过同样的问题。我的数据帧的FFTW在14毫秒内执行(向前,某些计算和向后),而浮点数组转换的简单字节(或短)需要12-19毫秒。所以我已经使SSE函数将字节转换为浮点数(每个周期4个元素),并且具有显着的速度增益 - 现在转换在2.2-5 ms内完成。
如果您的编译器可以使用自动矢量化,请先尝试它。
如果不是,请使用intrinsics编写简单的转换函数。
我已经使用了内联汇编器(MOVD,PUNPCKLBW,PUNPCKLWD,CVTDQ2PS,MOVAPS命令序列)。
procedure BytesToSingles(Src, Dst: Pointer; Count: Integer);
asm
//EAX = Src pointer to byte array
//EDX = Dst pointer to float array !!! 16 byte-aligned !!!
//ECX = Count (multiple of four)
SHR ECX, 2 // 4 elements per cycle
JZ @@Exit
PXOR XMM7, XMM7 // zeros
@@Cycle:
MOVD XMM1, [EAX] // load 4 bytes
PUNPCKLBW XMM1, XMM7 // unpack to words
PUNPCKLWD XMM1, XMM7 // words to int32
CVTDQ2PS XMM0, XMM1 // convert integers to 4 floats
MOVAPS [EDX], XMM0 // store 4 floats to destination array
ADD EAX, 4 // move array pointers
ADD EDX, 16
LOOP @@Cycle
@@Exit:
end;
请注意,8位数据的FFT实现将受数值错误问题影响,正如Paul R在评论中写道的。
你这样做不是想要做的所有处理的定点。你的数据会变成这样大小的FFT。从技术上讲,你可以使用32位固定点,并保持所有的动态,但你仍然必须转换数据和它会比使用浮动(你标记SSE,所以我假设你在一台intel机器上有一个FPU)。我根据自己的工作创建kissfft
我的意见,而不是加速类型转换。 我没有运行MBo的汇编代码,但它看起来像正确的方法。我认为展开可能会让它更快。
如果您不习惯使用汇编,请改用SSE2编译器instrinsics。它会一样快(假设体面的编译器),它会使你的代码更具可读性和可维护性。 This answer会给你你需要的大部分。
将输入转换为FP32并将其插入标准FFT库会出现什么问题? – Mysticial
正如我所说,这是我目前正在做的事情,但是这造成了一个瓶颈。 FFT是一个带宽限制的内存问题,以8位本地方式处理所有内容,将所需的内存吞吐量减少了4倍,并且避免了必须花费时间的转换。 –
我不好,我应该仔细阅读。如果你找不到图书馆来为你做这件事,除非你愿意弄脏你的手,否则你大部分都是运气不好。 – Mysticial