我想获得两段音频之间的某种距离度量。例如,我想比较动物的声音和模仿动物的人的声音,然后返回声音的相似程度。两个音频序列之间的感知相似性
这似乎是一个难题。什么是最好的方法来处理它?我正在考虑从音频信号中提取几个特征,然后在这些特征上做一个欧几里德距离或余弦相似性(或类似的东西)。什么样的特征容易提取并且有用于确定声音之间的感知差异?我看到了一些关于Ahazam如何使用散列的东西,但这看起来像是一个不同的问题,因为这两个音频是完全相同的,并且还有噪声,而在这种情况下,这两个音频不是相同的,他们只是知觉上相似)
谢谢。我可以尝试生成一些不同声音的频谱,看看相似的声音是否会产生类似的频谱,而不同的声音则不会。根据我对维基百科链接的理解,频谱必须使用傅里叶变换创建? – Bart 2010-07-05 09:33:57