从您的描述,它不是完全清楚你想要做什么。 什么是“特定”的声音?它有高背景噪音吗? 什么是特定的可识别特征(例如音调,吸入性,音色...)? 你想对比哪些其他“声音”? 你只是想匹配一个任意的声谱与“模板声音”? 你的声音是打击乐,旋律,演讲,......?它是长,短...? 您希望最佳辨别度的频率范围是多少?这些功能是否随时间变化?
没有适用于一切的“通用”解决方案。语音识别本身相当复杂,并且不适用于抽象声音,其可识别频率不在例如MEL乐队。
所以在最后,你离开了太多悬而未决的问题得到有用的答案。 唯一的建议基础上,一些信息,我可以做如下:
For the template sound:
1) Extract spectral peak positions from the power spectrum
2) Measure the standard deviation around the peaks and construct a gaussian from it
3) save the gaussians for later classification
For unkown sounds:
1) Extract spectral peak positions
2) Project those points onto the saved gaussians which leaves you with z-scores of the peak positions
3) With the computed z-scores you should be able to classify your template sound
注:这是根据他们最强大的频率,判别声音非常粗略的方法。使用gaussians可以在最强大的频率上稍稍改变空间。
您是否找到解决方案?我正在尝试做类似的事情 - 在两台设备之间传输数据,使用音频来表示数据,所以我只需要识别由已经存在于两台设备上的文件生成的特定声音...... – 2017-01-24 11:37:24