我正在寻找一种匹配已知数据集的方法,比如说一个MP3或wav文件列表,每个文件都是某人说话的样本。在这一点上,我知道档案ABC是Person X的演讲。用于语音/扬声器识别的CMU狮身人面像
然后,我想再取一个样本,并根据已知的数据集进行一些语音匹配以显示此语音最有可能的人。
此外,我不一定在意这个人说了什么,只要我能找到一个匹配,即我不需要任何抄录或其他。
我知道CMU斯芬克斯不会做语音识别,它主要用于语音到文本,但我已经看到其他系统,例如:LIUM扬声器二值化(http://cmusphinx.sourceforge。 net/wiki/speakerdiarization)或VoiceID项目(https://code.google.com/p/voiceid/),它使用CMU作为这类工作的基础。
如果我要使用CMU,我该怎么做语音匹配?
此外,如果CMU Sphinx不是最好的框架,是否有替代品是开源的?
有没有跟进?你做了什么?你成功了吗? – Dariusz