6

我正在寻找一种匹配已知数据集的方法,比如说一个MP3或wav文件列表,每个文件都是某人说​​话的样本。在这一点上,我知道档案ABC是Person X的演讲。用于语音/扬声器识别的CMU狮身人面像

然后,我想再取一个样本,并根据已知的数据集进行一些语音匹配以显示此语音最有可能的人。

此外,我不一定在意这个人说了什么,只要我能找到一个匹配,即我不需要任何抄录或其他。

我知道CMU斯芬克斯不会做语音识别,它主要用于语音到文本,但我已经看到其他系统,例如:LIUM扬声器二值化(http://cmusphinx.sourceforge。 net/wiki/speakerdiarization)或VoiceID项目(https://code.google.com/p/voiceid/),它使用CMU作为这类工作的基础。

如果我要使用CMU,我该怎么做语音匹配?

此外,如果CMU Sphinx不是最好的框架,是否有替代品是开源的?

+1

有没有跟进?你做了什么?你成功了吗? – Dariusz

回答

2

这是一个适合博士论文复杂性的课题。目前没有好的和可靠的系统。

你为之奋斗的任务非常复杂。你应该如何接近它取决于你的情况。

  • 你有限的人吗?多少?
  • 你对每个人有多少数据?

如果你有很少有人认识到,你可以尝试为获得那些人的formants并将它们与样品一样简单。

否则 - 您必须联系一些关于该主题或陪审团工作的学者讨论您自己的解决方案。无论如何,正如我所说,这是一个难题。

+0

我很好奇你的陈述,说没有好的和可靠的系统。 [本文](http://publications.idiap.ch/downloads/papers/2012/Vijayasenan_INTERSPEECH2012_2012.pdf)提到了四个diarization框架,OP提到的LIUM工具(从2009年开始)似乎用得很好,例如,由狮身人面像社区。这些现有方法是否有特定的限制? –

+0

我应该写下“我不知道”。不过,你看过这些结果吗?他们不是很棒。使用语音作为生物特征仍然是非常不可靠的。 – Dariusz

相关问题