歌唱时连续语音识别？

作为我的应用程序的一部分，我希望添加语音识别，但不是传统意义上的。我有一些歌词（分为几首诗），由某人唱歌，并且想法是找出当前正在唱什么节目，以便它可以在屏幕上显示。歌唱时连续语音识别？

我已经玩过狮身人面像，并设置了一些基本的例子和工作，但虽然似乎有大量关于注册口语文本的文档可供您等待延迟，然后处理结果，但我可以'对持续识别句子的想法很有帮助。这当然是在我到达歌词被唱的地方而没有说出口的地方之前！

有没有人有过这方面的经验，如果有的话，是否有任何提供良好起点的地方？或者我试图用狮身人面像实现过于雄心勃勃的目标，它永远不会正常工作？我很乐意看看其他图书馆，但他们必须是免费的，狮身人面像是我可以挖掘的最广泛的一个。

2011-08-23 berry120

我想一个很大的问题是要获得一个合适的训练集，或从一个有限的尺寸开机。 – Eamorr

有人可以解释downvote的原因吗？ – berry120

当我在搜索中使用您的问题时，Ggogle在[本文]（http://www.hindawi.com/journals/asmp/2010/546047/）上绊倒。恐怕在寻找特定的图书馆时没有多大帮助，但如果您需要自行构建某些内容，则可能有助于让您走上正轨。 – Wivani

只要稍微延迟发音，就很有可能识别语音。此外，如果你或多或少地了解你期望得到什么。这称为“部分结果”，可通过API在所有CMUSphinx解码器中使用。基本上你可以检索过程中的假设。

有一个小问题来考虑如何稳定这个结果（如何提取它的稳定的部分），但这种技术被称为回溯，并且可以很容易地实现

唱歌，因为音乐可以过滤出来也是可行的。

2011-09-14 10:22:04

回答