2011-08-23 35 views
9

作为我的应用程序的一部分,我希望添加语音识别,但不是传统意义上的。我有一些歌词(分为几首诗),由某人唱歌,并且想法是找出当前正在唱什么节目,以便它可以在屏幕上显示。歌唱时连续语音识别?

我已经玩过狮身人面像,并设置了一些基本的例子和工作,但虽然似乎有大量关于注册口语文本的文档可供您等待延迟,然后处理结果,但我可以'对持续识别句子的想法很有帮助。这当然是在我到达歌词被唱的地方而没有说出口的地方之前!

有没有人有过这方面的经验,如果有的话,是否有任何提供良好起点的地方?或者我试图用狮身人面像实现过于雄心勃勃的目标,它永远不会正常工作?我很乐意看看其他图书馆,但他们必须是免费的,狮身人面像是我可以挖掘的最广泛的一个。

+1

我想一个很大的问题是要获得一个合适的训练集,或从一个有限的尺寸开机。 – Eamorr

+2

有人可以解释downvote的原因吗? – berry120

+0

当我在搜索中使用您的问题时,Ggogle在[本文](http://www.hindawi.com/journals/asmp/2010/546047/)上绊倒。恐怕在寻找特定的图书馆时没有多大帮助,但如果您需要自行构建某些内容,则可能有助于让您走上正轨。 – Wivani

回答

3

只要稍微延迟发音,就很有可能识别语音。此外,如果你或多或少地了解你期望得到什么。这称为“部分结果”,可通过API在所有CMUSphinx解码器中使用。基本上你可以检索过程中的假设。

有一个小问题来考虑如何稳定这个结果(如何提取它的稳定的部分),但这种技术被称为回溯,并且可以很容易地实现

唱歌,因为音乐可以过滤出来也是可行的。