2012-06-28 75 views
4

我一直在运行Debian Squeeze的虚拟机上安装Pocketsphinx0.7。这工作得很好,我可以尝试从文件中识别语音。为此,我构建了一些Python脚本,它们可以识别我得到的一堆文件,然后估计单词错误率。这些使用如this tutorial中所述的gstreamer。正确配置Pocketsphinx

到目前为止,我使用的是pocketsphinx tarball中的原始HMM,它是一个简单包含我的测试数据和我的教授获得的优化语言模型中的单词的字典。这应该可以在生产系统中运行。我现在的问题是认可表现仍然很糟糕。我有大约85%的字错误率(WER)。

我想知道的是如何改善WER。我可以采取什么样的步骤?

发生的另一件事情,可能会影响性能是pocketsphinx告诉我它没有权限访问嗯,虽然我让大家可以读取,写入和执行嗯。

有没有人有一个想法,这可能来自哪里? 我很欣赏任何形式的帮助。如果您需要更多信息,请告诉我。


编辑:

我创建了一个小测试集就跑pocketsphinx。 This is where you can find the files and the results.我被允许给你 你从原始测试集的一些例子。你can find it here
这些是最糟糕的例子。 1-2个单词的简短话语效果很好。 对不起,我目前无法创建一个大型测试集,我的时间非常有限。

回答

2

我想知道的是如何改善WER。我可以采取什么样的步骤?

这个问题在Pocketsphinx常见问题描述:

http://cmusphinx.sourceforge.net/wiki/faq#qwhy_my_accuracy_is_poor

的第一步是收集测试样本的数据库

如果您需要帮助,以提高精度,需要分享您正在查找的数据库和结果以及实际结果。你可以在这里或在Sourceforge论坛上分享。您需要将所有文件打包归档并上传到某处。然后你可以给这里一个链接。

欲了解更多信息,请参阅

http://cmusphinx.sourceforge.net/wiki/communicate

+0

我见过的CMU Sphinx的常见问题已经是我的问题是,我必须有错误配置pocketsphinx给穷人accuracy.Looking在我的结果,我认为语言模型被忽略。由于一切工作在gstreamer插件上,所以它不在页面上覆盖(至少我没有找到它)。由于法律问题,我不能分享样品,只能假设和转录。我会将其编辑到我的文章中。感谢您的回答 – elramino

+0

我再次检查,我甚至不能共享输出。我会采取免费的例子,并在这里尽快发布结果。 – elramino

+0

鉴于您现在分享的数据,您似乎正在使用的语言模型并不完全正确。如果你说短语有用,那么语言模型很可能首先被训练成识别短语。使用您分享的集合上的默认pocketsphinx模型,错误率为64%,而不是85%。用好的语言模型可以达到40%。我还看到你记录了英国英语,而不是美国英语。通过从美国英语模型到英国英语的声学模型调整,您可以将错误率降低到20%甚至更低。 –