2011-12-29 74 views
1

语音识别是我当前项目的许多功能之一,它最有可能是在J2EE中开发的(其他语言在他们的选择合理时也受到欢迎)。使用CMU Shinx,JSAPI和Google语音API的语音识别

googleSO上的大多数链接都建议上述三个选项,Sphinx 4,JSAPI直接和Google Speech API(向Google发送服务器调用并将结果作为文本获取)。

对我来说,其他免费提供的选项是什么?如果我使用Sphinx-4,我怎样才能使用通用英语的语言模型?

回答

3

是的,有。

  1. 可以使用Google语音识别器的包装器,它基本是一行代码。您可以发送FLAC或SPEEX格式的语音音频,并获得识别和置信度分数。唯一的问题是Google可以像谷歌翻译那样关闭API。
  2. 其他选项是使用狮身人面像(狮身人面像4或Pocketsphinx)。
  3. 可以使用HTK(http://htk.eng.cam.ac.uk/)并使用HVite(HTK解码器)或其他类似Julius(http://julius.sourceforge.jp/en/) 。还有其他选项可以使用HTK来训练声学模型和/或语言和语法。

Voxforge为HTK和Sphinx提供了声学和语言模型(http://voxforge.org/)。

+0

这个答案是误导性的。 HTK使用C语言,不适用于J2EE。它在应用程序中也不是免费的。 Voxforge不为HTK和Sphinx提供语言模型。 – 2011-12-30 11:30:20

+0

如果VoxForge不支持狮身人面像比他们提供模型为什么看到这个链接.. http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/这应该用于建立一个听写应用程序狮身人面像4 ..... – aProgrammer 2012-01-18 11:35:41

2

如果我使用Sphinx-4,我该如何获得一般英语的语言模型以便与它一起使用?

您可以从CMUSphinx网站和其他地方下载它们。你也可以自己构建它们。其中一个可能的位置是

http://www.keithv.com/software/csr/

+0

哪个版本我应该从上面的链接下载....你可以解释一下readme.txt ....的步骤3,4和5吗?我如何使用这些模型来构建听写应用程序? – aProgrammer 2012-01-18 11:31:53