2009-03-04 209 views
11

是否有任何人有任何开源的经验,或相对便宜的语音识别API的Java?我非常想找一些能将说出来的单词变成文本的东西。Java语音识别

从Sun的Java语音识别页面看来,它似乎已经死了。我的要求至少在Linux上运行。

任何人都可以推荐一些东西吗?纯Java将是一种奖励,否则可以考虑基于Linux的解决方案。由于这是一个家庭项目......越便宜越好。

  • 编辑

CMU狮身人面像 作为阿米特指出CMU狮身人面像http://cmusphinx.sourceforge.net/html/cmusphinx.php 我的问题是一个巨大的字错误率。培训本身就像一个项目,我希望能够在这个周末尝试一些实力。

IBM ViaVoice
有消息公告浮出水面2004年约Via Voice being made open source。新闻发布似乎不成熟,而且从未发生过。威盛语音在某个时候是released for linux,但似乎他们停了下来。似乎在IBM网站上留下的所有内容是ViaVoice embedded

IBM Websphere语音
我想这就是为什么ViaVoice(桌面)似乎停产。 IBM创建了这个商业解决方案,其成本不仅仅是一只手臂和一条腿。只要使用它,就可以使用剩下的,至少在使用websphere和IDE之后。

Nuance
看来他们似乎仍然可能为linux创建产品。但我认为他们迷失了,并且跟随IBM进入了服务器市场。我不确定这件事,他们的网站在寻找有用的信息方面并不那么友好。

Open Mind/Free Speech
这些家伙不断更改他们的项目名称。可能有些钱饥饿的公司一直威胁着他们,但我不知道。该项目看起来有点死了。

我可能会尝试在这个周末训练狮身人面像,看看它是否想成为朋友。否则更糟糕的情况是,我会考虑使用微软的语音解决方案。它在过去对我很好,但它不是一个很好的Linux解决方案。我可以通过酒来使用它,但是我会有两台独立的服务器......凌乱。

哦,什么似乎是一个很好的地方访问语音/语音SpeechTechMag。他们有一个“Anual Reference”,其中包含一些与语音/语音有关的公司名单。

回答

9
+0

使用它之后,它实际上是相当可怕的。几乎不承认任何事情,也不像我有可怕的口音或任何东西。 训练似乎更多的是一个问题,除非你愿意掏钱购买一些第三方数据库,你就坐在堆的底部。 – guyumu 2009-03-04 15:19:34

+0

我还没有任何实际经验./ – 2009-03-04 16:32:56

1

我一直在寻找了几天同样的事情。到目前为止,我已经找到了Sphinx4和FreeTTS。两者都是java实现,Sphinx看起来像FreeTTS一样更新频繁。我遇到的唯一问题是狮身人面像在办公环境中遇到问题,我需要仓库环境的解决方案。

3

狮身人面像是迄今为止最好的选择,如果你在预算。然而它也使巨大区别你使用什么模型,你如何调整它们如何调整你的音频源。绝对一切都必须匹配否则它不会工作。鉴于你所描述的问题,你愿意下注一大笔钱,你有你的模型混合起来,你的麦克风没有正确校准。另外,如果你有口音,它可能不会起作用 - 这不是解码器的问题,而是声学模型的问题 - 如果在训练数据中没有与你的语音/口音类似的人被包含在训练数据中,你会得到不好的结果。

那说的,你看过他们的开源模型页吗?

http://www.speech.cs.cmu.edu/sphinx/models/

取决于您正在尝试做的,你应该能够获得言论自由约90%的准确率与16kHz的WSJ模型和gigaword LM的NVP。然而,我警告说,ASR是一项大规模的事业,尚未达到商品地位。

0

我的小组在Java中完成了一个小程序,用Sphinx来识别口头数字。

2

您可以从http://www.basic-signalprocessing.com下载vPass(语音密码)。

对于(vText)语音到文本,我可以将vText.jar文件发送到您的电子邮件。请通知[email protected]

这些组件是为Java和.Net语言设计的。识别期限为5秒。 VPass已经过很好的测试vText不是,还是新的,这就是为什么还没有打包。

问候, 安德烈亚斯