2014-05-25 163 views
4

需要能够使用语音到文本(语音识别)算法将包含语音的音频(例如.MP3,其他音频格式)转换或转录为文本转录本高准确率。 有很多方法可以做到这一点,但这些方法越来越精确,但是它们是为设备麦克风(例如Google翻译/相应的API for web,适用于iOS的Dragon应用程序)所使用的语音而设计的。 我需要一种方法将音频文件直接送入语音识别引擎/ API。 不想通过扬声器播放音频并使用麦克风捕捉音频 - 需要相当长的时间处理长音频文件,并降低音频质量和转录质量。 是否存在Web服务或API或代码?现有服务中是否有一种假设麦克风将成为来源的包装?直接从音频/转录语音到文本(语音识别)

感谢

+3

此处不讨论话题,但您可以试着问[softwarerecs.se] –

+0

在我的答案中查看链接的API - http://stackoverflow.com/a/19976697/1256219 – brandall

回答

2

现在有一个相对较新的服务,它允许语音到文本的自动转录,以及一个用于编辑结果的人机界面。它是:

https://trint.com/

我们使用它,高兴的结果。转录当然不是完美的,但它是一个很好的开始,它允许准备好人工编辑。

现在还有IBM Bluemix/Watson提供的新API和服务。你可以在这里尝试免费的演示:

https://speech-to-text-demo.mybluemix.net/

该服务确实将音频(从话筒或从音频文件获得)转换成文本的一个相当不错的工作。目前至少在演示中,它似乎不使用MP3,但会使用wav和其他格式。该服务具有完整的API,并且主要被设计为内置于应用程序中。

0

您可以使用Windows或Linux(pavucontrol)立体声混音器捕捉到没有麦克风音频,然后使用谷歌语音识别。 audio to text without mike