需要能够使用语音到文本(语音识别)算法将包含语音的音频(例如.MP3,其他音频格式)转换或转录为文本转录本高准确率。 有很多方法可以做到这一点,但这些方法越来越精确,但是它们是为设备麦克风(例如Google翻译/相应的API for web,适用于iOS的Dragon应用程序)所使用的语音而设计的。 我需要一种方法将音频文件直接送入语音识别引擎/ API。 不想通过扬声器播放音频并使用麦克风捕捉音频 - 需要相当长的时间处理长音频文件,并降低音频质量和转录质量。 是否存在Web服务或API或代码?现有服务中是否有一种假设麦克风将成为来源的包装?直接从音频/转录语音到文本(语音识别)
感谢
此处不讨论话题,但您可以试着问[softwarerecs.se] –
在我的答案中查看链接的API - http://stackoverflow.com/a/19976697/1256219 – brandall