使用多个语音到文本API来提高准确性

有没有人曾试图用两个或更多的语音向文本API转录音频？你可以使用时间戳来匹配单词，并以最高的可信度选择单词。如果有人这样做，是否显着提高了转录的准确性？这值得么？使用多个语音到文本API来提高准确性

2017-07-06 JJJamie

由于多种不同原因，此方法可能存在问题。并非所有供应商都会逐字回归置信度分数，即使他们这样做了，但来自一个供应商的60％的信心并不意味着来自不同供应商的API的信心分数为60％。置信度分数仅在发布它们的API的上下文中有效。

大多数语音到文本供应商在这一点上都有相当不错的型号。有些（如IBM Watson）实际上允许您通过添加词汇表来自定义模型。如果您查看针对SWITCHBOARD语料库的行业基准测试，您会注意到供应商不断改进并相互跨越。在09/13/2016，微软宣布它的错误率最低（https://blogs.microsoft.com/next/2016/09/13/microsoft-researchers-achieve-speech-recognition-milestone/）。在01/11/2017谷歌声称击败了这一点，然后IBM在03/07/2017（https://www.ibm.com/blogs/watson/2017/03/reaching-new-records-in-speech-recognition/）声称拥有优势。差异全部是百分比或百分比改进百分比。我预计短期内这种改进将会持续下去。

所以总结一下 - 通过使用两种不同的API，您可以将您的语音的成本有效地加倍到文本实现 - 这将很难证明是正确的，基于您将实现的最小精度改进。

2017-07-07 14:16:55

这是许多语音比赛的标准练习，当你不关心解码的速度，但你需要一个很好的准确性。系统组合通常会给您带来显着的改善，大约增加10％，所以它通常是有益的

您不需要时间戳来正确地结合假设，您可以统计比较输出。有关主体基准读取

见ROVER的实施SCTK。

2017-07-08 10:30:17

ROVER看起来很有趣，但也很古老。有没有像它更先进和最新的？ – JJJamie

回答