3

有没有人曾试图用两个或更多的语音向文本API转录音频?你可以使用时间戳来匹配单词,并以最高的可信度选择单词。如果有人这样做,是否显着提高了转录的准确性?这值得么?使用多个语音到文本API来提高准确性

回答

0

由于多种不同原因,此方法可能存在问题。并非所有供应商都会逐字回归置信度分数,即使他们这样做了,但来自一个供应商的60%的信心并不意味着来自不同供应商的API的信心分数为60%。置信度分数仅在发布它们的API的上下文中有效。

大多数语音到文本供应商在这一点上都有相当不错的型号。有些(如IBM Watson)实际上允许您通过添加词汇表来自定义模型。如果您查看针对SWITCHBOARD语料库的行业基准测试,您会注意到供应商不断改进并相互跨越。在09/13/2016,微软宣布它的错误率最低(https://blogs.microsoft.com/next/2016/09/13/microsoft-researchers-achieve-speech-recognition-milestone/)。在01/11/2017谷歌声称击败了这一点,然后IBM在03/07/2017(https://www.ibm.com/blogs/watson/2017/03/reaching-new-records-in-speech-recognition/)声称拥有优势。差异全部是百分比或百分比改进百分比。我预计短期内这种改进将会持续下去。

所以总结一下 - 通过使用两种不同的API,您可以将您的语音的成本有效地加倍到文本实现 - 这将很难证明是正确的,基于您将实现的最小精度改进。

0

这是许多语音比赛的标准练习,当你不关心解码的速度,但你需要一个很好的准确性。系统组合通常会给您带来显着的改善,大约增加10%,所以它通常是有益的

您不需要时间戳来正确地结合假设,您可以统计比较输出。有关主体基准读取

A PAIRED TEST FOR RECOGNIZER SELECTION WITH UNTRANSCRIBED DATA Bhiksha Raj, Rita Singh and James Baker

iCNC and iROVER:The Limits of Improving System Combination with Classification? Bjorn Hoffmeister, Ralf Schluter, and Hermann Ney

见ROVER的实施SCTK

+0

ROVER看起来很有趣,但也很古老。有没有像它更先进和最新的? – JJJamie