有没有人曾试图用两个或更多的语音向文本API转录音频?你可以使用时间戳来匹配单词,并以最高的可信度选择单词。如果有人这样做,是否显着提高了转录的准确性?这值得么?使用多个语音到文本API来提高准确性
3
A
回答
0
由于多种不同原因,此方法可能存在问题。并非所有供应商都会逐字回归置信度分数,即使他们这样做了,但来自一个供应商的60%的信心并不意味着来自不同供应商的API的信心分数为60%。置信度分数仅在发布它们的API的上下文中有效。
大多数语音到文本供应商在这一点上都有相当不错的型号。有些(如IBM Watson)实际上允许您通过添加词汇表来自定义模型。如果您查看针对SWITCHBOARD语料库的行业基准测试,您会注意到供应商不断改进并相互跨越。在09/13/2016,微软宣布它的错误率最低(https://blogs.microsoft.com/next/2016/09/13/microsoft-researchers-achieve-speech-recognition-milestone/)。在01/11/2017谷歌声称击败了这一点,然后IBM在03/07/2017(https://www.ibm.com/blogs/watson/2017/03/reaching-new-records-in-speech-recognition/)声称拥有优势。差异全部是百分比或百分比改进百分比。我预计短期内这种改进将会持续下去。
所以总结一下 - 通过使用两种不同的API,您可以将您的语音的成本有效地加倍到文本实现 - 这将很难证明是正确的,基于您将实现的最小精度改进。
0
这是许多语音比赛的标准练习,当你不关心解码的速度,但你需要一个很好的准确性。系统组合通常会给您带来显着的改善,大约增加10%,所以它通常是有益的
您不需要时间戳来正确地结合假设,您可以统计比较输出。有关主体基准读取
见ROVER的实施SCTK。
相关问题
- 1. 如何提高语音到文本转换器的准确性
- 2. 提高语音检测算法的准确性
- 3. 用于“文本到语音”和“语音到文本”的C++ API
- 4. 语音控制API - 针对特定短语的高准确度
- 5. 文本到语音(语音生成)和语音到文本(语音识别)API?
- 6. Android文本到语音男性语音
- 7. 文本到语音Api
- 8. java文本到语音api
- 9. 文本到语音Web API
- 10. WP7 - 文本到语音API
- 11. 使用java的女性语音的文本到语音
- 12. 。用什么来改进使用pocketsphinx的语音到文本识别的准确性?
- 13. Windows 8语音文本和文本到语音API
- 14. IBM Watson语音识别的准确性不高
- 15. 如何提高Tesseract的OCR文本的准确性?
- 16. Android Mobile-Vision如何从多个选项中提高准确性
- 17. 语音/语音到文本
- 18. 通用文本到语音语音
- 19. 多语言文本到语音库?
- 20. 提高语音合成性能
- 21. 如何提高cmuSphinx的准确性?
- 22. Bigquery提高准确性问题
- 23. 提高Android TessBaseAPI(Tesseract)的准确性OCR
- 24. Python tesseract提高了OCR的准确性
- 25. 如何提高pocketsphinxcontroller的准确性
- 26. 使用谷歌Api:语音到电脑上的文本版本
- 27. 低频术语 - 朴素贝叶斯提高准确性
- 28. 使用口袋Sphinix语音识别的准确性很差
- 29. 是否有任何Windows 8语音到文本和文本到语音API?
- 30. 如何选择Google文本中的男性语音到语音API
ROVER看起来很有趣,但也很古老。有没有像它更先进和最新的? – JJJamie