Speech to Text音频格式

-1

我们可以在语音文本中使用MP3音频文件Watson API吗？Speech to Text音频格式

语音到文本Watson API有哪些流行的不受支持的格式？

来源

2017-04-13 Shreshtha Garg

有没有什么你尝试过，你正在努力（即：甚至手动不能帮助）？你问的一切应该已经在他们的网站上得到解答。 –

不支持MP3： Watson Speech to Text audio formats

来源

2017-04-26 18:06:13

我建议你使用WAV格式，在案件：流行的格式。取决于使用情况。

如果您确实需要使用MP3，您可以简单地将convert MP3转换为WAV。

但是，格式语音到文本的支持是：

音频/ FLAC：无损音频编解码器（FLAC），一个无损压缩音频编码格式。有关更多信息，请参阅en.wikipedia.org/wiki/FLAC。
音频/ L16：线性的16位脉冲编码调制（PCM ），一种非压缩音频数据的格式。使用此媒体类型传递原始PCM文件。请注意，线性PCM音频也可驻留在容器波形音频文件格式（WAV）文件中。欲了解更多信息，请参阅互联网工程任务组（IETF）评论请求（RFC）2586和en.wikipedia.org/wiki/Pulse-code_modulation。
音频/ WAV：波形音频文件格式（WAV ），由微软和IBM创建了一个标准。 WAV文件是一个容器，通常用于未压缩的音频比特流，但也可以包含压缩音频。有关更多信息，请参阅en.wikipedia.org/wiki/WAV。该服务支持使用任何编码的WAV文件。它接受最多9个频道的音频（由于FFmpeg的限制）。
audio/ogg/ audio/ogg; codecs = opus/audio/ogg; codecs = vorbis：Ogg是由Xiph.org基金会维护的免费开放容器格式;有关更多信息，请参阅www.xiph.org/ogg/。这两种编解码器都是免费的，开放的，有损音频压缩格式。 Opus是首选的编解码器。如果您省略了编解码器，该服务会自动从输入音频中检测到它。
音频/ WEBM/音频/ WEBM;编解码器= OPUS /音频/ WEBM;编解码器= Vorbis格式：网络媒体（的WebM）是一个开放的媒体文件格式;有关更多信息，请参阅webmproject.org。 WebM支持使用Opus和Vorbis音频编解码器压缩的音频流; Opus是首选的编解码器。如果您省略了编解码器，该服务会自动从输入音频中检测到它。对于展示如何在Chrome浏览器中从麦克风捕获音频并将其编码为WebM数据流的JavaScript代码。

但是，随着更多细节所有格式可以在语音到文本Official Documentation看到。我建议您编辑更多的细节并阅读文档，通常IBM的文档非常客观和完整。

来源

2017-04-26 19:27:44

不要为选择特定的音频格式进行语音到文本转换而苦恼，大多数手动语音转换为文本或transcription services接受所有可用的格式。当我们对文本服务进行自动语音处理时，我总是更喜欢使用wav over mp3，因为它包含高位音频数据，而不会损失音频的质量并被大多数语音引擎接受。以下是任何转录公司支持的格式列表：https://www.transcriptionwave.com/format.html

来源

2017-10-08 06:11:19

Speech to Text音频格式

回答

相关问题