iOS上话筒输入的语音活动检测

我正在开发基于语音的AI的iOS应用;即它意味着从麦克风接收语音输入，将其转换为文本，发送给AI代理，然后通过扬声器输出返回的文本。尽管使用一个按钮来开始和停止录制语音（SpeechKit用于语音识别，AI的API.AI，Amazon的Polly用于输出），但我已经掌握了所有工作。iOS上话筒输入的语音活动检测

我需要的是让麦克风始终打开，并在用户开始和结束通话时自动开始和停止录制用户的声音。这个应用程序正在开发非传统环境，用户无法访问屏幕（但他们将有一个用于记录文本的高端猎枪话筒）。

我的研究表明这块拼图被称为“语音活动检测”，似乎是整个语音AI系统中最难的步骤之一。

我希望有人能够提供一些简单的（Swift）代码来实现这一点，或者指向我可以在此项目中实现的一些体面的库/ SDK的方向。

来源

2017-08-06 Mick Byrne

对于较好的VAD算法实现，您可以使用py-webrtcvad。

它是一个C代码的Python接口，您可以从项目中导入C文件并从swift中使用它们。

来源

2017-08-07 16:06:38

谢谢！实际上，我已经掌握了该库的iOS端口，但尚未完全解决如何将其应用于从麦克风进入的缓冲区，而不是将其指向现有音频文件...任何提示？代码示例？ –

API逐帧处理，因此应该没有问题来处理缓冲区。 –

iOS上话筒输入的语音活动检测

回答

相关问题