7

我正在开发基于语音的AI的iOS应用;即它意味着从麦克风接收语音输入,将其转换为文本,发送给AI代理,然后通过扬声器输出返回的文本。尽管使用一个按钮来开始和停止录制语音(SpeechKit用于语音识别,AI的API.AI,Amazon的Polly用于输出),但我已经掌握了所有工作。iOS上话筒输入的语音活动检测

我需要的是让麦克风始终打开,并在用户开始和结束通话时自动开始和停止录制用户的声音。这个应用程序正在开发非传统环境,用户无法访问屏幕(但他们将有一个用于记录文本的高端猎枪话筒)。

我的研究表明这块拼图被称为“语音活动检测”,似乎是整个语音AI系统中最难的步骤之一。

我希望有人能够提供一些简单的(Swift)代码来实现这一点,或者指向我可以在此项目中实现的一些体面的库/ SDK的方向。

回答

2

对于较好的VAD算法实现,您可以使用py-webrtcvad

它是一个C代码的Python接口,您可以从项目中导入C文件并从swift中使用它们。

+0

谢谢!实际上,我已经掌握了该库的iOS端口,但尚未完全解决如何将其应用于从麦克风进入的缓冲区,而不是将其指向现有音频文件...任何提示?代码示例? –

+0

API逐帧处理,因此应该没有问题来处理缓冲区。 –