7
我正在开发基于语音的AI的iOS应用;即它意味着从麦克风接收语音输入,将其转换为文本,发送给AI代理,然后通过扬声器输出返回的文本。尽管使用一个按钮来开始和停止录制语音(SpeechKit用于语音识别,AI的API.AI,Amazon的Polly用于输出),但我已经掌握了所有工作。iOS上话筒输入的语音活动检测
我需要的是让麦克风始终打开,并在用户开始和结束通话时自动开始和停止录制用户的声音。这个应用程序正在开发非传统环境,用户无法访问屏幕(但他们将有一个用于记录文本的高端猎枪话筒)。
我的研究表明这块拼图被称为“语音活动检测”,似乎是整个语音AI系统中最难的步骤之一。
我希望有人能够提供一些简单的(Swift)代码来实现这一点,或者指向我可以在此项目中实现的一些体面的库/ SDK的方向。
谢谢!实际上,我已经掌握了该库的iOS端口,但尚未完全解决如何将其应用于从麦克风进入的缓冲区,而不是将其指向现有音频文件...任何提示?代码示例? –
API逐帧处理,因此应该没有问题来处理缓冲区。 –