我有一个音频文件(录制2人电话交谈)。我需要自动分开2个扬声器的声音。我是新来的语音识别,我看着Python的波模块,但表面上找到任何丰富的信息。Python扬声器识别
请帮助如何开始。也请建议我免费的Python库,这将帮助我解决问题。
我有一个音频文件(录制2人电话交谈)。我需要自动分开2个扬声器的声音。我是新来的语音识别,我看着Python的波模块,但表面上找到任何丰富的信息。Python扬声器识别
请帮助如何开始。也请建议我免费的Python库,这将帮助我解决问题。
从numpy开始,我会查看谱图(基本上是一个滚动FFT),作为区分音频录制中不同声音的好方法。
这里的频谱功能Matplotlib:
http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram
我会建议Python(x,y)如果你刚刚在Windows平台上启动。
查看CMU Sphinx Python库。它是用Java开发的,所以我认为Python库只是包装器。该项目背后有很多正在进行的研究。
官方维基:http://cmusphinx.sourceforge.net/wiki/
快速入门教程为Linux在这里:http://probing.wikidot.com/speech-recognition-using-sphinx3-and-python
退房sciKits的TalkBox:http://projects.scipy.org/scikits/wiki/Talkbox
Unfortunutly教程是非常严格的限制:http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/talkbox/talkbox_doc/intro.html
分离的任务的扬声器不是语音识别任务,这是一个说话人识别任务。在演讲中,这个任务也被称为演讲者diarization。有扬声器diarization和说话人识别几个包对于Python:
如果你不局限于Python中,有其他:
Speaker recognition setup in Kaldi。包括最先进的基于DNN的i向量。