2017-05-03 94 views
0

我忙了一些视频文件做大量的手工劳动,我在想,如果有一种方法,我可以更容易:在视频文件中检测周期,其中人物说话

我想什么do是拍摄一个视频文件(例如,硅谷的一集),并检测某个角色(即Erlich Bachman)说话的部分。我不太清楚如何去做这件事,但这肯定会让我的工作变得更容易。

我的猜测是这样的:用Erlich的声音的音频文件训练一些特殊类型的神经网络,然后使用ffmpeg对视频文件的一部分进行采样,通过nnet运行采样,如果输出是积极的,可以进行更精细的搜索以找到对话的确切开始/结束点。

回答

1

我想你可以使用一个LSTM,并且只是一个接一个地提供音频帧(或任何你所说的)。你应该而不是只用Elrich的声音的音频文件来训练它。实际上,您应该给它几集作为输入,每当Elrich说话时,您将所需输出设置为1,无论何时他/她不在,您将所需输出设置为0。经过训练后,LSTM将输出一个介于0-1之间的值;价值越高,Elrich讲话的变化就越高。

但请记住,您需要一些体面的训练集才能真正具有良好的神经网络。加上花在开发上的时间和精力可能会超过你在Elrich自己发言时花费在搜索零件上的时间。所以看看一些API的:

This看起来像你可能想要使用的东西。 你应该谷歌扬声器识别,你会发现你需要什么。

+0

感谢您的回复!说话人识别的链接非常有用。 – mike