在视频文件中检测周期，其中人物说话

我忙了一些视频文件做大量的手工劳动，我在想，如果有一种方法，我可以更容易：在视频文件中检测周期，其中人物说话

我想什么do是拍摄一个视频文件（例如，硅谷的一集），并检测某个角色（即Erlich Bachman）说话的部分。我不太清楚如何去做这件事，但这肯定会让我的工作变得更容易。

我的猜测是这样的：用Erlich的声音的音频文件训练一些特殊类型的神经网络，然后使用ffmpeg对视频文件的一部分进行采样，通过nnet运行采样，如果输出是积极的，可以进行更精细的搜索以找到对话的确切开始/结束点。

2017-05-03 mike

我想你可以使用一个LSTM，并且只是一个接一个地提供音频帧（或任何你所说的）。你应该而不是只用Elrich的声音的音频文件来训练它。实际上，您应该给它几集作为输入，每当Elrich说话时，您将所需输出设置为1，无论何时他/她不在，您将所需输出设置为0。经过训练后，LSTM将输出一个介于0-1之间的值;价值越高，Elrich讲话的变化就越高。

但请记住，您需要一些体面的训练集才能真正具有良好的神经网络。加上花在开发上的时间和精力可能会超过你在Elrich自己发言时花费在搜索零件上的时间。所以看看一些API的：

This看起来像你可能想要使用的东西。 你应该谷歌扬声器识别，你会发现你需要什么。

来源

2017-05-03 19:37:12

感谢您的回复！说话人识别的链接非常有用。 – mike

在视频文件中检测周期，其中人物说话

回答

相关问题