我忙了一些视频文件做大量的手工劳动,我在想,如果有一种方法,我可以更容易:在视频文件中检测周期,其中人物说话
我想什么do是拍摄一个视频文件(例如,硅谷的一集),并检测某个角色(即Erlich Bachman)说话的部分。我不太清楚如何去做这件事,但这肯定会让我的工作变得更容易。
我的猜测是这样的:用Erlich的声音的音频文件训练一些特殊类型的神经网络,然后使用ffmpeg对视频文件的一部分进行采样,通过nnet运行采样,如果输出是积极的,可以进行更精细的搜索以找到对话的确切开始/结束点。
感谢您的回复!说话人识别的链接非常有用。 – mike