使用神经网络进行视频分析的建议

我最近在神经网络开设了一门课程，并决定开展研究工作。我所考虑的是设计一个识别嘴唇运动的网络，这通常被称为唇读。使用神经网络进行视频分析的建议

我知道神经网络理论，我选择了设计卷积神经网络但我有问题想着如何提取视频或图像的序列将作为服务的特征输入到我计划设计的网络中。

在关注全面调查之前，我想通过给我一些概念或想法来帮助我做点什么，主要在特征提取部分。

我一般都认为是这样的：

元音音节或持续约1〜2秒的视频。从这段视频中，我必须提取一系列图片来展示嘴唇如何移动。假设我选择了大约10或15张图像，我想所有这些图像在处理后应该是我的“输入”以获得这些特征。

但是我已经分析过一个单一的图像，就像“识别一封信”的经典例子，但正如我之前所说的，我想我会有一系列的图像进行分析，并且让我困惑了一下。

我想知道如果我在这个想法的正确轨道上，如果没有，我会他们引导我与此。我希望我已经清楚上述，非常感谢你。

来源

2017-10-20 L. Flor

本文应该帮助您决定如何处理输入到神经网络的帧序列。看起来您可以将特定声音的所有帧连接（组合）成一个图像并馈入您的网络进行培训和评估。

http://cs231n.stanford.edu/reports/2016/pdfs/217_Report.pdf

来源

2017-10-20 04:42:08

非常感谢您的贡献！ –

使用神经网络进行视频分析的建议

回答

相关问题