Caffe：如果只有一小批适合内存，我该怎么办？

我想训练一个非常大的模型。因此，我只能将非常小的批量放入GPU内存。使用小批量处理的结果非常有noisy gradient estimations。
我能做些什么来避免这个问题？Caffe：如果只有一小批适合内存，我该怎么办？

2016-04-10 Shai

相关：http://stats.stackexchange.com/q/201775/66467 – Shai

您可以在求解器参数中更改iter_size。 Caffe在每个随机梯度下降步骤中通过iter_size x batch_size实例累积梯度。因此，如果由于内存有限无法使用较大的batch_size，那么增加iter_size也可以获得更稳定的渐变。

2016-04-10 15:58:26

如this post中所述，批量大小在理论上不是问题（随机梯度下降的效率已经用批量大小1证明）。确保你正确地实施你的批次（样本应该随机挑选你的数据）。

2016-04-10 08:58:47

确实这是一个很好的理论结果，但实际上，尤其是当网络很大并且涉及很多参数时，人们可能更喜欢使用大批量尺寸。 – Shai

你能提供一些关于你的实现的更多细节吗？参数数量？您可以使用的最大批量大小？ –

我想学习一个经常性的模型：因此，批量大小是我可以展开的时间步数和我可以处理的独立序列的数量之间的权衡。我包含的时间步数越多，我可以处理的序列越少，因此梯度估计中的噪音也会增加。 – Shai

回答