2015-11-02 87 views
2

我正在用theano培训一个带有1M图像的CNN。现在我对如何准备培训数据感到困惑。大数据中的CNN培训方法

我的问题是:

  1. 当图像大小调整为64 * 64 * 3,整个数据的大小为100G左右。我应该将数据保存到单个npy文件还是一些较小的文件?哪一个是有效的?

  2. 如何决定CNN的参数个数? 1M/10 = 100K如何?

  3. 我应该限制一个训练块的内存开销和CNN参数少于GPU内存吗?

我的电脑配有16G内存和GPU Titian。

非常感谢。

回答

0

如果您使用的是像pylearn2,千层面,Keras等NN框架,请检查文档以查看是否存在从hdf5商店或类似工具批生产磁盘批次的指导原则。

如果没有什么,你不想推出自己的,fuel package提供了很多有用的数据迭代方案,可以适应模型在theano(也可能是大多数的框架;有一个很好的教程在燃料库)。

至于参数,你必须交叉验证,找出你的数据的最佳参数。

是的,批次的模型大小+小批量大小+压差掩码必须在可用的vram下。