2016-11-24 30 views
0

我的场景是这样的。从大数据集中挑选两张图像(无法在内存中加载),并将其与神经网络进行比较。每个训练样本由随机组成挑选来自数据集的两幅图像。这个随机过程是消除个案之间的协方差所必需的。如何处理需要随机访问的大数据的网络训练

但我不能从内存中选择两个图像。因为电脑无法负担数据集的大小。因此,每次我制作样品时,我都需要访问慢速磁盘。这种磁盘访问时间减慢了学习过程。 到目前为止,我最好的想法是将数据集随机分为多个小内容的数据集。然后,对每个对象数据集逐个进行神经网络训练。

但是有可能受训的模型可能被后面的小数据集破坏。

那么有没有很好的方法来处理这种随机大数据场景?

回答

0

压缩训练图像怎么样?

训练完网络后,分类通常很快。您可以尝试压缩一组图像并使用例如每隔n毫秒从线程接收一个新的随机选择图像的队列在内存中缓存它们。另一个线程从队列中选择一个图像并对其进行处理以进行训练。生产者/消费者模式对于这样的任务可能是一个很好的选择。 训练后,您可以为分类任务进行在线压缩。这会降低性能,但由于分类通常很快,因此可能就足够了。