如何处理需要随机访问的大数据的网络训练

我的场景是这样的。从大数据集中挑选两张图像（无法在内存中加载），并将其与神经网络进行比较。每个训练样本由随机组成挑选来自数据集的两幅图像。这个随机过程是消除个案之间的协方差所必需的。如何处理需要随机访问的大数据的网络训练

但我不能从内存中选择两个图像。因为电脑无法负担数据集的大小。因此，每次我制作样品时，我都需要访问慢速磁盘。这种磁盘访问时间减慢了学习过程。到目前为止，我最好的想法是将数据集随机分为多个小内容的数据集。然后，对每个对象数据集逐个进行神经网络训练。

但是有可能受训的模型可能被后面的小数据集破坏。

那么有没有很好的方法来处理这种随机大数据场景？

来源

2016-11-24 jinhwan

压缩训练图像怎么样？

训练完网络后，分类通常很快。您可以尝试压缩一组图像并使用例如每隔n毫秒从线程接收一个新的随机选择图像的队列在内存中缓存它们。另一个线程从队列中选择一个图像并对其进行处理以进行训练。生产者/消费者模式对于这样的任务可能是一个很好的选择。训练后，您可以为分类任务进行在线压缩。这会降低性能，但由于分类通常很快，因此可能就足够了。

来源

2016-11-25 09:39:45

如何处理需要随机访问的大数据的网络训练

回答

相关问题