0
我的场景是这样的。从大数据集中挑选两张图像(无法在内存中加载),并将其与神经网络进行比较。每个训练样本由随机组成挑选来自数据集的两幅图像。这个随机过程是消除个案之间的协方差所必需的。如何处理需要随机访问的大数据的网络训练
但我不能从内存中选择两个图像。因为电脑无法负担数据集的大小。因此,每次我制作样品时,我都需要访问慢速磁盘。这种磁盘访问时间减慢了学习过程。 到目前为止,我最好的想法是将数据集随机分为多个小内容的数据集。然后,对每个对象数据集逐个进行神经网络训练。
但是有可能受训的模型可能被后面的小数据集破坏。
那么有没有很好的方法来处理这种随机大数据场景?