我有一个自制的数据集,数百万行。我正在尝试制作截断的副本。所以我剪下我用来制作原始数据集并创建一个新数据集的张量。但是,当我保存只有20K行的新数据集时,它与原始数据集的磁盘大小相同。否则一切似乎犹太教,包括,当我检查,新张量的大小。我究竟做错了什么?Pytorch张量/数据集的调整大小副本
#original dataset - 2+million rows
dataset = D.TensorDataset(training_data, labels)
torch.save(dataset, filename)
#20k dataset for experiments
d = torch.Tensor(training_data[0:20000])
l = torch.Tensor(labels[0:20000])
ds_small = D.TensorDataset(d,l)
#this is the same size as the one above on disk... approx 1.45GB
torch.save(ds_small, filename_small)
感谢
如果我的答案适合您,请考虑将其标记为正确答案,以便问题不再显示为未答复。 – McLawrence