我通过大量参数组合(20-40k)模拟合理大小的数据集(10-20mb)。通过mclapply
推送每个数据集x参数集,结果为list
,其中每个项目包含输出数据(如列表项目1)以及用于生成列表项目2(其中该列表的每个元素都是参数)的参数。什么是存储由R生成的大型结果的理想格式?
我刚刚跑过一个81K列表(但必须以30k块运行它们),结果列表每个大约700 MB。我将它们存储为.rdata
文件,但可能会将它们重新保存到.Rda
。但每个文件需要永久读入R
。这里是否有最佳做法,特别是对于长期储存?
理想情况下,我会将所有内容保存在一个列表中,但mclapply
会抛出关于无法序列化向量的错误,以及这个大型作业会永久占用集群(分裂3种方式,花费3个小时/作业)。但有几个结果文件results1a.rdata
,results2b.rdata
,results3c.rdata
也似乎效率低下。
另一种选择是'saveRDS',它可以让你用不同的名字恢复对象。 – mnel