非常大的数据中的R

集做PCA我有一个CSV文件非常大的训练集（〜2GB）。该文件是太大直接读入内存（read.csv()带来的计算机停顿），我想，以减少使用PCA数据文件的大小。问题在于（据我所知），我需要将文件读入内存才能运行PCA算法（例如，princomp()）。非常大的数据中的R

我曾尝试bigmemory包读取文件中的big.matrix，但princomp不会对big.matrix对象功能，它似乎并不像big.matrix可以转换成有点像data.frame。

在我错过的大型数据文件上有没有对princomp运行的方法？

我在R2上的相对新手，所以一些，这可能是显而易见的经验更丰富的用户（在AVANCE道歉）。

感谢任何信息。

2012-09-15 user141146

基本上你需要做的PCA没有估计样本协方差矩阵。有关高维PCA的大量文献，特别是在图像处理和金融市场的应用方面。但是，这很可能不是一件微不足道的事情。 – John

该文件包含多少个观测值和多少个变量？ – rolando2

@ rolando2它包含大约50K行和大约10000列 – user141146

我解决的方式是通过迭代地计算所述样本协方差矩阵。通过这种方式，您只需要任何时间点的数据子集。可以使用readLines完成只读数据子集的读取，您可以在其中打开文件连接并迭代读取。该算法看起来像（这是一个两步的算法）：

计算每列的平均值（假设是变量）

计算的协方差矩阵：

当你拥有的协方差矩阵，只需要调用princomp与covmat = your_covmat和princomp将跳过calulating协方差矩阵自己。

这样您可以处理数据集是多少，比你的可用RAM大得多。在迭代过程中，内存使用量大致是块需要的内存（例如，1000行），之后内存使用被限制为协方差矩阵（nvar * nvar双倍）。

2012-10-01 10:09:34

也许有一种方法不将所有的协方差矩阵存储在内存中？ – mrgloom

如果你有一个新的问题，请创建一个新的问题，也许是指这个问题。 –

导入大型数据集时需要注意的事项。

我希望它能帮助

2018-01-05 18:10:16

回答