集做PCA我有一个CSV文件非常大的训练集(〜2GB)。该文件是太大直接读入内存(read.csv()
带来的计算机停顿),我想,以减少使用PCA数据文件的大小。问题在于(据我所知),我需要将文件读入内存才能运行PCA算法(例如,princomp()
)。非常大的数据中的R
我曾尝试bigmemory
包读取文件中的big.matrix
,但princomp
不会对big.matrix
对象功能,它似乎并不像big.matrix
可以转换成有点像data.frame
。
在我错过的大型数据文件上有没有对princomp
运行的方法?
我在R2上的相对新手,所以一些,这可能是显而易见的经验更丰富的用户(在AVANCE道歉)。
感谢任何信息。
基本上你需要做的PCA没有估计样本协方差矩阵。有关高维PCA的大量文献,特别是在图像处理和金融市场的应用方面。但是,这很可能不是一件微不足道的事情。 – John
该文件包含多少个观测值和多少个变量? – rolando2
@ rolando2它包含大约50K行和大约10000列 – user141146