2013-01-05 56 views
0

我已经很稀疏数据集属性(〜12K个功能和700K记录)的数量庞大,我不能在内存中适合它(属性值是二项式即真/假),决策树 - 稀疏数据集

由于它是稀疏我保持在(ID,功能)格式的数据集,因此,例如我将具有以下记录:
(ID,功能)
(110,d_0022)
(110,d_2393)
( 110,i_2293)
(822,d_933)
(822,p_2003)
....

所以我们将有三个属性值为真(d_0022; 2_2393; i_2293)为ID为110的记录,其余为假(属性均为属性“特征”的所有不同值)

是否有任何可用软件实现算法以在这种数据集上训练数据集我不首先创建整个数据集?

(目前我使用rapidminer)

回答

1

您可以使用R的稀疏矩阵(example)或WekaSparseIstance(甚至BinarySparseInstance)。如果稀疏矩阵仍然不适合内存,则可以使用Mahout和Amazon EC2上的小群集来运行SVD,从而减少矩阵的尺寸,以便正常处理它们。

我几乎没有RapidMiner的经验,但可能它也有一些稀疏矩阵的实现。