0
我已经很稀疏数据集属性(〜12K个功能和700K记录)的数量庞大,我不能在内存中适合它(属性值是二项式即真/假),决策树 - 稀疏数据集
由于它是稀疏我保持在(ID,功能)格式的数据集,因此,例如我将具有以下记录:
(ID,功能)
(110,d_0022)
(110,d_2393)
( 110,i_2293)
(822,d_933)
(822,p_2003)
....
所以我们将有三个属性值为真(d_0022; 2_2393; i_2293)为ID为110的记录,其余为假(属性均为属性“特征”的所有不同值)
是否有任何可用软件实现算法以在这种数据集上训练数据集我不首先创建整个数据集?
(目前我使用rapidminer)