我有一个大型的数据集,我在R中使用一些big.___()
软件包。这是〜10场演唱会(100mmR X 15C),看起来像这样:R biglm与分类变量
Price Var1 Var2
12.45 1 1
33.67 1 2
25.99 3 3
14.89 2 2
23.99 1 1
... ... ...
我试图预测基于VAR1和VAR2价格。
我提出的问题是Var1和Var2是分类/因子变量。
VAR1和VAR2各自具有3个级别(1,2和3),但只有6在数据组合设置
(1,1; 1,2; 1,3; 2,2; 2,3; 3,3)
要使用因子变量biglm()
它们必须存在于每个数据块有一些biglm
使用(我的理解是,biglm
将数据集分为'x'个块,并在分析每个块后更新回归参数,以便处理大于RAM的数据集)。
我试图子集数据,但我的电脑无法处理或我的代码是错误的:
bm11 <- big.matrix(150000000, 3)
bm11 <- subset(x, x[,2] == 1 & x[,3] == 1)
上面给了我这些一堆:
Error: cannot allocate vector of size 1.1 Gb
不任何人有任何建议来解决这个问题?
我在带有4个RAM的Windows 7机器上使用R 64位。
您可以自己创建傻瓜并在其上运行'biglm'吗? –
@ gsk3:这是我在意识到他们需要出现在每个块之前所做的。我成功地运行biglm,然后在尝试预测新值时收到错误消息,但它们并不全部出现在回归参数中。 – screechOwl