2015-12-30 74 views
0

我需要基于具有100个预测变量和30万行的数据集建立随机森林分类模型。目标变量是二进制的。计算每行的分数值很重要,这是RF算法的标准选项。 我成功构建了多达70,000行的RF模型。处理更大的数据集最终会出现内存限制错误消息。 我意识到可能会将大数据集分割成许多足够小的数据集,并将它们分开处理。但有了30万条记录,我会有太多的子集,我宁愿找到更方便的方法。大型数据集上的随机森林模型

所以,这里是我的问题:有没有一种方法可以同时处理30毫米行来构建射频模型?首先,我对R或Python解决方案感兴趣。什么是预期的时间限制?

回答

1

除了刚刚找到一台具有大量的RAM或旋转了一个AWS实例了一下,有拟合模型,您还可以使用那些随机分布的森林,因为它不是一个困难的算法并行化工具。我已经使用了H2O.ai,它是免费的,并有Python和R钩子,但我知道还有其他选项。

+0

加一个H2O,易于在R中实现。 – Minnow

0

我会考虑在构建模型时对输入数据集进行采样,直到模型收敛。通常,并不是所有的数据都需要训练模型。模型训练完成后,您可以将其应用于任意数量的行以生成分数。

在R包装randomForest中,采样由参数sampsize控制。