大型数据集上的随机森林模型

我需要基于具有100个预测变量和30万行的数据集建立随机森林分类模型。目标变量是二进制的。计算每行的分数值很重要，这是RF算法的标准选项。我成功构建了多达70,000行的RF模型。处理更大的数据集最终会出现内存限制错误消息。我意识到可能会将大数据集分割成许多足够小的数据集，并将它们分开处理。但有了30万条记录，我会有太多的子集，我宁愿找到更方便的方法。大型数据集上的随机森林模型

所以，这里是我的问题：有没有一种方法可以同时处理30毫米行来构建射频模型？首先，我对R或Python解决方案感兴趣。什么是预期的时间限制？

来源

2015-12-30 Vladimir

除了刚刚找到一台具有大量的RAM或旋转了一个AWS实例了一下，有拟合模型，您还可以使用那些随机分布的森林，因为它不是一个困难的算法并行化工具。我已经使用了H2O.ai，它是免费的，并有Python和R钩子，但我知道还有其他选项。

来源

2015-12-30 16:38:39

加一个H2O，易于在R中实现。 – Minnow

我会考虑在构建模型时对输入数据集进行采样，直到模型收敛。通常，并不是所有的数据都需要训练模型。模型训练完成后，您可以将其应用于任意数量的行以生成分数。

在R包装randomForest中，采样由参数sampsize控制。

来源

2015-12-30 16:46:44 yrjo

大型数据集上的随机森林模型

回答

相关问题