在scikit-learn中使用随机森林时的feature_importances_

我在scikit-learn中使用随机森林。我使用了feature_importances_来查看每个特征在预测目标中有多重要。但我不明白这个分数是多少。谷歌搜索feature_importances_说这是平均减少杂质。但我仍然困惑这是否与平均降低吉吉杂质相同。如果是这样，它如何计算树木和随机森林？除了数学之外，我想要真正理解它的意思。在scikit-learn中使用随机森林时的feature_importances_

来源

2015-09-04 Erin

有人可以帮忙吗？ – Erin

简短的答案是：'feature_importances_'让您了解哪些功能对于在给定节点处正确拆分数据更为关键。换句话说，越高的分数意味着*更有用的特征，这更好地分割数据。如果某个功能的得分非常低，则可能会将其删除。然而，大量的特征（与树的数量成正比）将是合乎需要的，因为这将允许生长非常不同的树（不相关），这将产生更广义的分类器/回归器。 –

找到一些幻灯片[在这里]（http://media.wix.com/ugd/6d8e3a_e177ceb85691420f88775c05c4be27f3.pdf）（14和15）说*不数学*关于它。 –

feature_importances_功能会告诉你多少每个功能都朝着预测（信息增益）有助于

随机森林分类基于基尼，信息增益，卡方或熵的独立变量或特征。这些功能将获得高分，这对信息收益贡献最大。

来源

2017-12-28 12:08:25 Taraprasanna

在scikit-learn中使用随机森林时的feature_importances_

回答

相关问题