2015-09-04 37 views
2

我在scikit-learn中使用随机森林。我使用了feature_importances_来查看每个特征在预测目标中有多重要。但我不明白这个分数是多少。谷歌搜索feature_importances_说这是平均减少杂质。但我仍然困惑这是否与平均降低吉吉杂质相同。如果是这样,它如何计算树木和随机森林?除了数学之外,我想要真正理解它的意思。在scikit-learn中使用随机森林时的feature_importances_

+0

有人可以帮忙吗? – Erin

+0

简短的答案是:'feature_importances_'让您了解哪些功能对于在给定节点处正确拆分数据更为关键。换句话说,越高的分数意味着*更有用的特征,这更好地分割数据。如果某个功能的得分非常低,则可能会将其删除。然而,大量的特征(与树的数量成正比)将是合乎需要的,因为这将允许生长非常不同的树(不相关),这将产生更广义的分类器/回归器。 –

+0

找到一些幻灯片[在这里](http://media.wix.com/ugd/6d8e3a_e177ceb85691420f88775c05c4be27f3.pdf)(14和15)说*不数学*关于它。 –

回答

1

feature_importances_功能会告诉你多少每个功能都朝着预测(信息增益)有助于

随机森林分类基于基尼,信息增益,卡方或熵的独立变量或特征。这些功能将获得高分,这对信息收益贡献最大。