2009-04-10 93 views
42

我想在R.使用随机森林包分类R无规森林变量重要性

列出的变量重要性措施是:

  • 意味着变量x的原始重要性得分为0类
  • 平均原始重要性得分变量x的类1
  • MeanDecreaseAccuracy
  • MeanDecreaseGini

现在我知道这些“意思”是什么,因为我知道他们的定义。我想知道的是如何使用它们。

我真正想知道的是什么,这些值只有他们是多么准确,背景,什么是一个很好的价值,什么是不好的价值,什么是最大值和最小值等

意思如果一个变量的值很高MeanDecreaseAccuracyMeanDecreaseGini这是否意味着它是重要的还是不重要的?此外,关于原始分数的任何信息也可能有用。 我想知道关于这些与它们的应用有关的数字的一切。

使用“错误”,“求和”或“置换”这些词的解释不会有帮助,那么简单的解释不会涉及随机森林如何工作的任何讨论。

就像我想让某人向我解释如何使用收音机一样,我不会期望解释涉及无线电如何将无线电波转换为声音。

回答

24

使用单词“错误”,“求和”或“置换” 会少些有益的那么简单的解释未涉及如何随机森林工作的任何 讨个说法。

如果我想让某人向我解释如何使用收音机,我不会 希望解释涉及无线电如何将无线电波转换为声音。

如何解释WKRP 100.5 FM中的“意味着什么”数字,而不进入波频率讨厌的技术细节?坦率地说,随机森林的参数和相关性能问题很难让你头脑发热,即使你理解了一些技术术语。

这是我拍的一些答案:

-mean原始重要性得分变量x的类0

-mean原始重要性得分变量x的1类

简化来自随机森林web page,原始重要性分数测量比特定预测变量随机分类数据更有帮助。

-MeanDecreaseAccuracy

我想这是只有在R module,我相信它的措施多少列入本预测模型的如何减少分类错误。

-MeanDecreaseGini

Gini被定义为在描述收入社会的分配,或基于树的分类“节点杂质”的措施时“不公平”。低基尼系数(即更高的基尼系数)意味着特定的预测变量在将数据划分到定义的类中发挥更大的作用。描述分类树中的数据时,根据预测变量的值在单个节点处分割数据这一事实很难描述。我不清楚这如何转化为更好的表现。

+2

请包含指向实际用于节点拆分的Gini定义的链接:http://en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity – tashuhka 2014-06-10 13:36:44

20

您的直接关注:更高的值意味着变量更重要。对于你提到的所有措施都应该如此。

随机森林给你非常复杂的模型,因此解释重要性措施可能会非常棘手。如果你想轻松理解你的变量在做什么,不要使用RF。改用线性模型或(非整体)决策树。

你说:

使用的话 “错误”,“求和”或“置换” 会少些有益的解释则简单 解释,即不涉及任何 讨论如何随机森林 工作。

除非你深入了解并了解随机森林的情况,否则将会非常难以解释上述情况。我假设你抱怨无论是手动,还是从Breiman手册中的部分:

http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#varimp

找出一个变量是多么的重要,他们写些随机的垃圾(“置换”的话),然后看看有多少预测准确性下降。 MeanDecreaseAccuracy和MeanDecreaseGini以这种方式工作。我不确定原始分数是多少。

5

随机森林的可解释性比较艰难。虽然RF是一个非常强大的分类器,但它会以民主的方式进行预测。通过这个,我的意思是通过随机抽取一部分变量和一部分随机数据并构建一棵树来构建数百或数千棵树。然后对所有未选定的数据进行预测并保存预测。它的强大之处在于它能够很好地处理数据集的变幻莫测(即,它可以平滑随机高/低值,偶然地块/样本,以4种不同方式测量相同的东西等)。然而,如果你有一些高度相关的变量,两者都可能看起来很重要,因为它们并不总是包含在每个模型中。

随机森林的一种潜在方法可能是帮助减少预测因子,然后切换到常规CART或尝试使用基于推理的树模型的PARTY软件包。但是,您必须谨慎处理数据挖掘问题,并对参数进行推理。