2016-06-07 104 views
0

我正在寻找一个随机的森林包在python或R,这将让我得到一些建成的最终森林细粒度的细节。特别是,我想:随机森林中的树细节

  1. 获取树的创建;
  2. 对于森林中的每棵树,全面衡量其适合数据的程度(如熵);
  3. 对于训练集中的每条记录和森林中的每棵树,记录它结束于哪个终端叶;和
  4. 对于一个新的记录,并在森林每个树,该终端叶的其在最终的记录。

我知道的溶液(4)也将作为一种解决方案(3),但我猜测(3)应该相对容易做到,随着森林的成长,对结果进行标记。

我在R和python的可用选项上看起来相当费劲,而且我找不到满足这四个要求的现成例程。 (很难找到满足实际让你直接看到森林的条件(1)。)

如果有人知道我错过的东西,或者自己构建了这样的程序,我会非常就像链接/引用它一样。

回答

0

试试这个:

包解释scikit学习的决策树和随机 林预测。允许将每个预测分解为偏差和 http://blog.datadive.net/interpreting-random-forests/中描述的功能贡献组件。对于具有n个要素的数据集 ,数据集上的每个预测均被分解为 prediction = bias + feature_1_contribution + ... + feature_n_contribution。

pip install treeinterpreter 

http://blog.datadive.net/random-forest-interpretation-with-scikit-learn/

+0

嗯 - 从来没有见过这个之前。感谢提示;我会看看。 –

+0

NP。再见!! – Merlin

0

另一种解决方案是lime,它会解释的特征的权重用于预测,并且具有使用matplotlib与jupyter(IPython中)笔记本集成容易显像阐释。