2

精确实施随机森林的在审查原Breiman(2001)纸以及一些其他董事会的职位,我与使用WEKAs随机森林实施的实际过程稍有困惑。没有一个来源足够详尽,许多甚至相互矛盾。在Weka的3.7

它是如何具体工作,这步骤进行?

我的理解至今:

  • 对于每个树为训练数据被创建
  • 只有定义大小的可用功能的随机子集相同大小的引导样品(参数可以在WEKA中选择)被考虑用于每个节点
  • 关于使用的基础树学习器,我发现2006年的一篇文章说明是一个修改过的REPTree。
  • 树是完全成长,不修剪。
  • 多数票应用(在精度,性能指标的情况下)

我的问题:

  • 实际使用的引导取样?
  • REPTree仍在使用中或者自那以后算法发生了变化?

澄清这些问题将帮助了我很多!

回答

3

回答您的问题

  1. 套袋(引导聚集)确实使用。您可以查看在代码上线529

  2. 看来,RandomTree使用,对行看到530

此信息是从Weka的3.7.5,我相信这是正确的一切回到版本3.6.8,但我没有检查源代码。

+0

非常感谢,第一个问题解决了。它的确使用了RandomTree,但问题依然存在于RT的基础上 - CART或REPTree可能但不是确定的。 – ateich

+0

我不确定你对Java的熟悉程度,但是你可以比较两个buildTree()方法:[RandomTree](http://grepcode.com/file/repo1.maven.org/maven2/nz.ac.waikato。 cms.weka/weka-dev/3.7.5/weka/classifiers/trees/RandomTree.java#991),[RepTree](http://grepcode.com/file/repo1.maven.org/maven2/nz.ac .waikato.cms.weka/WEKA-dev的/ 3.7.5/WEKA /分类/树木/ REPTree.java#503)。对我来说,他们看起来非常相似,但我找不到最近的消息来源说他们是一样的。 – Walter

+0

谢谢我看看。据说它是REPTree的一个稍微修改过的版本。虽然在家里检查出来,但在手机屏幕上看不到任何东西。谢谢 – ateich