2014-04-29 238 views
2

我对通常的快速挖掘和数据挖掘非常陌生,但我试图粗略搜索快速决策树参数中所有参数的含义,并且缺乏。我知道什么是一片叶子和一个节点,并且我正在考虑一些参数,但是我会赞赏任何知识。 I.E.他们都真的做了什么? 标准 最小尺寸为分裂 最小的叶大小 最小增益 最大深度 信心Rapidminer:解释决策树参数

而且不使用优化,是跟踪误差,以获得最佳预测的最佳方式? 谢谢, S

回答

0

我喜欢使用RAPIDMINER OPERATOR REFERENCE。这是一个PDF文件在这里可用:http://rapidminer.com/documentation/

本文件中的信息比应用程序本身的信息更好。例如: ...在当前的子树中有少于一定数量的实例或示例。这可以通过使用分割参数的最小尺寸进行调整。

假设您的标签是“蓝色”,“红色”和“绿色”。您的决策树具有2个“绿色”和1个“蓝色”示例的节点。如果最小分割大小为4,那么决策树将不会创建新分支,因为节点中只有三个示例。它只会接受这样一个事实,即使答案并不完美,它也会将节点声明为叶,将实例归类为“绿色”。

最小叶片尺寸是类似的。尽管分支可能提供最准确的分类,但每个分支都会导致一个示例的决策树并不十分有用。因此,您可以设置树中叶子分类的最小示例数。良好的价值取决于您的数据集和您的需求。运行决策树,如果在每次运行中只有几个例子的叶子太多,请增加此参数的值。

准则最小增益稍微复杂一点。 Criterion是RapdMinder将如何判断决策树及其节点的算法。有几种策略,我不太了解他们的工作方式。该标准是RapidMiner用来决定是应该在节点下创建子树还是将节点声明为叶子的事情之一。它还应该控制从子树的根节点开始子树延伸的分支数量。

决策树有更多的选择,每种决策树可以有不同的参数。我通过阅读参数的描述了解了他们,假设如果我改变了参数会发生什么,然后创建一个新的决策树来查看我的假设是否正确。试玩,玩得开心!