2015-04-24 118 views
0

嗨,目前我正在实施一个大海林格距离决策树,我遇到了一个问题。我在树节点中有一个连续变量,并且我不知道树会如何预测该变量是否缺少值。 例如,该节点具有拆分标准< 250且> = 250。树预测时会选择什么路径? 树训练数据在该变量中也缺少值。Weka决策树预测不适用于缺失值的处理

也许我应该用特定数字替换所有缺少的值?

回答

0

您可以根据变量的行为采取行动。还要考虑分类器值的影响。因此,如果可以推广,您可以使用最小值/最大值/平均值来计算缺失值。

0

坚持输入不包含空值是很常见的,然后用户可以在拟合之前找到一种编码方式。如果你做出选择,那么你迫使未来的用户使用你的选择。