我有以下训练数据集,其中第一行显示属性的名称。决策树学习算法中的重复训练数据
S_Length, Se_Width, P_Length, P_Width, Predicate
5.1,3.5,1.4,0.2,Ili
4.9,3.0,1.4,0.2,Iri
4.7,3.2,1.3,0.2,Iyr
4.6,3.1,1.5,0.2,Ir
5.0,3.6,1.4,0.2,Po
5.4,3.9,1.7,0.4,II
4.6,3.1,1.5,0.2,Ir
5.0,3.4,1.5,0.2,Imt
4.6,3.1,1.5,0.2,Ir
在上述数据集的第4,7和9行中,数据集是重复的。它如何影响算法?我应该省略重复的数据吗?
如果我试图根据包括他们喝的啤酒在内的属性来预测某个人是否为彩票赢家,那么我将包含一个获得该彩票的Bud饮酒者的一百万份副本,您认为会发生什么? –
这是一个非常现实的例子。所以可以肯定的是,重复的数据集会给节点增加不必要的权重,应该删除? –