我使用sklearn分类器,各种分类器,但主要集中在决策树周围。我认为我有一个偏见问题。下面是我用,Sklearn - 数据偏向错误
设置的25K培训记录的工作(总数据大概是500K提供)的实际数据的 95%是假的,因为客户通常纪念这一数据为假
25K培训记录包括95%的错误和5%的错误
在训练和测试时,根据我使用的功能,我得到的准确率在85%到94%之间。有时甚至只有两个特征提供90%的准确性,而20个特征(我知道这很重要)增加到94%。我相信这是不正确的,我的感觉是,由于我提供的数据,存在一些偏差。我应该在我的训练集中添加更多记录到“真实”,可能是使用30k记录,从我们的实际数据中增加另一组5k的“真实”值?
这可能发生,即使估计标签上的所有数据,假的,你可以获得95%的准确性。 –