2017-02-23 49 views
0

我使用sklearn分类器,各种分类器,但主要集中在决策树周围。我认为我有一个偏见问题。下面是我用,Sklearn - 数据偏向错误

设置的25K

培训记录的工作(总数据大概是500K提供)的实际数据的 95%是假的,因为客户通常纪念这一数据为假

25K培训记录包括95%的错误和5%的错误

在训练和测试时,根据我使用的功能,我得到的准确率在85%到94%之间。有时甚至只有两个特征提供90%的准确性,而20个特征(我知道这很重要)增加到94%。我相信这是不正确的,我的感觉是,由于我提供的数据,存在一些偏差。我应该在我的训练集中添加更多记录到“真实”,可能是使用30k记录,从我们的实际数据中增加另一组5k的“真实”值?

+0

这可能发生,即使估计标签上的所有数据,假的,你可以获得95%的准确性。 –

回答

1

有可能您的所有测试数据都是错误的,在这种情况下,通过始终选择错误,您可以获得95%的有效性。

您有一个类不平衡问题。这在很多真实世界的场景中都很典型。例如,HIV阴性,癌细胞或欺诈交易很少发生HIV阳性病例。你需要看看什么是假阴性VS真阳性的成本能够调整你的算法在有效性为准精度等

一对夫妇的事情,我会做:

  1. 做一个混淆矩阵(http://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html),这将有助于您还检查有多少个假阳性和真阳性
  2. 使用交叉验证,以获得火车/测试人群的好混
+0

这很好,谢谢! – HMan06

+0

再次感谢,这确实有帮助。现在我正在看这个(我的大脑似乎在工作),准确度接近25%。这实际上与我的预期并不遥远。我会继续努力。 – HMan06