Sklearn - 数据偏向错误

2017-02-23 49 views 0 likes

我使用sklearn分类器，各种分类器，但主要集中在决策树周围。我认为我有一个偏见问题。下面是我用，Sklearn - 数据偏向错误

设置的25K

培训记录的工作（总数据大概是500K提供）的实际数据的 95％是假的，因为客户通常纪念这一数据为假

25K培训记录包括95％的错误和5％的错误

在训练和测试时，根据我使用的功能，我得到的准确率在85％到94％之间。有时甚至只有两个特征提供90％的准确性，而20个特征（我知道这很重要）增加到94％。我相信这是不正确的，我的感觉是，由于我提供的数据，存在一些偏差。我应该在我的训练集中添加更多记录到“真实”，可能是使用30k记录，从我们的实际数据中增加另一组5k的“真实”值？

来源

2017-02-23 HMan06

这可能发生，即使估计标签上的所有数据，假的，你可以获得95％的准确性。 –

回答

有可能您的所有测试数据都是错误的，在这种情况下，通过始终选择错误，您可以获得95％的有效性。

您有一个类不平衡问题。这在很多真实世界的场景中都很典型。例如，HIV阴性，癌细胞或欺诈交易很少发生HIV阳性病例。你需要看看什么是假阴性VS真阳性的成本能够调整你的算法在有效性为准精度等

一对夫妇的事情，我会做：

做一个混淆矩阵（http://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html），这将有助于您还检查有多少个假阳性和真阳性
使用交叉验证，以获得火车/测试人群的好混

来源

2017-02-23 01:51:19 Franklin

这很好，谢谢！ – HMan06

再次感谢，这确实有帮助。现在我正在看这个（我的大脑似乎在工作），准确度接近25％。这实际上与我的预期并不遥远。我会继续努力。 – HMan06

Sklearn - 数据偏向错误

回答

相关问题