如何处理SVM中的数据不平衡？

如果我在lrge训练集上训练支持向量机，并且如果类变量为True或False，与训练集中False值的数量相比，True值是否会影响训练模型/结果？他们应该是平等的吗？如果我的训练集不具有True和False的平等分布，我该如何照顾这一点，以便尽可能有效地完成我的训练？如何处理SVM中的数据不平衡？

来源

2012-07-31 London guy

数据不平衡是很好的，因为SVM应该能够对与不太可能的实例相关的错误分类错误（例如您的案例中的“真”）分配更大的惩罚，而不是分配相同的错误权重，这会导致不合要求的分类器将所有内容分配给大多数人。但是，你会可能获得更好的结果与平衡的数据。这一切都取决于你的数据，真的。

您可以人为地歪曲数据以获得更平衡的数据。你为什么不检查这篇文章：http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF。

来源

2012-08-01 01:10:04 TakeS

我的经验是，标准的SVM分类器不能很好地处理不平衡的数据。我遇到了C-SVM，它对于nu-SVM更糟糕。也许你想看看P-SVM，它提供了一种特别适用于不平衡数据的模式。

来源

2014-02-21 22:00:39 UBod

如何处理SVM中的数据不平衡？

回答

相关问题