2012-07-31 55 views
6

如果我在lrge训练集上训练支持向量机,并且如果类变量为True或False,与训练集中False值的数量相比,True值是否会影响训练模型/结果?他们应该是平等的吗?如果我的训练集不具有True和False的平等分布,我该如何照顾这一点,以便尽可能有效地完成我的训练?如何处理SVM中的数据不平衡?

回答

3

数据不平衡是很好的,因为SVM应该能够对与不太可能的实例相关的错误分类错误(例如您的案例中的“真”)分配更大的惩罚,而不是分配相同的错误权重,这会导致不合要求的分类器将所有内容分配给大多数人。但是,你会可能获得更好的结果与平衡的数据。这一切都取决于你的数据,真的。

您可以人为地歪曲数据以获得更平衡的数据。你为什么不检查这篇文章:http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF

2

我的经验是,标准的SVM分类器不能很好地处理不平衡的数据。我遇到了C-SVM,它对于nu-SVM更糟糕。也许你想看看P-SVM,它提供了一种特别适用于不平衡数据的模式。