2014-07-02 39 views

回答

0

你有越多的训练实例,少你的分类能够正确地检测真阳性。

这意味着新数据不适合您正在训练的模型。

这是一个简单的例子。

下面你有两个类,我们可以很容易地使用线性内核来分离它们。 蓝色类的灵敏度为1

enter image description here

正如我添加的决定边界附近更黄的训练数据,所生成的超平面不能拟合数据以及之前。

因此,我们现在看到有两个错误分类的蓝色数据点。 蓝色类的灵敏度现在0.92

enter image description here

是作为训练数据的数量增加时,支持向量产生稍差最佳超平面。也许由于额外的数据,线性可分数据集变得非线性可分。在这种情况下尝试不同的内核,比如RBF内核可以提供帮助。

编辑:添加更多的信息有关RBF内核:

In this video你可以看到一个带有RBF内核发生什么。 同样的逻辑适用,如果训练数据不容易在n维中分离,那么结果会更差。

您应该尝试使用交叉验证来选择更好的C语言。

this paper,图3说明,如果C选择不正确的结果可能会更糟:如果我们不挑一个合适的C.我们需要 交叉

更多的训练数据可能会伤害验证正确的C以产生良好的结果

+0

嗨@alexandrekow,谢谢你的回答。我正在使用RBF内核,仍然有这个问题。 – leon

+0

我更新了我的答案。 – alexandrekow