KNN能比其他分类器更好吗？

正如已知的那样，存在具有训练或学习步骤的分类器，如SVM或随机森林。另一方面，KNN没有。KNN能比其他分类器更好吗？

KNN能比这些分类器更好吗？如果不是，为什么？

如果是，何时，如何和为什么？

来源

2015-12-03 Faten Khalifa

主要答案是是的，它可以由于没有免费的午餐定理暗示。 FLT可以loosley表示为（在分类方面）

有没有通用的分类是在倒
比其他任何任务

它也可以是（不是很严格）consisntenly更好

对于每个（以及定义的）分类器存在一个数据集，其中它是最好的一个

而在特别是 - kNN是明确定义的分类器，特别是一致的与任何分布，这意味着给定无限多的训练点它收敛到最佳，贝叶斯分离器。

那么它能比SVM或RF更好吗？明显！什么时候？没有明确的答案。首先，在监督式学习中，您经常会得到一个训练集，然后尝试适合最佳模型。在这种情况下，任何模型都可能是最好的模型。当统计学家/理论ML试图回答一个模型是否优于另一个模型时，我们实际上试图测试“如果我们有很多训练集会发生什么事情” - 所以我们看看分类器行为的期望值。在这种情况下，我们经常表明SVM/RF比KNN好。但它不意味着他们是总是更好。这只意味着，对于随机选择的数据集，您应该期望KNN工作更糟糕，但这只是概率。而且，你总是可以赢彩票（不管赔率多少），你也可以总是赢得KNN（只是要清楚 - KNN比赢彩票更有机会成为好模特:-)）。

什么是特定的例子？例如，让我们考虑一个旋转的XOR问题。

如果真决定界限如上，你只能拥有这四点。显然，1NN比SVM（带点，聚或rbf内核）或RF好得多。一旦你包含越来越多的训练点，这也应该是真实的。

来源

2015-12-04 10:59:35 lejlot

-1

“一般而言，kNN不会超过支持向量机或射频，当kNN的时候，它会对训练数据说一些非常有趣的内容，如果在数据集中存在多个双精度值，则最近邻算法效果很好。 “

我听到的说法有点像在本播客写的克劳迪娅Perlich： http://www.thetalkingmachines.com/blog/2015/6/18/working-with-data-and-machine-learning-in-advertizing

我为什么射频和SVM是generel更好的kNN直观的理解：所有的算法basicly承担一些地方相似，这样的样本非常相似被分类。 kNN只能选择距离最近的样本（或其他全局内核）。因此，可能影响kNN预测的样本将存在于欧几里得距离核的超球内。 RF和SVM可以学习其他定义的局部性，这些定义可能会由于某些特征而延伸得太远而被别人缩短。此外，局部的传播可能会占用许多学习的形状，并且这些形状可以在特征空间中不同。

来源

2015-12-04 10:32:08

这里有一些重要的错误。 kNN不使用“其他全局内核”，而是 - 任何给定的相似度量。 “在欧几里得距离的超球内存在”也是错误的，你可以很容易地定义与没有这个属性的kNN一起使用的度量。 – lejlot

@lejlot是的我有相似性测量和内核有点混淆。相似性度量标识最近的邻居，并且内核可以通过相似性度量来加权邻居的影响。但我认为“会存在于欧几里得距离的超球范围内”是正确的，因为我写了欧几里得而非闵可夫斯基等。我的观点是没有学过相似性测量，但在训练之前陈述。 –

内核在ML中有很多含义，但它不应该用作加权方案的名称，特别是不用于分类，其中内核是密度估计构建块，或者内核技巧的元素引入投影到复制希尔伯特内核空间。旁边的超球 - 相似性测量是在训练之前陈述的，但不一定要固定到欧几里德，因此它是错误的。此外，对于每个测试点，这个超球体具有不同的半径（并且特别是可以包含整个输入空间）。 – lejlot

KNN能比其他分类器更好吗？

回答

相关问题