高度稀疏数据集支持向量机

-1

我目前在高度稀疏数据集上使用SVM的问题。问题是我有N * M数据集，其中N个示例和M个特征。 每个N几乎没有10个功能。高度稀疏数据集支持向量机

从现在开始，我将这些特征表示为二进制向量，即如果特征在给定的0中存在，如果现在。 数据集是平衡的，我的准确率达到了94％。中华民国是0.93。我试图理解为什么这个准确度会很高。

（1）任何人都可以请指导我相关的论文稀疏数据集是给予高精度，我可以尝试找到如此高的准确性的原因。

（2）另外我打算使用SciKit Learn。任何人都可以建议我使用scikit学习SVM中的哪个函数，该函数是针对这种高稀疏度数据集设计的。

（3）此外，如果任何人可以试图解释我背后的这种高准确性的原因，那么它会很好。

（4）此外，如果我将二进制特征表示更改为某种加权表示，是否会给我一些优势。

来源

2014-07-21 user3859176

那么，对于初学者来说，稀疏训练数据并不一定意味着分类精度必须低。如果你能找到一个好的决策边界，那么数据是否稀疏并不重要。请记住，支持向量本身是一个非常小（=稀疏）的数据子集，但它们仍然足以用于分类目的。与机器学习一样，算法结果高度依赖于所选问题域和参数。

为了您的第二个问题，对于“SVM稀疏数据”第一谷歌结果显示此链接： http://scikit-learn.org/stable/modules/svm.html

至于第四个问题，你只会知道答案一旦你尝试了一下，没人们可以预测结果，而无需了解有关您的方法和相关数据的更多细节。

来源

2014-07-21 11:15:12 cbg

高度稀疏数据集支持向量机

回答

相关问题