2014-07-21 53 views
-1

我目前在高度稀疏数据集上使用SVM的问题。问题是我有N * M数据集,其中N个示例和M个特征。 每个N几乎没有10个功能高度稀疏数据集支持向量机

从现在开始,我将这些特征表示为二进制向量,即如果特征在给定的0中存在,如果现在。 数据集是平衡的,我的准确率达到了94%。中华民国是0.93。我试图理解为什么这个准确度会很高。

(1)任何人都可以请指导我相关的论文稀疏数据集是给予高精度,我可以尝试找到如此高的准确性的原因。

(2)另外我打算使用SciKit Learn。任何人都可以建议我使用scikit学习SVM中的哪个函数,该函数是针对这种高稀疏度数据集设计的。

(3)此外,如果任何人可以试图解释我背后的这种高准确性的原因,那么它会很好。

(4)此外,如果我将二进制特征表示更改为某种加权表示,是否会给我一些优势。

回答

0

那么,对于初学者来说,稀疏训练数据并不一定意味着分类精度必须低。如果你能找到一个好的决策边界,那么数据是否稀疏并不重要。请记住,支持向量本身是一个非常小(=稀疏)的数据子集,但它们仍然足以用于分类目的。与机器学习一样,算法结果高度依赖于所选问题域和参数。

为了您的第二个问题,对于“SVM稀疏数据”第一谷歌结果显示此链接: http://scikit-learn.org/stable/modules/svm.html

至于第四个问题,你只会知道答案一旦你尝试了一下,没人们可以预测结果,而无需了解有关您的方法和相关数据的更多细节。