我目前在高度稀疏数据集上使用SVM的问题。问题是我有N * M数据集,其中N个示例和M个特征。 每个N几乎没有10个功能。高度稀疏数据集支持向量机
从现在开始,我将这些特征表示为二进制向量,即如果特征在给定的0中存在,如果现在。 数据集是平衡的,我的准确率达到了94%。中华民国是0.93。我试图理解为什么这个准确度会很高。
(1)任何人都可以请指导我相关的论文稀疏数据集是给予高精度,我可以尝试找到如此高的准确性的原因。
(2)另外我打算使用SciKit Learn。任何人都可以建议我使用scikit学习SVM中的哪个函数,该函数是针对这种高稀疏度数据集设计的。
(3)此外,如果任何人可以试图解释我背后的这种高准确性的原因,那么它会很好。
(4)此外,如果我将二进制特征表示更改为某种加权表示,是否会给我一些优势。