我正在一个项目中使用Spark Mllib线性支持向量机对一些数据进行分类(l2正则化)。我有200个积极的观察结果和150个(产生的)消极观察结果,每个数据具有744个特征,代表了房屋不同区域的人的活动水平。线性支持向量机与非线性支持向量机高维数据
我已经运行了一些测试,并且“areaUnderROC”度量值为0.991,并且似乎该模型在对我提供给它的数据进行分类时非常好。 我做了一些研究,发现线性SVM在高维数据中很好,但问题是我不明白线性如何能够很好地分割我的数据。
我觉得在2D,也许这是问题,但找底部的形象,我90%肯定,我的数据看起来更像是一个非线性问题
所以这是正常的,我有一个好测试结果?难道我做错了什么?我应该改变方法吗?