2017-07-17 90 views
0

我已经从数据集中生成了模型,并试图根据cohen_kappa分数和预测准确性找到最佳算法。我针对各种算法运行它,因为我将得到的数据类型不知道,所以通过比较它们的kappa和准确性来找到最佳算法。 我的数据交叉验证10倍。分类预测错误结果scikit学习

我在Random Forest,Decision Tree,SGDClassifier,Perceptron,Passive Aggressive,Logistic Regression,Gradient Boosting,Naive Bayes,KNeighbors之间做了比较。

对于我的例子中,我得到了随机森林作为与Kappa值= 1,精度等级最好的算法= 0.94

我的分类是2类分类中包含RESPONSETIME> 200

条件现在,当我尝试运行预测,对于一些因变量值,我得到了正确的预测,但对于一些它是完全错误的。

我尝试了所有不同的算法,但预测结果非常不一致。

谢谢

+0

你能上传你的数据吗? – sera

+0

附上我的样本数据之一。但是对于Random Forest,这个函数的kappa = 0,准确率为0.97。 – newToML

+0

对不起,在完成我的回复之前点击进入。我附上了一个样本数据。但是对于Random Forest,这个函数的kappa = 0,准确率为0.97。附加我用来生成模型的样本数据文件。我试图在kappa值为1时重新生成数据集。使用此数据集,我可以得到正确的数据集输入预测值,但对于不同的输入数据则会出现错误的预测值。附加所有3个arff文件。 – newToML

回答

0

你必须仔细观察错误预测的特征值。可能是你的数据集中有矛盾的数据。例如,如果您有这样的观察和标签,无论您尝试过多么困难,您如何交叉验证或堆叠算法,您都永远无法获得100%的准确性。 75%的准确率是这里的最高分。

0 => 0 
0 => 0 
0 => 0 
0 => 1 <- this sample have wrong label 
1 => 1 
1 => 1 
1 => 1 
1 => 0 <- this sample have wrong label