相同的测试集

我有一些意见，我想分类为正面或负面。到目前为止，我有一个带注释的数据集。相同的测试集

事情是，前100行被归类为正面，其余100个归类为负面。

我正在使用SQL Server Analysis-2008 R2。 Class属性有2个值，POS为正值，NEG为负值。

此外，我使用最大输入/输出属性= 0（希望使用所有属性）进行分类的朴素贝叶斯算法，将测试集的最大情况设置为30％。升降图目前的得分是0.60。

我必须将它们混合起来，例如2 POS，然后是1 NEG，以获得更好的分类准确性？

2013-08-21 BinariOS

学习实例的排序不应该影响分类性能。由朴素贝叶斯计算的概率对于数据集中任何实例的排序都是相同的。

但是，选择不同的测试和训练集会影响分类性能。例如，有些实例可能本质上比其他实例更难分类。

你的训练和测试表现是否差？如果您的训练表现良好和/或比您的测试表现好得多，那么您的模型可能会过度拟合。否则，如果你的训练表现也很差，我会建议（a）尝试一个更好/更强大/更有表现力的分类器，例如SVM，决策树等;和/或（b）确保您的功能对数据具有足够的代表性/表现力。

2013-08-21 22:12:04 user2683129

我允许算法自动选择代表更好数据的特征，并且得到了0.77的分数我认为您拥有的属性越多越好。 – BinariOS

更多属性并不总是更好。自然地，存在太多属性会使问题难以解决的折衷（例如，较大的搜索空间），尤其是如果一些不太有用，但是太少可能低代表数据。 – user2683129

回答