2013-08-21 38 views
0

我有一些意见,我想分类为正面或负面。 到目前为止,我有一个带注释的数据集。相同的测试集

事情是,前100行被归类为正面,其余100个归类为负面。

我正在使用SQL Server Analysis-2008 R2。 Class属性有2个值,POS为正值,NEG为负值。

此外,我使用最大输入/输出属性= 0(希望使用所有属性)进行分类的朴素贝叶斯算法,将测试集的最大情况设置为30%。升降图目前的得分是0.60。

我必须将它们混合起来,例如2 POS,然后是1 NEG,以获得更好的分类准确性?

回答

0

学习实例的排序不应该影响分类性能。由朴素贝叶斯计算的概率对于数据集中任何实例的排序都是相同的。

但是,选择不同的测试和训练集会影响分类性能。例如,有些实例可能本质上比其他实例更难分类。

你的训练和测试表现是否差?如果您的训练表现良好和/或比您的测试表现好得多,那么您的模型可能会过度拟合。否则,如果你的训练表现也很差,我会建议(a)尝试一个更好/更强大/更有表现力的分类器,例如SVM,决策树等;和/或(b)确保您的功能对数据具有足够的代表性/表现力。

+0

我允许算法自动选择代表更好数据的特征,并且得到了0.77的分数 我认为您拥有的属性越多越好。 – BinariOS

+0

更多属性并不总是更好。自然地,存在太多属性会使问题难以解决的折衷(例如,较大的搜索空间),尤其是如果一些不太有用,但是太少可能低代表数据。 – user2683129