2014-05-02 93 views
3

我有一个积极的数据集239和负数据集数量为32,因为它与癌症相关的数据我们只有很少的负数集。现在,在应用分类时,由于其数量巨大,确保不平衡数据集对积极偏向过多。所以我尝试在Weka中应用SMOTE。我也尝试过不同的百分比和最近的邻居。令我惊讶的是,而不是负面的课程增加了一些实例,积极的进一步增加使得不平衡的数据集过于偏见。可以做些什么来克服这一点。并建议我一些其他的方法?如果有weka中的不平衡数据集?不起作用

对于最初的研究中,我们使用LIBSVM与RBF作为分类

回答

2

在这种不平衡的数据集的问题,我建议尽量使用分层,其中涉及过采样少数类或向下采样多数类。您可以在WEKA中使用成本敏感分类来模拟分层。

您可以使用两个分类器,MetaCostCostSensitiveClassifier。唯一的问题是成本矩阵中的最优值只能通过实验获得。作为一个经验法则,您可以尝试通过使用与类分布相反的权重来平衡类分布。就你而言,这意味着在成本矩阵中将239的成本分配给误报,将32的权重分配给误报。

+0

正如你所说我能够分配239 FP,但是当我将FN更改为32,并保存成本文件显示FN只有1.0。我试过多次改变它,但我无法改变为32.0。我的问题是我无法编辑成本矩阵。怎么做 。无论价值如何,我将FN视为1.0 – ramko

+0

哇!有用!!!我试图保存成本文件和“按需求成本文件加载”。它的工作原理就像“Easy Juicy Lemon Squeezy”。我曾经在Libsvm的终端上用过重量但不习惯GUI版本的同类产品。现在它的作品很好,根据您的意见..感谢U – ramko

+0

高兴的是。祝你的测试顺利! –