weka中的不平衡数据集？不起作用

我有一个积极的数据集239和负数据集数量为32，因为它与癌症相关的数据我们只有很少的负数集。现在，在应用分类时，由于其数量巨大，确保不平衡数据集对积极偏向过多。所以我尝试在Weka中应用SMOTE。我也尝试过不同的百分比和最近的邻居。令我惊讶的是，而不是负面的课程增加了一些实例，积极的进一步增加使得不平衡的数据集过于偏见。可以做些什么来克服这一点。并建议我一些其他的方法？如果有weka中的不平衡数据集？不起作用

对于最初的研究中，我们使用LIBSVM与RBF作为分类

来源

2014-05-02 ramko

在这种不平衡的数据集的问题，我建议尽量使用分层，其中涉及过采样少数类或向下采样多数类。您可以在WEKA中使用成本敏感分类来模拟分层。

您可以使用两个分类器，MetaCost和CostSensitiveClassifier。唯一的问题是成本矩阵中的最优值只能通过实验获得。作为一个经验法则，您可以尝试通过使用与类分布相反的权重来平衡类分布。就你而言，这意味着在成本矩阵中将239的成本分配给误报，将32的权重分配给误报。

来源

2014-05-12 07:49:00

正如你所说我能够分配239 FP，但是当我将FN更改为32，并保存成本文件显示FN只有1.0。我试过多次改变它，但我无法改变为32.0。我的问题是我无法编辑成本矩阵。怎么做。无论价值如何，我将FN视为1.0 – ramko

哇！有用！！！我试图保存成本文件和“按需求成本文件加载”。它的工作原理就像“Easy Juicy Lemon Squeezy”。我曾经在Libsvm的终端上用过重量但不习惯GUI版本的同类产品。现在它的作品很好，根据您的意见..感谢U – ramko

高兴的是。祝你的测试顺利！ –

weka中的不平衡数据集？不起作用

回答

相关问题