2017-02-27 51 views
1

我有一个多类的机器学习问题为此,我将设法在这样不同的方法如逻辑回归,决策树,多层感知器等机器学习,强调某些观察?

在数据集中的观测值具有为1的索引的属性-5定义了某个观察得到正确分类的重要性(指标1非常重要,根本不重要)。我的问题是:

问题1:我应该如何向模型强调低指数观测具有更重要的意义?我正在考虑复制这些观察结果,以便模型更好地拟合较低指数的观测值,还有哪些其他方法可行?

问题2:我可以使用哪些性能评估标准来找到预测这些低指数观测值的模型? (APPART从计算的索引的正确预测实例之间的分布。)

问候,

回答

0

答1:呈现设定更经常训练的重要模式是用于此的标准方法。如果您的训练算法具有类似于训练率的特性(例如,如果您使用反向传播),那么您也可以为高优先级模式增加此参数。

答案2:我会使用加权均方误差,并给予高优先级模式的错误更大的权重。

+0

关于第二个问题的答案,我不知道如何使用均方误差来分类问题? – Josi

+0

@Josi:我假设(1)你做了监督分类和(2)单元有连续的输出值。如果情况并非如此,则不同的错误测量可能更有意义。 –

+0

第一个假设是真实的,但不是第二个假设。输出是离散的,所以输出只是一个类标签,只有一个标签是正确的,而其他所有标签都是不正确的。我一直在寻找一些方法,比如F分数和海明损失,但我很难做出决定。 我在寻找的是一个性能评估标准: - 与分类精度有点互补 - 相当简单 - 为什么我应该使用这种方法的某种动机 – Josi