2016-11-28 32 views
0

我正在训练非常不平衡的训练数据集上的SGD神经网分类器。为了弥补未表现的类,我对一套随机抽样的s.t进行实际训练。更少的例子可以更频繁地挑选出来。采样不均匀分布的训练集

什么是选择后者集合的数量与将要运行的时代数量的原则性方法?建议非常感谢。

回答

0

我对一套随机抽样的s.t进行实际训练。使用较少示例的类会更频繁地被拾取

随机抽样不能确保从代表性不足的类中获得更高的表示形式;顾名思义,选择将是随机的。


的问题有答案的范围很广。

在保证良好的模型性能的同时,没有银弹的方式来增加代表性不足的班级的表现力。一些基本的东西,试图将是,

  1. 欠采样:删除一些超限额情况(前提是你有足够的数据)
  2. 过采样:制作的代表性不足的情况下副本

要回答你的问题的时期来训练的人数:

一旦你得到一个均衡的数据通过上述方法中的一种设置,你p像对待平衡的数据集一样对其进行培训。


P.S. 请注意,上述不是解决偏斜数据集的唯一方法。还有更多因素,如评估指标和尝试不同的假设等等。