0
我正在训练非常不平衡的训练数据集上的SGD神经网分类器。为了弥补未表现的类,我对一套随机抽样的s.t进行实际训练。更少的例子可以更频繁地挑选出来。采样不均匀分布的训练集
什么是选择后者集合的数量与将要运行的时代数量的原则性方法?建议非常感谢。
我正在训练非常不平衡的训练数据集上的SGD神经网分类器。为了弥补未表现的类,我对一套随机抽样的s.t进行实际训练。更少的例子可以更频繁地挑选出来。采样不均匀分布的训练集
什么是选择后者集合的数量与将要运行的时代数量的原则性方法?建议非常感谢。
我对一套随机抽样的s.t进行实际训练。使用较少示例的类会更频繁地被拾取
随机抽样不能确保从代表性不足的类中获得更高的表示形式;顾名思义,选择将是随机的。
的问题有答案的范围很广。
在保证良好的模型性能的同时,没有银弹的方式来增加代表性不足的班级的表现力。一些基本的东西,试图将是,
要回答你的问题的时期来训练的人数:
一旦你得到一个均衡的数据通过上述方法中的一种设置,你p像对待平衡的数据集一样对其进行培训。
P.S. 请注意,上述不是解决偏斜数据集的唯一方法。还有更多因素,如评估指标和尝试不同的假设等等。