我想在Azure ML中做一些基本的多标签分类。我有以下格式的一些基本数据:Azure机器学习偶数采样
value_x value_y label
x1 y1 label1
x2 y2 label1
x3 y3 label2
.....
我的问题是,在我的数据中的某些标签(在总共五个)的比例过高,因为数据的约40%是LABEL1,约20%是标签2,其余10%左右。
我想从这些中抽取一些样本来训练我的模型,以便每个标签都以相同的数量表示。
尝试标签列上采样模块中的分层选项,但这只是为我提供了与初始数据集中标签分布相同的采样。
任何想法如何我可以做到这一点与模块?
编写一个R模块来处理数据?不知道它是否是最佳做法。 – misha130
最后我为它编写了一个Python脚本,但我想知道是否有一些已经内置的东西,我失踪了。 – tamasgobesz