我有一个20000个训练样例的数据集,我想在其中进行二元分类。 问题是数据集严重不平衡,只有大约1000人处于积极的阶层。我正在尝试使用xgboost(在R中)来做我的预测。Xgboost处理不平衡的分类数据
我已经尝试过采样和欠采样,不管我做什么,不知何故,预测总是导致在分类中作为大多数类的一切。
我尝试阅读本文,了解如何在xgboost中调整参数。 https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/
但它只提到哪些参数有助于不平衡的数据集,但没有提及如何调整它们。
如果有人对调整xgboost的学习参数以处理不平衡数据集以及如何为这些情况生成验证集有任何建议,我将不胜感激。
这可能会有帮助http://stats.stackexchange.com/questions/171043/how-to-tune-hyperparameters-of-xgboost-trees – gfgm