2017-08-03 59 views
2

我试图在二元分类问题(误报成本很高)中最大化精度。数据集也是非常不平衡的。为了防止误报,第二次使用权重列两次运行DRF或XGBOOST模型是否有意义?在H2O随机森林和xgboost中使用权重列

除了这种潜在的方法,在这些H2O算法中还有其他方法可以最大化精度(而不是对数损失)吗?我也将使用一个合奏(这似乎增加了精度)。交叉验证似乎没有帮助。

回答

0

首先,我会使用balance_classes(将其设置为true)。这将有助于一些不平衡的数据。 (如果你需要精确控制的话,请看class_sampling_factorsmax_after_balance_size)。

我的预感是你的建议使用一个模型的输出来衡量第二个模型是危险的。这听起来像是堆叠集成的想法,但手写代码和自定义代码更可能存在缺陷。 (但是,如果你确实尝试了,看代码和结果会很有意思)。

为了最大限度地提高精确度,我会和一个合奏团合作,并将我的努力投入到制作3个或4个不同的模型中长处和短处。例如。 GBM,GLM,具有所有默认设置的深度学习模型,然后是使用退出(以及更多隐藏节点进行补偿)的深度学习模型。