如何在hadoop集群上运行xgboost进行分布式模型培训？

我正尝试在上下文广告的1亿次展示中使用XGBoost构建CTR预测模型，为了实现上述目标，我想尝试使用Hadoop上的XGboost，因为我拥有HDFS中的所有展示数据。如何在hadoop集群上运行xgboost进行分布式模型培训？

有人可以引用一个相同的Python工作教程？

有很多方法可以做到这一点：

如果万一你有一些较低级别的逻辑分组说CTR对一些项目部门，你想对部门，那么你可以去地图本地化模型减少设置的类型。它将确保属于单个部门的所有数据将最终放入单个YARN容器中，并且可以针对该数据构建模型。 NLineInputFormat是一个聪明的技巧，使这个只有地图的过程比基于地图减少的过程，它会给你显着的速度提升。
可以使用XGBoost星火版本更指http://dmlc.ml/2016/03/14/xgboost4j-portable-distributed-xgboost-in-spark-flink-and-dataflow.html
如果万一你在决定你的基础架构以及工艺然后给AWS还尝试按此处的说明做分布式机器学习。它不是Hadoop，但确实是伪分布式机器学习：https://xgboost.readthedocs.io/en/latest/tutorials/aws_yarn.html

2016-09-29 12:11:12 abhiieor

回答