2016-09-29 72 views

回答

0

有很多方法可以做到这一点:

  1. 如果万一你有一些较低级别的逻辑分组说CTR对一些项目部门,你想对部门,那么你可以去地图本地化模型减少设置的类型。它将确保属于单个部门的所有数据将最终放入单个YARN容器中,并且可以针对该数据构建模型。 NLineInputFormat是一个聪明的技巧,使这个只有地图的过程比基于地图减少的过程,它会给你显着的速度提升。

  2. 可以使用XGBoost星火版本更指http://dmlc.ml/2016/03/14/xgboost4j-portable-distributed-xgboost-in-spark-flink-and-dataflow.html

  3. 如果万一你在决定你的基础架构以及工艺然后给AWS还尝试按此处的说明做分布式机器学习。它不是Hadoop,但确实是伪分布式机器学习:https://xgboost.readthedocs.io/en/latest/tutorials/aws_yarn.html

相关问题