长期运行的火花提交工作

我试图用火花提交，因为这长期运行的火花提交工作

spark-submit -v \ 
--master yarn \ 
--num-executors 80 \ 
--driver-memory 10g \ 
--executor-memory 10g \ 
--executor-cores 5 \ 
--class cosineSimillarity jobs-1.0.jar

这个脚本是在60K记录实施点心算法运行的脚本。

参照：https://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala

不幸的是这也继续3小时后。我累了1K的数据，并在2分钟内成功运行。

任何人都可以推荐任何更改spark-submit params使其更快？

来源

2017-02-01 MasterGoGo

检查星火网页UI图，也许你有不好的平行主义 - 那么“重新分配”将会有所帮助 –

你的spark-submit声明表明你至少有80 * 50 = 400核心，对吧？

这意味着您应该确保您至少有400个分区，以确保您的所有核心都能正常工作（即每个核心至少有1个任务需要处理）。

看着你使用的代码，我想你应该指定阅读sc.textFile()文本文件时，分区的数量，据我所知它默认为2（见SparkContext.scala defaultMinPartitions）

来源

2017-02-02 12:44:49

长期运行的火花提交工作

回答

相关问题