2017-02-01 20 views
0

我试图用火花提交,因为这长期运行的火花提交工作

spark-submit -v \ 
--master yarn \ 
--num-executors 80 \ 
--driver-memory 10g \ 
--executor-memory 10g \ 
--executor-cores 5 \ 
--class cosineSimillarity jobs-1.0.jar 

这个脚本是在60K记录实施点心算法运行的脚本。

参照:https://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala

不幸的是这也继续3小时后。 我累了1K的数据,并在2分钟内成功运行。

任何人都可以推荐任何更改spark-submit params使其更快?

+1

检查星火网页UI图,也许你有不好的平行主义 - 那么“重新分配”将会有所帮助 –

回答

0

你的spark-submit声明表明你至少有80 * 50 = 400核心,对吧?

这意味着您应该确保您至少有400个分区,以确保您的所有核心都能正常工作(即每个核心至少有1个任务需要处理)。

看着你使用的代码,我想你应该指定阅读sc.textFile()文本文件时,分区的数量,据我所知它默认为2(见SparkContext.scala defaultMinPartitions