按照Spark on Mesos docs一个需要的spark.executor.uri
指向设置为星火分布在使用星火时:如何预包装外部库一Mesos集群
val conf = new SparkConf()
.setMaster("mesos://HOST:5050")
.setAppName("My app")
.set("spark.executor.uri", "<path to spark-1.4.1.tar.gz uploaded above>")
该文档还指出,一个可以建立一个定制Spark发行版本。
我现在的问题是,是否有可能/期望预封装外部库如
- 火花流-卡夫卡
- elasticsearch火花
- 火花CSV
这将用于大多数我将通过提交到
的所有工作罐子中使用- 减少时间
sbt assembly
需要打包脂肪罐子 - 减少需要提交
如果是脂肪罐子的大小,如何才能实现这一目标?一般来说,关于如何提高工作提交过程中的胖子生成速度,有一些提示吗?
背景是我想为Spark作业运行一些代码生成,并立即提交并在浏览器前端异步显示结果。前端部分不应该太复杂,但我想知道后端部分是如何实现的。
当你说预包装你真的是分发到所有的奴隶,并成立了工作使用这些包,这样你就不需要下载的每一次?这可能是一个选择,但它听起来有点麻烦。 – hartem