我与星火上亚马逊的EC2基础设施工作分发文件的群集创建星火。在执行我的Spark应用程序之前,我需要分发并发送一个自定义文件(本机库,在我的情况下)到所有工作节点上。我正在寻找类似提供的引导功能的东西Amazon的Elastic MapReduce(EMR),开发人员可以在引导阶段在每个节点上运行自定义脚本。在EC2上
到目前为止,我已经使用星火(位于spark-ec2
文件夹)提供的copy-dir
脚本复制一个确定的文件到集群中所有的节点,它的工作如下:
想象一下,一个本地库(myLib.so
)需要在所有节点中存在。第一步是将文件定位到我们想要通过群集传播的确切目录中。在此之后,如下所示,我们可以运行copy-dir
脚本:
spark-ec2/ > sh copy-dir my/file/location/myLib.so
但是,这种方法只能用一次集群已创建使用,我想知道是否有引导可能性是存在的。
在'火花ec2'的'--user-data'选择可能是你在找什么。 – 2015-01-11 21:20:58