2017-09-19 20 views
0

是否有任何直接的方法可以将shell脚本运行到dataproc集群中。目前我可以通过pysparkoperator(它调用aonther python文件,然后这个python文件调用shell脚本)运行shell。我搜查了很多链接,但至今没有找到任何直接的方式。运行shell脚本的Airflow Dataproc运算符

如果有人能告诉我最简单的方法,对我来说真的很有帮助。与sh运营商[1]

+0

我不知道'direct'的方式,但如果你不知道,你可以1)找到运行Dataproc主节点名称2 )'gcloud compute ssh' – Chengzhi

+0

嗨,是的,使用这个选项我们可以手动处理shell脚本,但我的目标是通过气流调度这个脚本。让我知道你是否可以帮助我更多。预先感谢 – Aditi

+0

全部使用PythonOperator,您可以使用'googleapiclient.discovery.build('dataproc','v1',credentials = GoogleCredentials.get_application_default())'获得正在运行的dataproc,然后'subprocess.Popen'用'gcloud通过传递正确的实例名来计算ssh' – Chengzhi

回答