0
是否有任何直接的方法可以将shell脚本运行到dataproc集群中。目前我可以通过pysparkoperator(它调用aonther python文件,然后这个python文件调用shell脚本)运行shell。我搜查了很多链接,但至今没有找到任何直接的方式。运行shell脚本的Airflow Dataproc运算符
如果有人能告诉我最简单的方法,对我来说真的很有帮助。与sh
运营商[1]
是否有任何直接的方法可以将shell脚本运行到dataproc集群中。目前我可以通过pysparkoperator(它调用aonther python文件,然后这个python文件调用shell脚本)运行shell。我搜查了很多链接,但至今没有找到任何直接的方式。运行shell脚本的Airflow Dataproc运算符
如果有人能告诉我最简单的方法,对我来说真的很有帮助。与sh
运营商[1]
PIG工作:gcloud dataproc jobs submit pig ... -e 'sh ls'
不过,我好奇的最终目标是什么?为什么要运行shell脚本?如果您的意图是执行一次性群集设置,那么您应该使用初始化操作[2]。
[1] https://pig.apache.org/docs/r0.9.1/cmds.html#sh
[2] https://cloud.google.com/dataproc/docs/concepts/init-actions
我不知道'direct'的方式,但如果你不知道,你可以1)找到运行Dataproc主节点名称2 )'gcloud compute ssh' – Chengzhi
嗨,是的,使用这个选项我们可以手动处理shell脚本,但我的目标是通过气流调度这个脚本。让我知道你是否可以帮助我更多。预先感谢 – Aditi
全部使用PythonOperator,您可以使用'googleapiclient.discovery.build('dataproc','v1',credentials = GoogleCredentials.get_application_default())'获得正在运行的dataproc,然后'subprocess.Popen'用'gcloud通过传递正确的实例名来计算ssh' – Chengzhi