回答

1

最好的选择是使用类似Kubernetes的东西。这是一项正在进行的工作,但我相信它也支持分布式培训 - https://github.com/tensorflow/k8s

或者更多低技术含量的自动化选项,这些浮现在脑海中......

  1. 你可以有它仍然使用SSH或远程执行脚本的脚本。
  2. 您可以让每个工作人员轮询文件的共享位置,以用作下载和执行脚本的信号。
-1

您可以设置环境变量TF_CONFIG,这将由估计器进行解析。

+0

我知道它是如何工作的。但是,最简单的方法是什么?我不想让每一台机器都进入ssh,然后手动运行这些脚本。 –