我正在使用Dockerflow在Google云平台上通过Google Pipelines API运行并行任务。我开始一个单步任务并行运行1389个虚拟机,发现有233个虚拟机显然无所事事,无限期悬挂。为什么Google Pipeline虚拟机实例无限期挂起?
我做的串行控制台输出的抽查,并多次看到虚拟机运行到“获取控制器配置失败”的错误。
,当我试图登录到虚拟机,我收到了错误:“连接失败,我们无法连接到虚拟机上的端口22”。
我很奇怪,为什么我的虚拟机实例都挂了,如果有什么我可以做,以避免遇到这些问题。
我已经包含串行控制台输出以下
startupscript: +++ readlink -f /usr/share/google-genomics/startup.sh
startupscript: ++ dirname /usr/share/google-genomics/startup.sh
startupscript: + cd /usr/share/google-genomics
startupscript: + ./controller --operation_id <id> --validation_token <token> --base_path https://genomics.googleapis.com
create controller[2905]: Getting controller config
create controller[2905]: Getting controller config failed, will retry: Get <link>: Get <service_account_token_link>: net/http: timeout awaiting response headers
create controller[2905]: Getting controller config failed, will retry: Get <link>: dial tcp 74.125.26.95:443: i/o timeout
collectd[2342]: write_gcm: Asking metadata server for auth token
collectd[2342]: write_gcm: curl_easy_perform() failed: Couldn't connect to server
collectd[2342]: write_gcm: Error -1 from wg_curl_get_or_post
collectd[2342]: write_gcm: wg_transmit_unique_segment failed.
collectd[2342]: write_gcm: wg_transmit_unique_segments failed. Flushing.
嗨Melissa,谢谢你的回应!是的,这里有一些失败的VM名称:ggp-10216049259697508221,ggp-10257299594135474280,ggp-1028157029596421767。我再次尝试,只是运行一批233个失败的作业,并且他们都成功完成。仔细考虑它,看起来虚拟机遇到从Google Genomics API服务器获取数据的错误(https://genomics.googleapis.com/v1alpha2/)。我想我可能只是超载了它,但一次提交了超过1000份工作。 –