2017-02-11 38 views
0

我正在使用Dockerflow在Google云平台上通过Google Pipelines API运行并行任务。我开始一个单步任务并行运行1389个虚拟机,发现有233个虚拟机显然无所事事,无限期悬挂。为什么Google Pipeline虚拟机实例无限期挂起?

我做的串行控制台输出的抽查,并多次看到虚拟机运行到“获取控制器配置失败”的错误。

,当我试图登录到虚拟机,我收到了错误:“连接失败,我们无法连接到虚拟机上的端口22”。

我很奇怪,为什么我的虚拟机实例都挂了,如果有什么我可以做,以避免遇到这些问题。

我已经包含串行控制台输出以下

startupscript: +++ readlink -f /usr/share/google-genomics/startup.sh 
startupscript: ++ dirname /usr/share/google-genomics/startup.sh 
startupscript: + cd /usr/share/google-genomics 
startupscript: + ./controller --operation_id <id> --validation_token <token> --base_path https://genomics.googleapis.com 
create controller[2905]: Getting controller config 
create controller[2905]: Getting controller config failed, will retry: Get <link>: Get <service_account_token_link>: net/http: timeout awaiting response headers 
create controller[2905]: Getting controller config failed, will retry: Get <link>: dial tcp 74.125.26.95:443: i/o timeout 
collectd[2342]: write_gcm: Asking metadata server for auth token 
collectd[2342]: write_gcm: curl_easy_perform() failed: Couldn't connect to server 
collectd[2342]: write_gcm: Error -1 from wg_curl_get_or_post 
collectd[2342]: write_gcm: wg_transmit_unique_segment failed. 
collectd[2342]: write_gcm: wg_transmit_unique_segments failed. Flushing. 

回答

1

我们东1-b有一个临时的网络问题。所有3个以上的虚拟机都位于我们的east1-b。这些轻微事故不会出现在https://status.cloud.google.com/

串行控制台输出的一个成功运行的样子:

一个2月21日19时05分06秒GGP-5629907348021283130 startupscript:+ ./controller --operation_id --validation_token - -base_path https://autopush-genomics.sandbox.googleapis.com A Feb 21 19:05:06 ggp-5629907348021283130创建控制器[2689]:获取控制器配置 A Feb 21 19:05:36 ggp-5629907348021283130创建控制器[2689]:获取控制器配置失败,将重试:得到https://genomics.googleapis.com/v1alpha2/pipelines:getControllerConfig?alt=json&operationId= & validationToken =:拨TCP 173.194.212.81:443:I/O超时 甲02月21 19点05分43秒GGP-5629907348021283130控制器[2689]:切换到状态:拉图像 A Feb 21 19:05:43 ggp-5629907348021283130控制器[2689]:调用SetOperationStatus(拉图像) A Feb 21 19:05:44 ggp-5629907348021283130控制器:SetOperationStatus拉图像)成功

“获取控制器配置失败,将重试”罚款。它重试成功。 “SetOperationStatus(拉图像)成功”表示网络正在工作。

在理论上,你可以提交任意数量的就业机会管道API和API将采取排队的照顾。

如果这些临时网络打嗝变得普遍,我们可能会考虑改变管道API以某种方式检测和重试。

0

片段有可能已被暂时的网络问题。你能否给我一些失败的操作ID(或者失败的VM名称)?

你从那以后再次尝试过;你能重现这个问题吗?

+1

嗨Melissa,谢谢你的回应!是的,这里有一些失败的VM名称:ggp-10216049259697508221,ggp-10257299594135474280,ggp-1028157029596421767。我再次尝试,只是运行一批233个失败的作业,并且他们都成功完成。仔细考虑它,看起来虚拟机遇到从Google Genomics API服务器获取数据的错误(https://genomics.googleapis.com/v1alpha2/)。我想我可能只是超载了它,但一次提交了超过1000份工作。 –

相关问题