2017-05-01 78 views
0

我想在CloudML上配置Tensorflow模型。当我使用tf.RunOptions(trace_level = tf.RunOptions.FULL_TRACE)时,我的进程因非零退出代码而死亡,而没有详细说明发生了什么。如果启用性能分析,进程就会死亡

我试着添加和删除打开此选项的代码,并且此选项与进程死亡之间​​存在100%的相关性。

错误消息是'副本主数据0以非零状态250退出。终止原因:错误。要详细了解您退出工作的原因,请检查日志'

如何诊断和解决此问题?

+0

我是Cloud ML Engine的工程师。对不起,麻烦你介意分享一个工作ID在这种情况发生?如果您不想公开发布,可以发送电子邮件至[email protected]。 –

+0

@JeremyLewi感谢您的快速回复。这是一个玩具的例子,我只是学习tensorflow并在gpu上用cifar数据集进行实验。工作ID是cifar_20170430_215857如果您需要其他信息,请告诉我。 –

+0

@JeremyLewi有任何更新吗? job_id是否帮助您重现问题?如果需要,我可以将您的整个代码发送给您,以便重现它。 –

回答

0

它通过使用tensorflow 1.1.0而不是1.0.0来修复。虽然没有显示分析信息。

0

对于你的问题,基本上退出状态意味着你的代码在运行时得到了SIGABRT。

更新: 有一个加载libcupti的问题。 Cloud ML Engine发现了一个与它相关的错误。修复正在进行中。这个问题将在未来的版本中得到解决。