2012-05-26 206 views
3

我在一个condor集群上运行作业,但有些挂在空闲状态,似乎永远无法启动,更不用说完成了。缺少手动执行condor_wait -wait n logfile,然后condor_rm,是否有一种更优雅(和自动,内置)终止挂起作业的方式?Condor超时空闲作业

相反,由于这些工作是在一个匕首,是否有办法超时工作在一个匕首,以便后来的工作可以运行?

回答

2

以下是导致作业在空闲时间过长(本例中为24小时)后自动删除的两种方法。

  1. 放入作业的提交文件如下:

    periodic_remove = JobStatus == 1 & & CURRENTTIME-EnteredCurrentStatus> 3600 * 24

  2. 或者放在秃鹰配置如下提交机器上的文件:

    SYSTEM_PERIODIC_REMOVE = JobStatus == 1 & & CurrentTime-EnteredCurrentSt atus> 3600 * 24

当然,理解为什么作业仍处于空闲状态会更好。要做到这一点,您可能会发现condor_q -analyze jobid有帮助。