3
我在一个condor集群上运行作业,但有些挂在空闲状态,似乎永远无法启动,更不用说完成了。缺少手动执行condor_wait -wait n logfile
,然后condor_rm
,是否有一种更优雅(和自动,内置)终止挂起作业的方式?Condor超时空闲作业
相反,由于这些工作是在一个匕首,是否有办法超时工作在一个匕首,以便后来的工作可以运行?
我在一个condor集群上运行作业,但有些挂在空闲状态,似乎永远无法启动,更不用说完成了。缺少手动执行condor_wait -wait n logfile
,然后condor_rm
,是否有一种更优雅(和自动,内置)终止挂起作业的方式?Condor超时空闲作业
相反,由于这些工作是在一个匕首,是否有办法超时工作在一个匕首,以便后来的工作可以运行?
以下是导致作业在空闲时间过长(本例中为24小时)后自动删除的两种方法。
放入作业的提交文件如下:
periodic_remove = JobStatus == 1 & & CURRENTTIME-EnteredCurrentStatus> 3600 * 24
或者放在秃鹰配置如下提交机器上的文件:
SYSTEM_PERIODIC_REMOVE = JobStatus == 1 & & CurrentTime-EnteredCurrentSt atus> 3600 * 24
当然,理解为什么作业仍处于空闲状态会更好。要做到这一点,您可能会发现condor_q -analyze jobid
有帮助。