2017-01-21 38 views
0

我请求14个处理器从一个一个(每个都有32)所示:PBS保持放弃我的工作

#PBS -l nodes=1:ppn=14 

#PBS -l walltime=12:00:00 

而且具有较低的ppn它几乎总是工作,但一旦我的数字高于14- ish,工作开始执行并立即终止。 tracejob是奇无益:

tracejob 14753.hpc2 

Job: 14753.hpc2 

01/21/2017 11:12:36 L Considering job to run 
01/21/2017 11:12:36 L Job run 
01/21/2017 11:12:36 M Resource_List.place = scatter 
01/21/2017 11:12:36 M make_cpuset, vnode hpc2[0]: hv_ncpus (2) > mvi_acpus (0) (you are not expected to understand this) 
01/21/2017 11:12:36 M start_exec, new_cpuset failed 
01/21/2017 11:12:36 M kill_job 
01/21/2017 11:12:36 M hpc2 cput= 0:00:00 mem=0kb 
01/21/2017 11:12:37 M Obit sent 
01/21/2017 11:12:37 M copy file request received 
01/21/2017 11:12:37 M staged 2 items out over 0:00:00 
01/21/2017 11:12:37 M delete job request received 
01/21/2017 11:12:37 M delete job request received 
01/21/2017 11:12:38 M no active tasks 
01/21/2017 11:12:38 M delete job request received 

我有次成功要求更多的CPU,所以它不是完全确定。有没有一种方法来调试呢?

作为一个侧面节点,请求多个节点的任何作业永远都在队列中,永远不会启动,我不知道这是否相关。

+0

您使用的是什么资源管理器和版本?调度程序的同样问题。 – clusterdude

回答

0

您是否试图执行“qrun”并强行尝试在指定的vnode上启动此作业?

如果不是,您可以共享vnode hpc2 [0]的pbsnodes数据吗?

作为一种可能的解决方案,尝试重新启动你的妈妈或将共享设置为独占妈妈(当然,你需要是一个特权用户来做到这一点)。