2016-03-15 55 views
0

我是扭矩/ pbs调度程序的新用户,我将它安装在服务器上的一台debian 8计算机上,并使用debian 8在计算节点上的客户机上进行另一次安装。Q队列中的所有作业都用于扭矩Pbs调度程序

在我的服务器我有pbs_server能和pbs_sched运行,有pbs_mom我的计算节点上,每个日志中有任何错误,pbsnode -a似乎不错:

[email protected]:[torque]>pbsnodes -a 
debian8s-2 
    state = free 
    power_state = Running 
    np = 4 
    ntype = cluster 
    status = rectime=1458048686,macaddr=00:14:5d:0f:8d:08,cpuclock=Fixed,varattr=,jobs=,state=free,netload=109918452,gres=,loadave=0.32,ncpus=4,physmem=16432364kb,availmem=20066372kb,totmem=20337896kb,idletime=13385,nusers=1,nsessions=3,sessions=989 992 998,uname=Linux debian8s-2 3.16.0-4-amd64 #1 SMP Debian 3.16.7-ckt11-1+deb8u4 (2015-09-19) x86_64,opsys=linux 
    mom_service_port = 15002 
    mom_manager_port = 15003 

我每次提交作业被卡住在问:

[email protected]:[torque]>qstat 
Job ID     Name    User   Time Use S Queue 
------------------------- ---------------- --------------- -------- - ----- 
3.debian8s-1    STDIN   tototo     0 Q batch   
5.debian8s-1    my_job   tototo     0 Q batch   
6.debian8s-1    STDIN   tototo     0 Q batch   
7.debian8s-1    STDIN   tototo     0 Q batch   
8.debian8s-1    STDIN   tototo     0 Q batch 

我查找文档,但没有找到任何关于这个问题,有没有人有我错过了什么的想法?

谢谢。

+0

首先检查调度程序日志。您可以使用'tracejob 3'或'qstat -f 3'来获取作业#3的信息。使用“qmgr -c打印服务器”打印服务器和队列配置。发布你的发现。 –

回答

0

每德米特里的评论,tracejobqstat -f是很好的地方看看。当然,你会想验证pbs_sched是否真的在运行;如果是这种情况,那么您需要通过检查pbs_mom日志来进行故障排除,默认情况下,您可以在计算节点上找到/var/spool/torque/mom_logs/<YYYYMMDD>(如果有疑问,请运行pbs_mom --about以获取安装详细信息。工作无法启动,您可能需要寻找pbs_mom日志条目/var/log/messages的MOM主机上您可以提交测试作业特定节点像这样运行:

echo sleep 600 | qsub -l nodes=cn001:ppn=1,walltime=630

然后,您可以强制它通过发行运行qrun <job ID>

此外,您可以发出kill -SIGUSR1 $(pgrep pbs_mom)在节点上增加日志记录(或者momctl -q loglevel查看当前级别,momctl -q loglevel=6更改它)。

相关问题