我得到了同样的问题,因为你,我被作为有multiple slurmd support提到的修改日志文件的路径解决它。 在你slurm.conf例如
SlurmdLogFile=/var/log/slurm/slurmd.log
SlurmdPidFile=/var/run/slurmd.pid
SlurmdSpoolDir=/var/spool/slurmd
必须
SlurmdLogFile=/var/log/slurm/slurmd.%n.log
SlurmdPidFile=/var/run/slurmd.%n.pid
SlurmdSpoolDir=/var/spool/slurmd.%n
现在你可以启动多个slurmd。
注:我想你SLURM的conf,我觉得有些参数丢失像定义两个节点名,而不是一个,并添加端口用于每个节点的哪个。 这对我的作品
# COMPUTE NODES
NodeName=linux[1-10] NodeHostname=linux0 Port=17004 CPUs=1 State=UNKNOWN
NodeName=linux[11-19] NodeHostname=linux0 Port=17005 CPUs=1 State=UNKNOWN
# PARTITIONS
PartitionName=main Nodes=linux1 Default=YES MaxTime=INFINITE State=UP
PartitionName=dev Nodes=linux11 Default=YES MaxTime=INFINITE State=UP
我配置安装如上所述,但仍然只有一个工人守护进程运行。 –
@PaulSchimmer是的!但它模拟了所有的节点。尝试执行一个'sinfo',你会看到。 – siserte
我一直面临着以下错误:'错误在127.0.1.1连接SLURM流套接字::refused'可能是什么原因连接? –
Alper