2

我想运行一个机器上的多个工人守护进程。根据damienfrancois's回答what is the minimum number of computers for a slurm cluster它可以完成。问题是目前我能够在一台机器上只执行一个工作守护进程。例如运行多个工人守护进程SLURM

当我运行

sudo slurmd -N linux1 -cDvv 
sudo slurmd -N linux2 -cDvv 

linux1的下降,当我运行linux2上。是否有可能在一台机器上运行多个工作守护进程? 这是我slurm.conf文件

回答

3

为你的意图似乎只是测试SLURM的行为,我会建议你使用前端模式,在那里你可以在同一台机器上创建虚拟计算节点。

在他们FAQ,你有更多的细节,但基本上您必须配置安装在此模式下工作:在slurm.conf

NodeName=test[1-100] NodeHostName=localhost 

./configure --enable-front-end 

和配置节点在该指南中,他们还解释了如何通过更改端口在同一节点中启动多个真实守护程序,但为了测试目的,这不是必需的。

祝你好运!

+0

我配置安装如上所述,但仍然只有一个工人守护进程运行。 –

+0

@PaulSchimmer是的!但它模拟了所有的节点。尝试执行一个'sinfo',你会看到。 – siserte

+0

我一直面临着以下错误:'错误在127.0.1.1连接SLURM流套接字::refused'可能是什么原因连接? – Alper

0

我得到了同样的问题,因为你,我被作为有multiple slurmd support提到的修改日志文件的路径解决它。 在你slurm.conf例如

SlurmdLogFile=/var/log/slurm/slurmd.log 
SlurmdPidFile=/var/run/slurmd.pid 
SlurmdSpoolDir=/var/spool/slurmd 

必须

SlurmdLogFile=/var/log/slurm/slurmd.%n.log 
SlurmdPidFile=/var/run/slurmd.%n.pid 
SlurmdSpoolDir=/var/spool/slurmd.%n 

现在你可以启动多个slurmd。

注:我想你SLURM的conf,我觉得有些参数丢失像定义两个节点名,而不是一个,并添加端口用于每个节点的哪个。 这对我的作品

# COMPUTE NODES 
NodeName=linux[1-10] NodeHostname=linux0 Port=17004 CPUs=1 State=UNKNOWN 
NodeName=linux[11-19] NodeHostname=linux0 Port=17005 CPUs=1 State=UNKNOWN 
# PARTITIONS 
PartitionName=main Nodes=linux1 Default=YES MaxTime=INFINITE State=UP 
PartitionName=dev Nodes=linux11 Default=YES MaxTime=INFINITE State=UP