2015-03-31 48 views
2

我正在使用带有8个处理器的Linux集群,但我无法联系到它的管理员或任何更熟悉使用它的人。我试图在所有节点上运行MPI程序,但是我无法在不知道名称的情况下创建--machinelife文件。所以我的问题如下 - 我如何找到所有节点的名称,只能从其中的一个写入命令?它甚至有可能吗?提前致谢。如何在Linux集群上查找节点名称

+0

该群集上使用了哪些调度软件?如果它使用PBS/Torque,则可以读取文件'$ PBS_NODEFILE'。只需运行'cat $ PBS_NODEFILE'即可查看已分配给作业的所有节点的名称。 – Patrick 2015-04-01 00:04:50

+0

您可以检查头节点的网络配置,并尝试猜测或扫描网络以查找其他节点。大多数MPI实现将接受IP地址而不是主机名。另外,查看'/ etc/hosts' - 名字可能在那里。无论如何,这个问题在这里是无关紧要的,你应该在[超级用户网站](http://superuser.com/)上提问。 – 2015-04-01 08:11:50

+0

谢谢你的关注,遗憾的是没有一个工作。 cat $ PBS_NODEFILE结果只会断开我(我正在使用WinSCP)。我不知道集群使用什么调度软件。另外我无权访问/ etc/hosts文件。似乎我需要使用我知道任何事情的群集;] – PacoDePaco 2015-04-02 15:54:12

回答

0

如果您无法从注释中描述的批处理调度系统获取节点列表,那么您可以通过启动尽可能大的MPI作业并让每个等级列印来解决该限制取出它的主机名。

+0

感谢您的建议!试过了,我只有约150个进程的名称,输入-np接近200返回的内存错误。 – PacoDePaco 2015-04-02 16:03:35

相关问题