2014-09-30 28 views
2

我校园中的集群使用PBS TORQUE进行作业管理。排除TORQUE qsub请求中的特定节点

在软件中有几个节点已过时。如果我的作业被发送到其中一个节点,它将会失败。有没有办法在作业请求中排除特定节点(或节点列表)?

+1

您可以指定特定节点或要运行的节点列表,但这会非常有限。我会要求管理员将属性分配给最新的节点,然后您可以请求具有该属性的节点的子集。你可以在这里找到语法:http://docs.adaptivecomputing.com/torque/4-1-3/Content/topics/2-jobs/requestingRes.htm – chuck 2014-09-30 21:46:39

+0

@chuck管理员非常忙于其他的东西,并采取方式回应时间太长,通常只是不注意这些事情。我如何指定我的工作可以运行的* alternative *节点列表? – becko 2015-04-02 14:24:22

回答

0

我不确定你可以指定一个你的工作可以选择的集合。您可以指定一个节点列表,但您必须等待所有节点在作业运行之前变为空闲。根据你需要排除的节点数量,你可以做这样的事情。

cat $PBS_NODEFILE | grep -v badnode1 |grep -v badnode2 > goodnodes NP=wc -l goodnodes #need back ticks around "wc -l goodnodes" mpirun -np $NP -machinefile goodnodes ./a.out

,如果你在收取资源的任何方式,但它应该可以帮助您得到您的作业运行这是不理想的。