2013-10-27 43 views
0

我有一个分配来实现OpenMPI应用程序中的简单容错。我们遇到的问题是,尽管设置MPI错误处理MPI_ERRORS_RETURN,当我们的节点之一是从集群中拔出我们得到经过一个漫长的下一个MPI_呼叫以下错误挂起:OpenMPI容错

[btl_tcp_endpoint.c:655:mca_btl_tcp_endpoint_complete_connect] connect() failed: Connection timed out (110) 

我从中获取的是,当使用OpenMPI从网络中删除一个节点时,不可能在所有其他节点上继续处理。任何人都可以为我确认这一点,或者指出我阻止btl_tcp_endpoint错误的方向吗?

我们使用OpenMPI版本1.6.5。

回答

3

MPI_ERRORS_RETURN代码路径在Open MPI中没有经过很好的测试(可能没有很好地实现)。他们根本不是优先考虑的事情,所以我们在这方面从来没有做过太多的工作。

对不起。