5
A
回答
3
注意,由于MPI 1.x的日子已经存在一个特点是,你可以设置一个错误处理程序:例如,
http://www.mpi-forum.org/docs/mpi-11-html/node148.html
正如马克指出,我们大多数人只使用MPI_ERRORS_ARE_FATAL(这是默认情况下),因为我们的算法非常笨重,不能很容易地恢复(除了通过检查点,我们大多数人都是这样做的)。
但是,情况并非如此;您可以让MPI函数返回错误消息并尝试尽可能地恢复。
有几个容错MPI软件包 - http://icl.cs.utk.edu/ftmpi/(这是旧的,只实现MPI 1.2功能)。最近,http://osl.iu.edu/research/ft/cifts/是作为单独项目加入OpenMPI的一种方法,并且还有一个操作系统级别的检查点/重新启动程序包BLCR,可能会引起人们的兴趣。
的MPI-3论坛正在讨论在MPI标准的容错API,所以这些项目的步伐正在accellerating。
1
不是真的,MPI不能提供出的现成的容错能力。你可以编写你的程序来处理程序的失败,但是我们大多数人不会,当硬件死亡时,我们的程序会崩溃。随着拥有数十万台处理器的超级计算机的出现以及秒之间的平均无故障时间,这种情况正在发生变化。
相关问题
- 1. 僵尸进程的父节点终止后会发生什么?
- 2. 如果我终止jUnit测试会发生什么
- 3. 如果服务器终止,TCP数据包会发生什么?
- 4. 如果打开失败会发生什么情况?
- 5. 如果发布者在收到ack之前终止,会发生什么情况?
- 6. 如果我strncat到没有空终止符的字符串会发生什么?
- 7. Android - 如果绑定活动被终止,绑定服务会发生什么?
- 8. 线程内线程:如果父线程被终止会发生什么?
- 9. 如果StreamWriter或XmlWriter突然终止,文件会发生什么变化?
- 10. 如果指标停止发布,Prometheus警报会发生什么?
- 11. 终止亚马逊EC2 - 持久数据会发生什么
- 12. 当主线程终止时,SynchronizationContext会发生什么?
- 13. 当一个进程/任务被终止时会发生什么
- 14. 如果hadoop中的节点更改其IP地址,会发生什么情况?
- 15. 如果ElasticSearch节点/索引/分片受损,会发生什么情况
- 16. 如果action =“”会发生什么?
- 17. 如果HttpClient.execute()中断会发生什么?
- 18. Cloudflare DNS - 如果我停止Cloudflare会发生什么?
- 19. 如何停止Java结果:1错误?为什么会发生?
- 20. 如果域别名被阻止会发生什么?
- 21. 会发生什么?
- 22. python:如果在关闭之前退出,打开的文件会发生什么?
- 23. 如果我没有在打开的密钥上调用RegCloseKey会发生什么?
- 24. 当你拨打`如果键入字典'会发生什么?
- 25. 如果您打破Lock()语句,会发生什么情况?
- 26. 如果我不打电话给session_start(),会发生什么?
- 27. 如果您打断Git推送会发生什么?
- 28. iPhone开发计划:会发生什么?
- 29. 如果您点击禁用的UIButton,会发生什么
- 30. 会发生什么?
+1:自从我几年前参加课程以来,我没有给MPI错误处理程序一个想法。 – 2010-11-16 17:33:27
MPICH2最近的1.3.1版本比以前的版本更容错。当使用MPI_ERRORS_RETURN作为错误处理程序时,它容许单个进程失败,但集体操作可能以意外的方式失败或挂起程序。该版本还支持BLCR。以下是相关的变更日志:https://svn.mcs.anl.gov/repos/mpi/mpich2/tags/release/mpich2-1.3.1/CHANGES – 2010-11-18 20:20:20