Hadoop数据节点停止报告

我有一个运行hadoop 0.20.203.0的4节点（master + 3 slave）集群。每隔几天，datanode就会在主服务器上报失效。在从服务器上，一切正常，datanode进程仍在运行，尽管日志中不再有任何请求，但在日志中没有任何可疑内容。在主设备上，日志显示datanode心跳已丢失。Hadoop数据节点停止报告

唯一的解决方案是手动停止datanode，然后再次启动它。几分钟后，datanode再次报告为活动。

有没有其他人经历过这个？如果是的话，原因是什么，解决方案是什么？

来源

2012-01-23 Marc Harris

听起来像你可能会遇到网络硬件故障。你一次或多次失去一个奴隶吗？另外，您是否在EC2或其他虚拟化环境中？ –

在我们自己的服务器上运行直接硬件。什么让你知道它可能是网络硬件相关的线索？我可以打开某种日志记录来判断datanode是否认为它正在发送心跳？数据节点能否处于一种糟糕的状态，并放弃尝试发送心跳信号？ –

对不起，忘了提及，我们一次失去一个。希望我们的监测能够注意到它，并在下一个做同样的事情之前重新启动它。 –