我有一个运行hadoop 0.20.203.0的4节点(master + 3 slave)集群。每隔几天,datanode就会在主服务器上报失效。在从服务器上,一切正常,datanode进程仍在运行,尽管日志中不再有任何请求,但在日志中没有任何可疑内容。在主设备上,日志显示datanode心跳已丢失。Hadoop数据节点停止报告
唯一的解决方案是手动停止datanode,然后再次启动它。几分钟后,datanode再次报告为活动。
有没有其他人经历过这个?如果是的话,原因是什么,解决方案是什么?
听起来像你可能会遇到网络硬件故障。你一次或多次失去一个奴隶吗?另外,您是否在EC2或其他虚拟化环境中? –
在我们自己的服务器上运行直接硬件。什么让你知道它可能是网络硬件相关的线索?我可以打开某种日志记录来判断datanode是否认为它正在发送心跳?数据节点能否处于一种糟糕的状态,并放弃尝试发送心跳信号? –
对不起,忘了提及,我们一次失去一个。希望我们的监测能够注意到它,并在下一个做同样的事情之前重新启动它。 –