2013-03-16 74 views
2

我正在使用MRv2运行多节点hadoop 2.0.2群集。我的问题是在这个特殊页面,fsck命令仅显示了3个活动节点:Hadoop 2.0.2多节点群集运行问题?

enter image description here

虽然该网页显示实际没有。活动节点

enter image description here

的另一个问题是有时候一些数据节点会自动关机得到。我如何知道pblm以及为什么同一集群显示两个不同的活动节点?

+0

这很奇怪。你的datanode上的'$ HADOOP_HOME/logs /'下的日志文件(也可能在你的namenode上)说什么? – Pieterjan 2013-03-19 08:32:21

+0

是的,datanode日志文件在关机时不显示任何错误。 NameNode日志文件也是完美的。我运行fsck命令,同时还显示3个活动节点。而这3个活节点并不是不变的,它保持所有7个节点之间的链接。 – Ananda 2013-03-19 16:09:15

回答

1

关于你正在使用http://localhost:50070/dfshealth.jsp网络接口是NameNode的WebUI和http://localhost:8088/cluster是ResourceManager的Web用户界面。

Although this page shows actual no. of live nodes 

实际上它不显示活动节点。如果您看到每个节点的Last Health Updates,您会发现三个节点slave-1,2和3在2013年3月16日最后更新,其余节点最后在2013年3月15日更新。与您看到的相符在Namenode接口上的50070.现在只有3个活动。

Another problem is some times some datanodes are getting shutdown automatically. 

您的四个节点在2013年3月15日01:00:00左右(最后一次更新)发生故障。所以我会调查你的datanode日志文件为什么关闭。你可以找到他们要么内部$HADOOP_HOME/logs//var/log/hadoop*,如果您没有设置HADOOP_LOG_DIR环境变量

+0

但它虽然只显示3个活动datanode但超过3个节点是活动的,因为我在其他节点上使用jps进行检查。如果刷新页面,一段时间后3个活动节点会发生变化。所以我无法找出这种行为的原因。 – Ananda 2013-03-20 04:57:54

0

添加一些配置应该在纱线-site.xml中做才能让节点管理器知道哪里是资源管理器。具体来说,我加入这个属性成纱-site.xml中:

<property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property>

原因:纱default.xml中的默认值是0.0.0.0,许多属性使用该主机名来联系资源管理器,例如as

<property> <name>yarn.resourcemanager.address</name> <value>${yarn.resourcemanager.hostname}:8032</value> </property>