2014-07-01 22 views
0

看起来,相同的节点也出现在死链表和活节点列表中以及HDFS网页中。 如何摆脱这些“死”的节点?Hadoop 2.2中的死链和活节点列表中的相同节点

我刚刚将我们的480个节点群集上的Apache Hadoop从版本1.2.1升级到2.2.0。 一切运作良好。块的数量,旧版本和新版本中的文件相同。 FSCK报告没有问题。

我有480个活节点。奇怪的是,我有23个死亡节点显示在hdfs管理页面上。 不知何故,这23个死亡节点也可以在活节点列表中找到。它们在两个列表中都有相同的名称和IP(活的和死的)。

由于hadoop dfs admin -report结果我得到:

Datanodes available: 480 (503 total, 23 dead) 

这是一个死节点的一份报告统计:

Configured Capacity: 0 (0 B) 
DFS Used: 0 (0 B) 
Non DFS Used: 0 (0 B) 
DFS Remaining: 0 (0 B) 
DFS Used%: 100.00% 
DFS Remaining%: 0.00% 
Last contact: Thu Jan 01 01:00:00 CET 1970 

我已经检查和数据管理部软件只有一个实例运行在这23个节点上。 如果我从停止列表中存在的实时列表中停止一个datanode,那么在10分钟后,该节点将在死列表中出现两次。 如果我再次启动datanode,该节点将出现在活动列表中,但死亡列表中仍存在一个实例。 我检查了namenode日志,但没有发现任何错误。我也多次重启Hadoop。每次这些相同的23个节点出现在死亡列表中。

我现在看到问题是网络拓扑。我已经使用

./hdfs dfsadmin -printTopology

命令,并认识到,23个人死亡节点与/默认机架和/ rack6以及相关联。我有480个节点的12个机架。

但仍然我的网络拓扑解析器工作正常,所以我不明白为什么节点也与默认机架相关联。

回答

0

感谢您的CONF。 我们已经将群集升级到Apache Hadoop 2.5并且虚假的死亡节点已经消失。