看起来,相同的节点也出现在死链表和活节点列表中以及HDFS网页中。 如何摆脱这些“死”的节点?Hadoop 2.2中的死链和活节点列表中的相同节点
我刚刚将我们的480个节点群集上的Apache Hadoop从版本1.2.1升级到2.2.0。 一切运作良好。块的数量,旧版本和新版本中的文件相同。 FSCK报告没有问题。
我有480个活节点。奇怪的是,我有23个死亡节点显示在hdfs管理页面上。 不知何故,这23个死亡节点也可以在活节点列表中找到。它们在两个列表中都有相同的名称和IP(活的和死的)。
由于hadoop dfs admin -report
结果我得到:
Datanodes available: 480 (503 total, 23 dead)
这是一个死节点的一份报告统计:
Configured Capacity: 0 (0 B)
DFS Used: 0 (0 B)
Non DFS Used: 0 (0 B)
DFS Remaining: 0 (0 B)
DFS Used%: 100.00%
DFS Remaining%: 0.00%
Last contact: Thu Jan 01 01:00:00 CET 1970
我已经检查和数据管理部软件只有一个实例运行在这23个节点上。 如果我从停止列表中存在的实时列表中停止一个datanode,那么在10分钟后,该节点将在死列表中出现两次。 如果我再次启动datanode,该节点将出现在活动列表中,但死亡列表中仍存在一个实例。 我检查了namenode日志,但没有发现任何错误。我也多次重启Hadoop。每次这些相同的23个节点出现在死亡列表中。
我现在看到问题是网络拓扑。我已经使用
./hdfs dfsadmin -printTopology
命令,并认识到,23个人死亡节点与/默认机架和/ rack6以及相关联。我有480个节点的12个机架。
但仍然我的网络拓扑解析器工作正常,所以我不明白为什么节点也与默认机架相关联。