2013-05-15 51 views
0

我开始在Hadoop中尝试实现Hadoop集群。我是分布式系统的新手,所以与术语有点混淆。Hadoop术语映射到硬件

  • namenodes和datanodes是否对应物理硬盘?
  • 如果说我需要一个单一的CPU单元上运行地图的任务,做我们分配映射任务到各个内核或处理器(多核心),同时设置mapred.tasktracker.map.tasks.maximum标志
  • 什么“节点”意味着什么?处理器或物理磁盘还是内核?

回答

1

首先(在术语前面),我假设你的意思是实例化一个Hadoop集群而不是实现一个集群。

  • namenode管理一个或多个datanode。用于阻止ID的文件名索引由名称节点在内存中维护并定期刷新到磁盘。块的实际位置由datanodes报告给名称节点,从该点管理块的分配,迁移,复制和删除。
  • datanode管理物理硬盘上块的存储。数据节点可以将数据块分布在一个或多个物理磁盘上(实际上,我们鼓励您使用多个物理磁盘而不是单个逻辑磁盘卷)
  • 作业跟踪器(JT)管理任务分配过程映射或减少)到一个或多个任务跟踪器(TT)。通常,您将配置群集中的每个节点(物理机器),以便可以运行的最大数量任务(映射/减少)与核心数量匹配(不是一条坚硬而快速的规则,取决于您希望如何使用群集)
  • 节点通常意味着物理机器,它通常运行任务跟踪器(运行map/reduce任务)和数据节点(存储/提供文件块)。
+0

感谢您的好消息。 – Nitin

+0

想我可能已经结束了使用这个单词典型/ ly ... –