Hadoop术语映射到硬件

我开始在Hadoop中尝试实现Hadoop集群。我是分布式系统的新手，所以与术语有点混淆。Hadoop术语映射到硬件

namenodes和datanodes是否对应物理硬盘？
如果说我需要一个单一的CPU单元上运行地图的任务，做我们分配映射任务到各个内核或处理器（多核心），同时设置mapred.tasktracker.map.tasks.maximum标志
什么“节点”意味着什么？处理器或物理磁盘还是内核？

2013-05-15 Nitin

首先（在术语前面），我假设你的意思是实例化一个Hadoop集群而不是实现一个集群。

namenode管理一个或多个datanode。用于阻止ID的文件名索引由名称节点在内存中维护并定期刷新到磁盘。块的实际位置由datanodes报告给名称节点，从该点管理块的分配，迁移，复制和删除。
datanode管理物理硬盘上块的存储。数据节点可以将数据块分布在一个或多个物理磁盘上（实际上，我们鼓励您使用多个物理磁盘而不是单个逻辑磁盘卷）
作业跟踪器（JT）管理任务分配过程映射或减少）到一个或多个任务跟踪器（TT）。通常，您将配置群集中的每个节点（物理机器），以便可以运行的最大数量任务（映射/减少）与核心数量匹配（不是一条坚硬而快速的规则，取决于您希望如何使用群集）
节点通常意味着物理机器，它通常运行任务跟踪器（运行map/reduce任务）和数据节点（存储/提供文件块）。

2013-05-16 00:04:28

感谢您的好消息。 – Nitin

想我可能已经结束了使用这个单词典型/ ly ... –

回答