Hadoop DFS的CopyFromLocal命令如何工作？

我对Hadoop分布式文件系统的设置以及我的特定设置如何影响它有点困惑。我使用本指南在Virtual Box上使用两台虚拟机来设置它http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/，并运行该示例（只是使用txt文件输入的简单字数）。到目前为止，我知道datanode管理和检索节点上的文件，而tasktracker分析数据。Hadoop DFS的CopyFromLocal命令如何工作？

1）当你使用命令-copyFromLocal，你是复制文件/输入到HDFS？ Hadoop是否知道如何划分从站/主站之间的信息，它是如何实现的？

2）在上面链接指南中概述的配置中，技术上有两个从站（主站作为主站和从站）？这是常见的还是主机通常只给jobtracker/namenode任务？

1）

有在的Javadoc org.apache.hadoop.hdfs.DFSClient.DFSOutputStream

2）有些生产系统将被配置成使所述主它自己的专用节点（允许的最大可能的内存分配，并避免CPU争一些更多的信息），但是如果您拥有较小的群集，则可以接受包含名称节点和数据节点的节点

2012-07-03 23:16:00

这里有很多问题要问。

问题2）

有两台机器
这些机器配置为HDFS和Map-减少。
HDFS配置需要的Namenode（主）和的Datanode（从）
地图，减少需要的JobTracker（主）和的TaskTracker（从）
只有一个NameNode和JobTracker的配置，但你可以有一个Datanode和的TaskTracker服务这两台机器。它不是作为主人和奴隶的机器。这只是服务。您也可以在包含主服务的计算机上安装从服务。这对简单的开发设置很有用。在大规模部署中，您将主服务专用于分离机器。

问题1第2部分）

问题1第1部分）

2012-07-03 22:59:52 pyfunc

回答