2016-03-28 61 views

回答

2

从你的问题here,我显然猜测你对HDFS和YARN的理解是不正确的。

YARN是一个通用的作业调度框架,HDFS是一个存储框架。

纱线坚果壳具有硕士(资源管理器)和职工(节点管理器),

资源管理器对工人造成的容器来执行MapReduce作业,火花的作业等对

HDFS另一方面有一个主(名称节点)和工作者(数据节点)来保存和检索文件。

您不需要YARN与HDFS通信,它是一个独立的实体。

在生产环境中,HDFS worker(数据节点)和YARN worker(节点管理器)安装在一台计算机上,以便处理框架可以使用来自最近本地数据节点(数据位置)的数据。

在集群模式下在YARN集群上使用spark意味着YARN集群中的一个工作节点充当提交spark工作的客户端。

因此,使用hdfs://显然会使spark工作受益,因为spark执行器会从最近的数据节点读取数据。

YARN和HDFS配置将从客户端计算机上的HADOOP_CONF_DIR(可以是客户端模式下的本地计算机,以及集群模式下的其中一个工作者节点)读取。

+0

据我所知,所有节点都需要纱线和主节点需要jar和hdfs。对?我试图在horontworks上使用hdfs,可以吗? –