使用hdfs：//和火花中的纱线之间的区别

使用hdfs：//和spark中的纱线在使用集群模式保存和加载保存文件之间有什么区别？使用hdfs：//和火花中的纱线之间的区别

2016-03-28 J.Done

从你的问题here，我显然猜测你对HDFS和YARN的理解是不正确的。

YARN是一个通用的作业调度框架，HDFS是一个存储框架。

纱线坚果壳具有硕士（资源管理器）和职工（节点管理器），

资源管理器对工人造成的容器来执行MapReduce作业，火花的作业等对

HDFS另一方面有一个主（名称节点）和工作者（数据节点）来保存和检索文件。

您不需要YARN与HDFS通信，它是一个独立的实体。

在生产环境中，HDFS worker（数据节点）和YARN worker（节点管理器）安装在一台计算机上，以便处理框架可以使用来自最近本地数据节点（数据位置）的数据。

在集群模式下在YARN集群上使用spark意味着YARN集群中的一个工作节点充当提交spark工作的客户端。

因此，使用hdfs：//显然会使spark工作受益，因为spark执行器会从最近的数据节点读取数据。

YARN和HDFS配置将从客户端计算机上的HADOOP_CONF_DIR（可以是客户端模式下的本地计算机，以及集群模式下的其中一个工作者节点）读取。

2016-03-28 12:55:51

据我所知，所有节点都需要纱线和主节点需要jar和hdfs。对？我试图在horontworks上使用hdfs，可以吗？ –

回答