使用hdfs://和spark中的纱线在使用集群模式保存和加载保存文件之间有什么区别?使用hdfs://和火花中的纱线之间的区别
0
A
回答
2
从你的问题here,我显然猜测你对HDFS和YARN的理解是不正确的。
YARN是一个通用的作业调度框架,HDFS是一个存储框架。
纱线坚果壳具有硕士(资源管理器)和职工(节点管理器),
资源管理器对工人造成的容器来执行MapReduce作业,火花的作业等对
HDFS另一方面有一个主(名称节点)和工作者(数据节点)来保存和检索文件。
您不需要YARN与HDFS通信,它是一个独立的实体。
在生产环境中,HDFS worker(数据节点)和YARN worker(节点管理器)安装在一台计算机上,以便处理框架可以使用来自最近本地数据节点(数据位置)的数据。
在集群模式下在YARN集群上使用spark意味着YARN集群中的一个工作节点充当提交spark工作的客户端。
因此,使用hdfs://显然会使spark工作受益,因为spark执行器会从最近的数据节点读取数据。
YARN和HDFS配置将从客户端计算机上的HADOOP_CONF_DIR(可以是客户端模式下的本地计算机,以及集群模式下的其中一个工作者节点)读取。
相关问题
- 1. 什么使纱线快? npm和纱线之间的主要区别?
- 2. 蟒蛇火花/纱线内存使用
- 3. hadoop中本地和纱线之间的区别
- 4. hdfs movefromlocal和copyFromLocalFile之间的区别
- 5. 火花独立模式和本地模式之间的区别?
- 6. mapreduce分割和火花分割之间的区别
- 7. 纱线 - 执行火花的工作
- 8. 用纱线进行火花聚类
- 9. 在纱线集群上安装火花
- 10. 火花上保存和HDFS
- 11. 如何使用haddop的hdfs与火花
- 12. 纱线和集群模式下的打印火花命令
- 13. 纱线上的火花:如何防止计划多个火花工作
- 14. 使用virtualenv以纱线/火花集群模式运行python
- 15. BackgroundWorker和线程之间的区别?
- 16. thread.start()和executor.submit(线程)之间的区别
- 17. 过度利用带有火花的纱线资源
- 18. 通过Zeppelin应用杀死纱线上的火花
- 19. 如何访问纱线群中的火花事件日志
- 20. 中继线和用户线之间的区别
- 21. 火花缓存区别2.0.2和2.1.1
- 22. 火花使用log4j登录到HDFS
- 23. 火与发布之间的区别
- 24. 使用ID和onClick之间的区别
- 25. 使用AsyncTask.get()和onPostExecute()之间的区别
- 26. 使用StringTokenizer和String.split()之间的区别?
- 27. 使用Trace和TraceSource之间的区别
- 28. 使用@OneToMany和@ManyToMany之间的区别
- 29. 使用`MySql.Data`和`MySql.Data.MySqlClient`之间的区别
- 30. Oracle一致性和Hadoop HDFS之间的区别
据我所知,所有节点都需要纱线和主节点需要jar和hdfs。对?我试图在horontworks上使用hdfs,可以吗? –