2014-01-21 102 views
2

我打算从Hadoop版本1更新到Hadoop版本2.任何人都可以告诉我(如果您尝试过hadoop版本2),是否有MR/Hive/Pig版本2中的作业与版本1相比?Hadoop版本1和版本2性能

回答

1

以下是来自apache的注释。这些是改进的亮点。

下面简要介绍HDFS和MapReduce的改进。

HDFS Federation 为了水平缩放名称服务,联邦使用多个独立的Namenodes/Namespaces。 Namenodes是联合的,也就是说,Namenode是独立的,不需要彼此协调。数据节点被所有Namenode用作块的公共存储。每个数据节点注册集群中的所有Namenode。 Datanodes定期发送检测信号并阻止报告,并处理来自Namenodes的命令。

更多详细信息可在HDFS联合文档中找到。

MapReduce NextGen aka YARN aka MRv2 hadoop-0.23引入的新体系结构将JobTracker的两个主要功能:资源管理和作业生命周期管理划分为不同的组件。

新的ResourceManager管理计算资源到应用程序的全局分配,并且每个应用程序的ApplicationMaster管理应用程序的调度和协调。

一个应用程序可以是一个单一的作业,也可以是传统MapReduce作业或DAG这样的作业。

管理该机器上用户进程的ResourceManager和每台机器NodeManager守护进程构成计算结构。

每个应用程序的ApplicationMaster实际上是一个特定于框架的库,其任务是从ResourceManager协商资源并与NodeManager一起使用以执行和监视任务。

+0

感谢您的回复。我已阅读Hadoop v2发行说明,并发现了YARN,MR2和其他体系结构更改等新功能。我需要知道的是,如果有人比较v2上的任何MR/Hive/PIG作业与v1,并发现任何性能改进。 – rusho1234