2014-10-30 32 views
-1

我有4个系统。我想抓取一些数据。首先我需要配置群集。我对组件的放置感​​到困惑。apache hadoop,hbase和nutch组件分布为4个服务器集群

  1. 我应该将所有组件(hadoop,hive,hbase,nutch)放在一台机器上,并添加其他机器作为hadoop中的节点吗?
  2. 我应该把hbase放在一台机器上,nutch放在另一台机器上,第三台放在hadoop上,然后把机器放在hadoop的slave上?
  3. HBase应该是伪分布式还是全分布式。
  4. 如果我将它作为完全分布式模式运行,我将sholud添加到hbase中的数量有多少。

什么应该是最好的方法。逐步引导(对于hbase和hadoop)

回答

2

假设您有4个节点n1,n2,n3和n4。 您可以在分布式模式下安装hadoop和hbase。 如果您正在使用Hadoop 1.x的 -

n1 - hadoop master[Namenode and Jobtracker] 
n2, n3 and n3 - hadoop slaves [datanodes and tasktrackers] 

对于HBase的,你可以选择N1或任何其他节点作为主节点,由于主节点通常不是CPU /内存密集型,都是高手可以部署在单节点,但是在生产环境中,每个主节点都可以在单独的节点上部署。

Lets say n2 - HBase Master, remaining 3 nodes can act as regionservers. 

Hive和Nutch可以驻留在任何节点上。 希望这有助于;对于测试设置,这应该是好的。


更新 -

Hadoop的2.x的,因为你的簇大小小,Namenode会HA部署可以跳过。 Namenode HA将需要两个节点分别用于活动和备用节点。

动物园管理员法定人数再次需要奇数个节点,因此至少需要三个节点。

日记仲裁还需要最少3个节点。

但是对于一个集群来说,这个小的HA可能不是一个主要的问题。所以,你可以保持

N1 - NameNode的

N2 - ResouceManager或纱线

和其余的节点可以充当数据节点,尽量不要部署纱节点上的任何东西。

HBase,Hive和Nutch的其余部署将保持不变。

+0

我的Hadoop版本的详细指导2.x的 – Shafiq 2014-11-05 13:42:15

+0

这是你的测试设置? – mbaxi 2014-11-05 15:14:07

+0

不,它不仅仅用于测试,而且还用于实际使用 – Shafiq 2014-11-06 04:07:20

0

在我看来,您应该以完全分布式模式安装Hadoop,这样作业可以以并行的方式运行并且更快,因为MapReduce任务将分布在4台机器上。当然,Hadoop的主节点应该在一台机器上运行。

如果您需要处理大数据量,它是在一个单独的机器上安装HBase的一个不错的选择与Hadoop的在3

你可以让所有的上述非常容易使用的工具/平台具有非常友好的GUI,如Cloudera Manager和Hortonworks。它们将帮助您更好地控制和维护集群,但它们还会为您的集群中发生的每个错误提供运行状况监视,集群分析以及电子邮件通知。

Cloudera的经理 http://www.cloudera.com/content/cloudera/en/products-and-services/cloudera-enterprise/cloudera-manager.html

Hortonworks http://hortonworks.com/

在这两个环节上,你可以找到关于你如何能costruct集群

+0

不像问题中提到的那样全面 – HMS 2014-11-06 08:05:56