apache hadoop，hbase和nutch组件分布为4个服务器集群

-1

我有4个系统。我想抓取一些数据。首先我需要配置群集。我对组件的放置感到困惑。apache hadoop，hbase和nutch组件分布为4个服务器集群

什么应该是最好的方法。逐步引导（对于hbase和hadoop）

2014-10-30 Shafiq

假设您有4个节点n1，n2，n3和n4。您可以在分布式模式下安装hadoop和hbase。如果您正在使用Hadoop 1.x的 -

n1 - hadoop master[Namenode and Jobtracker] 
n2, n3 and n3 - hadoop slaves [datanodes and tasktrackers]

对于HBase的，你可以选择N1或任何其他节点作为主节点，由于主节点通常不是CPU /内存密集型，都是高手可以部署在单节点，但是在生产环境中，每个主节点都可以在单独的节点上部署。

Lets say n2 - HBase Master, remaining 3 nodes can act as regionservers.

Hive和Nutch可以驻留在任何节点上。希望这有助于;对于测试设置，这应该是好的。

更新 -

Hadoop的2.x的，因为你的簇大小小，Namenode会HA部署可以跳过。 Namenode HA将需要两个节点分别用于活动和备用节点。

动物园管理员法定人数再次需要奇数个节点，因此至少需要三个节点。

日记仲裁还需要最少3个节点。

但是对于一个集群来说，这个小的HA可能不是一个主要的问题。所以，你可以保持

N1 - NameNode的

N2 - ResouceManager或纱线

和其余的节点可以充当数据节点，尽量不要部署纱节点上的任何东西。

HBase，Hive和Nutch的其余部署将保持不变。

2014-11-05 13:18:23 mbaxi

我的Hadoop版本的详细指导2.x的 – Shafiq 2014-11-05 13:42:15

这是你的测试设置？ – mbaxi 2014-11-05 15:14:07

不，它不仅仅用于测试，而且还用于实际使用 – Shafiq 2014-11-06 04:07:20

在我看来，您应该以完全分布式模式安装Hadoop，这样作业可以以并行的方式运行并且更快，因为MapReduce任务将分布在4台机器上。当然，Hadoop的主节点应该在一台机器上运行。

如果您需要处理大数据量，它是在一个单独的机器上安装HBase的一个不错的选择与Hadoop的在3

你可以让所有的上述非常容易使用的工具/平台具有非常友好的GUI，如Cloudera Manager和Hortonworks。它们将帮助您更好地控制和维护集群，但它们还会为您的集群中发生的每个错误提供运行状况监视，集群分析以及电子邮件通知。

在这两个环节上，你可以找到关于你如何能costruct集群

2014-11-05 20:13:26 IrishDog

不像问题中提到的那样全面 – HMS 2014-11-06 08:05:56

回答