2017-03-12 140 views
0

我有一个4节点集群,并且正在探索Cloudera,以便完成像Spark,Hive,Impala等TPCH基准测试。我的集群节点是合理的,具有4个核心的CPU,8GB RAM和250GB磁盘。安装和部署CDH

我想正确安装CDH 5,通过Web UI,一切都运行良好,我能够安装几个工具,我总是维护安装程序建议的默认角色/工具分配,问题是,当instalation结束时,我总是会遇到一些健康问题和警告!

我认为它与RAM和大部分警告有关的主要部分是消除内存节点组件如堆大小和其他,女巫导致出现警告“内存阈值overcommited”的出现,我不dont知道如果它更好地忽略这些提示或跟随。即使所有不良健康警告,我应用了所有更改,并将我的数据加载到配置单元以开始执行某些查询,但在某些情况下,我只是在启动地图缩减作业时才会被删除!

任何人都可以提供一些可能的解决方案/建议吗? 在此先感谢和抱歉的长期职位!

+0

8 * 4 = 32GB的内存在事物的宏伟方案中真的很小......特别是对于Spark –

+0

您应该为非核心服务添加一个LARGE节点 - Cloudera Manager,其监控服务Hue ,Oozie *(由于某些愚蠢的原因而需要Hue)*等等等等 - 以及Spark网关,Spark历史服务,YARN JobHistory等等 - 以及Impala Catalog等等。 etc. –

+0

请注意,在负载较重的情况下,Hive Metastore服务可能需要8 GB RAM。 HiveServer2也一样。如果您真的想要进行压力测试(这仍然适用于“小数据”),那么每个Impala守护进程都是相同的。 –

回答

0

通常可以忽略内存过量使用错误,因为大多数Java应用程序使用其实际堆大小的一小部分。然而,正如cricket_007和Samson Scharfrichter注意到您的设置非常小。

http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/建议:

下面是数据管理部/的TaskTracker在 平衡Hadoop集群的推荐规格:

12-24 1-4TB硬盘的JBOD(简单磁盘捆绑)配置 2个四核/十六核/八核CPU,运行至少2-2.5GHz 64-512GB的RAM 绑定的千兆以太网或万兆以太网(密度越大,存储密度越高,需要的网络吞吐量就越高)

你的工作陷入困境的最可能原因是缺乏核心。查看YARN Web UI并查看您有多少个可用的核心。如果您的人数较少(5岁以下),您的工作将缺少运行任何工作量所需的插槽。对于您的群集,您可以允许每个节点有3个核心给您至少12个核心。 V核不是CPU,您应该将v核视为映射器/缩减器任务或应用程序主控的插槽。每个vcore至少需要512MB内存(您必须考虑JVM)。

请参阅https://blog.cloudera.com/blog/2015/10/untangling-apache-hadoop-yarn-part-2/以更全面地了解v核心和基本设置。

其他显而易见的事情是关掉你不需要的服务,并缩小你需要的堆大小以释放实际工作负载的内存。