安装和部署CDH

我有一个4节点集群，并且正在探索Cloudera，以便完成像Spark，Hive，Impala等TPCH基准测试。我的集群节点是合理的，具有4个核心的CPU，8GB RAM和250GB磁盘。安装和部署CDH

我想正确安装CDH 5，通过Web UI，一切都运行良好，我能够安装几个工具，我总是维护安装程序建议的默认角色/工具分配，问题是，当instalation结束时，我总是会遇到一些健康问题和警告！

我认为它与RAM和大部分警告有关的主要部分是消除内存节点组件如堆大小和其他，女巫导致出现警告“内存阈值overcommited”的出现，我不dont知道如果它更好地忽略这些提示或跟随。即使所有不良健康警告，我应用了所有更改，并将我的数据加载到配置单元以开始执行某些查询，但在某些情况下，我只是在启动地图缩减作业时才会被删除！

任何人都可以提供一些可能的解决方案/建议吗？在此先感谢和抱歉的长期职位！

来源

2017-03-12 Mário Rodrigues

8 * 4 = 32GB的内存在事物的宏伟方案中真的很小......特别是对于Spark –

您应该为非核心服务添加一个LARGE节点 - Cloudera Manager，其监控服务Hue ，Oozie *（由于某些愚蠢的原因而需要Hue）*等等等等 - 以及Spark网关，Spark历史服务，YARN JobHistory等等 - 以及Impala Catalog等等。 etc. –

请注意，在负载较重的情况下，Hive Metastore服务可能需要8 GB RAM。 HiveServer2也一样。如果您真的想要进行压力测试（这仍然适用于“小数据”），那么每个Impala守护进程都是相同的。 –

通常可以忽略内存过量使用错误，因为大多数Java应用程序使用其实际堆大小的一小部分。然而，正如cricket_007和Samson Scharfrichter注意到您的设置非常小。

http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/建议：

下面是数据管理部/的TaskTracker在平衡Hadoop集群的推荐规格：

12-24 1-4TB硬盘的JBOD（简单磁盘捆绑）配置 2个四核/十六核/八核CPU，运行至少2-2.5GHz 64-512GB的RAM 绑定的千兆以太网或万兆以太网（密度越大，存储密度越高，需要的网络吞吐量就越高）

你的工作陷入困境的最可能原因是缺乏核心。查看YARN Web UI并查看您有多少个可用的核心。如果您的人数较少（5岁以下），您的工作将缺少运行任何工作量所需的插槽。对于您的群集，您可以允许每个节点有3个核心给您至少12个核心。 V核不是CPU，您应该将v核视为映射器/缩减器任务或应用程序主控的插槽。每个vcore至少需要512MB内存（您必须考虑JVM）。

请参阅https://blog.cloudera.com/blog/2015/10/untangling-apache-hadoop-yarn-part-2/以更全面地了解v核心和基本设置。

其他显而易见的事情是关掉你不需要的服务，并缩小你需要的堆大小以释放实际工作负载的内存。

来源

2017-05-11 21:52:08 tk421

安装和部署CDH

回答

相关问题