我有一个4节点集群,并且正在探索Cloudera,以便完成像Spark,Hive,Impala等TPCH基准测试。我的集群节点是合理的,具有4个核心的CPU,8GB RAM和250GB磁盘。安装和部署CDH
我想正确安装CDH 5,通过Web UI,一切都运行良好,我能够安装几个工具,我总是维护安装程序建议的默认角色/工具分配,问题是,当instalation结束时,我总是会遇到一些健康问题和警告!
我认为它与RAM和大部分警告有关的主要部分是消除内存节点组件如堆大小和其他,女巫导致出现警告“内存阈值overcommited”的出现,我不dont知道如果它更好地忽略这些提示或跟随。即使所有不良健康警告,我应用了所有更改,并将我的数据加载到配置单元以开始执行某些查询,但在某些情况下,我只是在启动地图缩减作业时才会被删除!
任何人都可以提供一些可能的解决方案/建议吗? 在此先感谢和抱歉的长期职位!
8 * 4 = 32GB的内存在事物的宏伟方案中真的很小......特别是对于Spark –
您应该为非核心服务添加一个LARGE节点 - Cloudera Manager,其监控服务Hue ,Oozie *(由于某些愚蠢的原因而需要Hue)*等等等等 - 以及Spark网关,Spark历史服务,YARN JobHistory等等 - 以及Impala Catalog等等。 etc. –
请注意,在负载较重的情况下,Hive Metastore服务可能需要8 GB RAM。 HiveServer2也一样。如果您真的想要进行压力测试(这仍然适用于“小数据”),那么每个Impala守护进程都是相同的。 –