我使用EMR 4.1.0 + spark 1.5.0 + YARN来处理大数据。我试图利用完整的集群,但是一些YARN没有分配所有资源。EMR 4.1.0 + Spark 1.5.0 + YARN资源分配
- 使用4×c3.8xlarge EC2从节点(每个60.0 GB内存和32个内核)
- 根据该article我已按照EMR簇
yarn.nodemanager.resource参数.memory-mb - > 53856 yarn.nodemanager.resource.cpu-vcores - > 26 yarn.scheduler.capacity.resource-calculator - > org.apache.hadoop.yarn.util.resource.DominantResourceCalculator (so yarn can管理内存和内核)
然后,我开始pyspark与 pyspark --master纱客户--num执行人24 --executor内存8347米--executor,核心4
但是RM用户界面会显示以下
它只分配21个容器vs请求24个 27 GB保留内存和12个保留核心可用于分配更多3个容器。对?
缺少什么我在这里?
谢谢!