0

我已经设置了一个由24个高内存CPU组成的集群(1个master:8个vCPU和2个worker:8个vCPU)。在第一张图片底部的建议栏中,建议将主节点重新调整为10个CPU,因此还需要2个CPU,因为主节点已被过度利用。尽管如此,第一张图中的图表显示我没有超过12%的CPU利用率。在Google DataCloud上调整推荐大小

Google DataProc Console

此外,当我去到虚拟机实例页,另一项建议是由。建议将我的主节点从高内存大小调整为标准大小,如图2所示。因此,根据此建议,我应该缩小我的群集大小。

Rommendation on VM Instance Page

有没有谁可以给​​我我应该做的(逻辑)的解释吗? 我的印象是,我的主人和工作人员没有充分发挥其潜力,因为没有使用大量的CPU电源。

回答

1

不幸的是,如this related answer中所述,当您通过Google Compute Engine界面调整机器大小时,Dataproc目前不支持对正在运行的Hadoop/Spark服务进行实时重新配置。不过,Dataproc经过优化,可以轻松运行短暂集群,因此,快速集群部署时间可让您轻松实验其他集群形状或较新的Dataproc映像版本。

现在,要尝试新的机器大小,您应该使用新设置创建一个新的Dataproc群集。看看你的历史CPU使用情况,我认为从CPU核心到10核心的建议升级可能不是一个足够强大的信号,只要短暂的CPU过度使用不会对当前运行造成任何问题作业(通常Dataproc作业比使用Web前端实例更可能“过度利用”CPU,这并不一定意味着你实际上需要更多的CPU)。

主推荐的内存降级似乎足够接近n1-standard-8,如果是我,我只需在下一次部署集群时尝试使用n1-standard-8作为主节点,而不是使用细粒度使用自定义机器类型。

如果您确实想要尝试自定义机器类型,Dataproc在使用gcloud命令行工具进行部署时确实支持自定义机器类型。 Here are the instructions用于指定Dataproc命令中CPU/RAM的自定义混合。

+0

谢谢你的建议,丹尼斯。 – Stijn