我对AWS上的CDH部署有些疑问。我阅读了参考架构文档和我在Cloudera Engineering Blog上找到的其他资料,但我需要更多关于它的建议。构建AWS上的Cloudera CDH群集:实例和存储
1)CDH部署是否仅适用于某种实例,或者我可以将它部署在所有AWS实例类型上?
2)假设我想创建一个24x7活动的集群。对于长期运行的集群,我知道最好有一个基于本地存储实例的集群。如果我们考虑一组2PB,我认为d2.8xlarge应该是datanode的最佳选择。关于主节点: - 如果我只想部署3个主节点,是否最好将它们作为本地存储实例,或者由于EBS连接实例能够快速响应可能的主节点故障? - 有关于主节点实例类型(EBS或本地存储)的最佳做法吗?关于数据节点: - 如果数据节点出现故障,CDH有一些自动化机制可自动启动新实例并将其连接到群集,以便在没有停机的情况下恢复群集?我们是否需要从头开始创建一个脚本来完成这件事?关于边缘节点: - 是否存在有关实例类型(EBS或本地存储)的最佳做法? 3)如果我想在S3上做一个群集备份: - 当我从CDH到S3做一个distcp时,我可以直接在Glacier上移动数据而不是在正常的S3上吗?如果我对数据应用了一些压缩(例如snappy,gzip等),并且我对S3执行distcp: - S3上的空间是否相同,或者distcp命令是否为复制解压缩数据?
如果我有一个基于EBS连接实例的集群: - 是否可以对磁盘进行快照并重新附加具有从快照重建的EBS磁盘的数据节点?
4)如果我将数据节点部署为r4.8xlarge并且需要更多的功率,是否可以将集群从r4.8xlarge放大到r4.16xlarge?在几分钟内连接和分离磁盘?
非常感谢您的澄清,我希望我的疑惑也能帮助其他用户。