2017-03-02 17 views
0

如何基于工作负载动态地添加或删除spark cassandra集群资源(工作者,执行者,核心,内存等)?我们可以在部署之前预测集群资源吗?在缩小/从群集中删除节点时,可以对数据做些什么。火花cassandra集群中的自动缩放,停机时间为零

+0

你能否解释一下?在部署之前预测群集资源意味着什么?你在运行什么样的群集? Spark独立,YARN,Mesos?你想要删除什么样的节点?火花执行者? Cassandra节点? – LiMuBei

+0

集群是火花YARN。根据我的理解,添加/删除执行器由spark动态分配支持,可以说4节点集群。但它支持拉伸或挤压簇大小。我们可以分别添加/删除spark工作节点和cassandra节点吗?如果是,那么该怎么做。究竟是什么触发了火花工人和cassandra节点的添加/删除?例如: – askquestion

+0

:我从4个节点的spark cassandra集群开始,每天100GB数据即将到来,而不是如何管理集群? – askquestion

回答

0

星火支持,有很多的配置选项工人的动态分配,请参考https://spark.apache.org/docs/latest/job-scheduling.html#dynamic-resource-allocation

短版:

  • 星火可以分配新的执行人,当任务队列满
  • 星火会收回执行人当它们已经空闲一段时间时
  • 执行器将被分配在启动时已经设置的核/内存量,所以明智地选择
  • 缓存将被动态分配的影响(主要是执行者被释放)
+0

谢谢。我基本上对通过保留数据局部性在spark cassandra集群中添加/删除节点感兴趣。 – askquestion