2016-04-01 34 views
0

我目前运行一个具有4个spark节点和1个solr节点的集群。我想迅速将群集扩展到20个节点,然后再扩展到100个节点。我只是不确定使用Mesos或纱线的簇大小是多少?当我的节点少于100个时,添加纱或Mesos是否有意义?有多少个火花节点应该使用Mesos或Yarn?

谢谢

回答

1

Mesos和YARN可以扩展到数千个节点,没有任何问题。

如果您的工作负载具有与spark或hadoop相关的作业/任务,YARN将是更好的选择,否则,如果您有Docker容器或其他运行其他内容的工作负载,则Mesos会是更好的选择。

使用Mesos还有很多其他的优缺点,请在比较here中找到它们。

如果您仅运行Spark,则Spark独立群集将提供与其他群集管理器几乎所有相同的功能。

如果您希望与其他应用程序一起运行Spark或使用更丰富的资源调度功能(例如队列),则YARN和Mesos都提供这些功能。其中,YARN很可能预装在许多Hadoop发行版中。

如果您的节点少于100个,并且您不打算在火花旁边运行任何其他应用程序,那么激发独立群集将是更好的选择,因为您不会过度使用它。

它再次取决于你想使用的功能,像公平调度程序的队列或调度程序,然后YARN/Mesos会有意义。 (要使用这些功能或不使用它们取决于您对火花集群所做的工作,工作负载以及集群的繁忙程度。)

+0

如果我需要读写form/cassandra,该怎么办? – peter

+1

与卡桑德拉互动很好,它不会与任何上述集群有所不同。 –

+0

谢谢。如果我有16个火花节点与Cassandra处于同一个簇中,并且还需要对cassandra进行读写操作。我目前在python中使用spark独立。我想提高我的火花应用程序的性能。但是,我真的需要Yarn吗?集群模式有什么好处? – peter