2016-08-05 203 views
0

我已经在我的本地机器上使用python进行分析。火花集群是什么意思?

最近我听到“spark cluster”这个词,我想知道它到底是什么吗?

它只是Spark在某些机器集群上运行?

如何在没有Hadoop系统的情况下使用群集?可能吗?你能描述一下吗?

+0

机器集群,是的。我相当肯定[文档](https://spark.apache.org/docs/latest/cluster-overview.html)可以回答你的问题。 –

回答

1

Apache spark是一个分布式计算系统。虽然它可以在单台机器上运行,但它可以运行在群集上,并利用群集可能的并行性。 Spark利用了很多Hadoop堆栈,例如HDFS文件系统。但是,Spark与Hadoop分布式计算链显着重叠。以地图为中心的Hadoop减少了编程模式,而Spark在程序设计方面则更加普遍。此外,Spark还具有帮助提高性能的功能。

欲了解更多信息,请参阅https://www.xplenty.com/blog/2014/11/apache-spark-vs-hadoop-mapreduce/

+0

我只是想澄清一下,Spark不会以任何方式替换Hadoop。它可以在Hadoop之上工作,也可以与Hadoop分开。 –

+0

我将编辑更正。谢谢。 –