2016-08-05 22 views
0

我目前正在编写一个简单的使用rdd.count()函数的spark脚本,当我测试它在本地运行时它效果很好。Spark - 集群中内置的rdd.count()函数是否可靠?

当我将代码部署到多机群集时,它会继续工作还是该功能易受分布式计算问题的影响?

+2

为什么你认为它不起作用? –

+0

我无法在文档中找到任何可以在此特定情况下工作的文档。但是,有相当多的文档表明需要累加器来同步在分布式机器上执行的计数操作,所以我想知道是否应该考虑使用这些操作。 –

+0

这是任何分布式框架的目的:它*需要*在多机群集中工作。得益于Spark的容错架构,您无需担心任何内置的操作员或不在群集中的操作员,他们只是在做他们的工作。 –

回答

0

它就像一个MapReduce wordcount ...它分布的数据分区,并总结数字。

因此,要回答这个问题,它应该在分布式环境中工作得很好。

相关问题