2017-06-24 25 views
0

是否有任何rules of thumb - 当数据大小足以抵消火花处理需要的开销时?Spark作业在较小数据集上的估计开销

我正在处理1至10万条记录。每个记录携带5个ID;和少量(少于5000个字符)的文本量。

工作量是创建报告 - 所以筛选;组和聚合。在多数情况下;顶级聚合将覆盖所有记录;所以在报告生成中的某个时刻 - 我没有一个好的分区键可以使用。

意识到问题在细节上是低的;但是这是否跳出了我在Spark中做了许多愚蠢事情的页面?或者会引发工作协调可能会增加这种开销;而且我希望只在更大的数据集上使用Spark?

感谢

回答

相关问题