Spark作业在较小数据集上的估计开销

是否有任何rules of thumb - 当数据大小足以抵消火花处理需要的开销时？Spark作业在较小数据集上的估计开销

我正在处理1至10万条记录。每个记录携带5个ID;和少量（少于5000个字符）的文本量。

工作量是创建报告 - 所以筛选;组和聚合。在多数情况下;顶级聚合将覆盖所有记录;所以在报告生成中的某个时刻 - 我没有一个好的分区键可以使用。

意识到问题在细节上是低的;但是这是否跳出了我在Spark中做了许多愚蠢事情的页面？或者会引发工作协调可能会增加这种开销;而且我希望只在更大的数据集上使用Spark？

感谢

2017-06-24 brent

我来到文档的最翔实的一块横跨是

Spark can efficiently support tasks as short as 200 ms https://spark.apache.org/docs/2.1.0/tuning.html

2017-07-07 18:07:30 brent

回答