2016-11-14 18 views

回答

6

每个蓝色的盒子就是Apache星火作业的步骤。

您是想询问WholeStageCodegen这东西是:

全级代码生成(又名WholeStageCodegen或WholeStageCodegenExec)融合多个运营商(为支持的代码生成计划的子树)连成一个单一的Java函数旨在提高执行性能。它将查询合并为单个优化函数,该函数消除虚拟函数调用并利用CPU寄存器获取中间数据。

你可以在这里SPARK-12795

查看详细信息交换部件作业之间的洗牌交易所更多的细节:

ShuffleExchange是一元物理运算符。它对应于Repartition(启用了shuffle)和RepartitionByExpression逻辑运算符(在BasicOperators策略中转换)。

所有这些信息,你可以在你的代码中使用explaincommand

每一步都显示了你的数据框会做得到,这是好找,如果你的逻辑是正确的。如果您想了解更多关于Spark UI的详细信息,我建议您参阅Spark Summit的this演示文稿,并阅读有关执行计划的文章this

这些信息会告诉你更多关于你的疑问。

+1

解释命令对检查spark完成的优化非常有用。 –