如何避免“任务大小过大”？

我的问题是，在使用Spark SQL将表格非规范化为更大的表格时，我得到的任务大小过大。如何避免“任务大小过大”？

在人们指出其他答案说使用广播或避免关闭整个班级之前;让我说我已经阅读过这些内容，并且在使用Spark SQL时仍然特别困惑。

使用Spark SQL时，我的任务大小高达推荐大小的10倍。

这里的情况：

额外的信息：

你可以在问题中包含警告吗？你能显示导致警告的代码吗？ –

-1

火花，你可以选择caching (persistence) level一些大的内存中对象卸载到磁盘，并使用unpersist()选择哪一个已缓存的结果扔掉。

2017-03-06 06:03:54 ulysses

请充实一下你的回答，例如解释如何选择缓存级别以避免大量内存使用，以及如何使用'unpersist（）'来释放内存。 – ktdrv

回答